据芯查查资讯,当地时间10月31日盘后,AMD发布了截至9月30日的第三季度财报。报告显示,AMD第三季度营收为58.00亿美元,同比增长4%,环比增长8%;净利润为2.99亿美元,同比增长353%,环比增长1007%。
按业务部门划分,AMD数据中心部门Q3营收为15.98亿美元;客户部门为14.53亿美元,同比增长42%;游戏部门为15.06亿美元,同比下降8%;嵌入式产品部门为12.43亿美元,同比下降5%;其他所有部门的运营亏损为10.42亿美元。
图片来源:Semianalysis,下同
AMD CEO苏姿丰表示:“公司取得了强劲的营收和利润增长,主要是受到我们的锐龙(Ryzen)7000系列PC处理器以及创纪录的服务器处理器销售额推动。”此外,她在电话会上表示,多家超大规模云计算公司已经承诺部署MI300,有望令其成为公司史上销售额最快达到10亿美元的产品:“我们现在预计,数据中心四季度GPU营收将达到约4亿美元,并将随着收入逐步增加,在2024年全年超过20亿美元。”
AMD目前在大型语言模型LLM训练和推理领域占据的市场份额小于0.1%,并将继续稳步获得数据中心的市场份额,其即将推出的MI300有望成为NVIDIA在LLM推理方面的唯一竞争对手。为了实现这一目标,AMD一直在大力投资他们自己的RoCM软件、PyTorch生态系统和OpenAI Triton。
而在此之外,NVIDIA在LLM推理能力方面可能没有真正的对手。
成为NVIDIA,这些厂商还差点
谷歌拥有成熟的硬件软件和TPU、OCS,在AI工作负载方面具有性能/TCO优势,但是这种优势仅仅对谷歌自身有用,原因有几点:
- 谷歌TPU只能从一家公司获得
- 谷歌只有在大量买家购买和部署他们的芯片之后,才会对这些芯片进行披露
- 谷歌多年来一直向用户隐藏包括内存/计算、网络/部署灵活性等在内的主要硬件功能
- 谷歌拒绝为想要编写自定义内核,以最大限度提高性能的玩家提供硬件文档
谷歌在AI基础设施方面最大的技术进步的把关欠缺,使他们在结构上落后于NVIDIA云产品,除非谷歌改变工作方式。
Cerebras在商用芯片上目前是最接近NVIDIA的竞争对手,针对GPT-3,拥有稳定性能和开源模型,但硬件可访问性有限,每台服务器成本高达数百万美元。在云端访问Cerebras的唯一方法是通过他们自己的产品,这种缺乏访问权限会降低开发灵活性。
相比而言,NVIDIA生态的核心是,用户可以在各种系统上进行开发,从数百美元的游戏GPU,到能够扩展或第三方云服务提供商的数万个GPU系统。
Tenstorrent等其他初创公司虽然有前景,但硬件/软件距离真正实现进步还有一段距离。
英特尔收购了两家数据中心AI硬件公司Nervana和Habana,但Nervana业务已经被砍掉,Habana也将遭遇相似的命运。英特尔目前的Habana Gaudi 2,除了在AWS上提供的一些实例,几乎没有被其他采用案例。英特尔已经将该路线图终止,最后的产品Falcon Shores GPU将于2025年推出。
MI300为什么会火?
AMD于2021年为全球首台ExaFLop超级计算机Frontier交付了HPC GPU芯片。虽然为Frontier提供动力的MI250X充分发挥了其主要作用,但它未能在云计算和超大规模企业中获得影响力。
AMD MI300将在今年晚些时候交付给El Capitan,这是AMD赢得的第二个百万兆次级超级计算机应用案例。出于这个原因,AMD MI300被认为是NVIDIA产品的有力竞争产品。
MI300的代号为Aqua Vanjaram,由几层复杂的硅组成,在今年CES上其结构被揭露,4个象限区域的硅被8个HBM堆栈包围,所使用的HBM3速率为5.6GT/s,包含8个16GB或者24GB堆栈,形成128GB或者192GB内存,带宽高达5.6TB/s。
与3.3TB/s带宽的H100 SXM 80GB相比,带宽增加了72%,容量提高了60%到140%。以这样的性能,AMD有理由在高支出的AI浪潮中分得一杯羹。
但就目前而言,AMD在生成式AI基础设施建设中相对落后,因为在数据中心GPU方面缺乏成功案例,因此MI300的成功至关重要。
MI300的基本模块:Elk Range
MI300的基本模块是AID,是一个也被称为Elk Range的chiplet,尺寸大约为370平方毫米,采用台积电N6工艺技术制造,所有MI300衍生产品都基于这个模块打造。
Elk Range包含2个HBM内存控制器、64MB MALL Infinity缓存、3个视频解码引擎、36个xGMI/PCIe/CXL通道,以及AMD片上网络(NOC)。总共256MB的MALL缓存,而H100的缓存为50MB。
CPU和GPU计算方面的模块化
AID最重要的部分是它在CPU和GPU计算方面的模块化。AMD和台积电使用混合键合(hybrid bonding技术)将AID连接到其他小芯片。这种连接,通过铜TSV允许AMD混合和匹配CPU与GPU的最佳比例。
这四个AID以超过4.3 TB/s的平分带宽相互通信,通过类似AMD的Navi31游戏显卡GPU当中的小芯片互连上的超短距离(USR)物理层实现,尽管这次同时具有水平和垂直链路以及对称的读/写带宽。方形拓扑还意味着对角连接需要2 hops,而相邻AID需要1 hop。
具体到GPU核心方面,其计算chiplet被称为XCD,代号为Banff,基于台积电N5工艺,面积约为115平方毫米,总共包含40个计算单元,尽管只启用了38个CU。该架构是从AMD的MI250X演变而来的,在GitHub上,AMD称其为GFX940,但公开称其为CDNA3。它针对计算进行了优化,尽管是一个“GPU”,但无法真正进行图形处理,同样英伟达的H100也是如此,它们的大部分GPC都无法进行图形处理。
每个AID总共可以有2个Banff管芯,总共有76个CU。MI300A的最大XCD/GPU配置将提供304个CU。相比之下,AMD的MI250X拥有220个CU。
先进封装
MI300的封装将100多块硅粘在一起,使用台积电CoWoS-S封装技术。从HBM存储层到有源中介层,从计算到用于结构支撑的空白硅,其中,巨大的中介层几乎是NVIDIA H100上的两倍。
复杂的封装需要AMD具备灵活性设计,才能按时获得MI300。最初的设计是使用有机再分布层(RDL)中介层和台积电CoWoS-R技术。事实上,台积电去年确实推出了一个CoWoS-R测试包,看起来与MI300的结构惊人地相似。也许中介层材料的改变是由于如此大尺寸的有机中介层的翘曲和热稳定性问题。
MI300的配置
AMD MI300有4种不同的配置,尽管不确定是否真的会发布所有4种配置。
MI300A采用异构CPU+GPU,也是El Capitan Exascale超级计算机使用的版本。MI300A在72×75.4mm基板上集成了散热结构,适合插槽SH5 LGA主板,每块板有4个处理器。它已经出货了,但实际上在第三季度会上升。标准服务器/节点将使用3个MI300A。不需要主机CPU,因为它是内置的。这是迄今为止市场上比较好的HPC芯片,并将持续一段时间。
MI300X是AI超大规模变体,如果在市场上获得成功,它将成为真正的体积推动者。其结构为全是GPU,以实现AI的最大性能。AMD推动服务器级配置是8个MI300X+2个Genoa CPU,还配备了更高密度的SK海力士24GB HBM堆栈。
MI300C使用96核Zen4+HBM,这个产品的市场空间较小,AMD生产这个产品的成本较高。
MI300P相当于半个MI300X,PCIe卡中以较低功率进行连接。此外,同样需要主机CPU,这将是最容易开始开发的产品,但预计要在2024年发布。
小结
作为AMD的重磅产品,MI300能否为第四季度财报做出贡献目前还是未知数。但是从参数上看,MI300具有一些符合AI工作负荷的优势。如果MI300获得成功,将使得AMD在服务器和数据中心的市场份额有所提升。
全部评论