
Meta Platforms Inc.今日对外宣布,其已设计出四款定制芯片,旨在为内部的人工智能工作负载提供支持。
该公司上次更新其处理器开发工作是在2024年。当年4月,它推出了一款功耗为90瓦的定制AI加速器。Meta今天推出的四款加速器中,最先进的一款的热设计功耗为1700瓦。
公司在2024年4月揭示的定制芯片MTIA 200,专为运行排名和推荐模型而设计。这些神经网络用于决定在用户动态中显示哪些帖子和广告。
今天揭示的第一款新芯片MTIA 300,专注于相同的使用场景。在处理MX8格式的数据时,它可以提供1.2 petaflops的性能,并配备216 GB的HBM内存。
“MTIA 300由计算芯片组、两个网络芯片组以及若干HBM堆栈构成,”Meta的一组工程师在博客文章里这样描述。“每个计算芯片组都包含一个处理单元(PE)网格,网格中设置了部分冗余PE,目的是提升生产良率。”
MTIA 300是Meta已投入生产部署的四款新揭示芯片里唯一的一款。另外三款处理器适用的场景更为广泛,除了能处理排名和推荐类工作负载外,还可运行生成式AI软件,例如大型语言模型。
该系列里性能最顶尖的芯片MTIA 500,在处理MX8数据时能实现10 petaflops的运算能力。同时,它还兼容更高效的数据格式MX4。这种技术能减少AI模型为响应提示而需分析的字节量,进而提升处理效率。
MTIA 500借助四个逻辑芯片组来开展计算工作。该模块的周围环绕着多个HBM内存堆栈,这些堆栈总共能够存储高达516 GB的数据,这一存储容量是MTIA 300的两倍。在处理器组件清单的最后,是一个被称为SoC芯片组的部件,它主要负责与主机服务器之间进行信息的传输和接收。
MTIA 500预计将于2027年与性能稍逊的同类芯片MTIA 450同步投入生产。这两款处理器均针对生成式AI推理任务进行了优化,内置了专门加速推理流程中硬件密集型环节的电路,例如FlashAttention——这是大型语言模型(LLM)分析输入数据时广泛采用的注意力机制实现方案。
“在系统层面,MTIA 400、450和500都采用相同的机箱、机架与网络基础设施,”Meta工程师表示,“所以,每一代新芯片都能适配相同的物理空间,从而加快从芯片研发到生产部署的进程。我们这种模块化、可复用的设计,也能最大程度降低开发和部署多代芯片所需的资源投入。”
Meta借助定制编译器对其MTIA芯片上的AI模型展开优化。而另一个定制软件模块——Hoot Collective Communications Library,则负责管理处理器之间的数据流。该模块利用内存单元附近的晶体管来执行部分计算,以此缩短数据传输耗时,提升整体性能。
这些芯片发布还不到一个月,Meta就已同意向Nvidia Corp.与Advanced Micro Devices Inc.采购价值数十亿美元的处理器。差不多在同一时间,有消息人士向The Information透露,这家Facebook的母公司还打算采用Google LLC的TPU加速器。据报道,Meta将利用这些芯片来运行LLM。