在过去的几十年里,数据处理和存储系统可以用最好的组件来构建,而市场可以在计算、网络和存储每一类别中支持多个竞争性技术供应商。
但在后摩尔定律时代,IT领域的思维正变得越来越垂直。因此,跨计算、存储、网络和系统软件的垂直集成堆栈的协同设计,是保持系统级总拥有成本降低的主要方式之一,而过去我们只是通过晶体管缩小和半导体的一些适度包装技巧来实现这种降低。
这就是为什么英特尔、英伟达和AMD都在建立他们的计算和网络武器库,并在这两方面做非常具体的事情,以帮助改善它们在存储方面的运作方式。(英特尔已经剥离了自己的闪存业务,我们将看到Optane持久存储的情况。)
鉴于此,我们在本月早些时候AMD举办的金融分析师日上饶有兴趣地关注了该公司通过490亿美元收购FPGA和适配器卡制造商Xilinx以及19亿美元收购DPU制造商Pensando获得的网络适配器。虽然这两笔交易为AMD提供了网络适配器和各种进入网络的软件,并聘请了世界上最优秀的SerDes (Xilinx)和包处理引擎(Pensando)设计人员,但我们认为这两笔收购都还不够深入。AMD需要有数据中心交换,而且很可能也需要那种正在向混合商用芯片转移的路由。
我们知道你在想什么。AMD上一次进军网络领域是在2012年2月,当时它斥资3.34亿美元收购了微服务器制造商seammicro,主要是为了获得作为seammicro机器核心的1.28 Tb/秒的“Freedom”3D环面互连技术,但结果并不理想。公平地说,英特尔自己购买的Fulcrum Microsystems、QLogic InfiniBand 和 Cray “Gemini” XT 和“Aries” XC 超级计算机互连也没有完全满足英特尔的需求。当时,计算机行业的每个人都惊呆了,因为思科系统公司(Cisco Systems)凭借其“California Unified Computing System”创造了融合服务和网络,并试图几乎是条件反射式地进入网络游戏。
好吧,我们已经有十年的时间来反思刀片计算和集成服务器交换混合的第一阶段,它的架构比思科梦想的UCS平台更灵活,比IBM、HPE、戴尔和其他公司在捣平他们的服务器和交换设备时所效仿的架构更有必要。
从长远来看,控制平面将与系统中的应用程序和数据平面隔离开来,这些应用程序和数据平面将由运行裸金属、虚拟化或容器化实例的集群组成。控制平面的隔离将由DPU提供,我们可以把CPU想象成一个大内存计算引擎,具有非常快的串行处理和一些体面的矩阵和向量数学,用于挂在DPU上的AI推理。GPU是一个快速的并行处理器,用于加速大量并行代码的部分,FPGA还挂起DPU来提供加速的数据流应用程序,否则可能会使用Java为CPU编写。(Xilinx销售的Solarflare FPGA加速SmartNICs就是一个较早的例子,它将FPGA置于“导线中的凸起”,以便在数据到达CPU之前对金融交易进行预处理。)FPGA还包括硬编码的DSP块,本质上是可以加速AI推断的矩阵引擎,这就是为什么AMD将这些DSP块(它称之为AI引擎)从Xilinx混合FPGA设备移动到其客户端和服务器CPU。
计算引擎的集合以及不同种类的缓存和存储器可以被组合在一起作为芯片,并放入一个单一的封装中——一个插槽或某种类型的模块。但最终,不管这个抽象被称为什么——主板、插槽、计算综合体——它都将与DPU通信,然后与充满客户端、其他计算引擎和存储的网络通信。
通过Xilinx和Pensando的交易,AMD已经覆盖了中期的SmartNIC和新兴的DPU基础——一旦PCI-Express交换路线图加速和CXL协议出现并开放存储和内存层次结构,这些可能不在服务器内部。
我们还没有完全接受这种以DPU为中心的世界观,在此期间,AMD必须销售已有的产品。
其中包括 FPGA 加速的 Solarflare SmartNIC,专为低延迟和高吞吐量而设计,以及更强大、计算更密集的 Alveo FPGA 加速 SmartNIC,其具有可以应对数据中心解决方案总经理 Forrest Norrod 的数据包处理引擎AMD 的团队(这是 Norrod 曾经经营的戴尔定制服务器业务的名称,并非巧合),称“极端数据包处理速率”。
当前的 Alveo“自适应网络加速器”,正如 Norrod 所说,现在正在向超大规模和云构建者客户发货,它有两个 200 Gb/秒的端口,可以通过 FPGA 引擎每秒处理 4 亿个数据包。这不仅仅是像 Solarflare 适配器那样的电线上的一个凸起,而是几个凸起。
在2024年还会有一个后续的Alveo SmartNIC问世,我们认为当它插入服务器的PCI-Express 6.0插槽时,它将使数据包处理速率加倍,并将端口带宽加倍到400 Gb/秒。
同名的Pensando DPU不是用C转换为VHDL或直接用VHDL可编程的,而是用斯坦福大学的P4网络编程语言,这是谷歌和现在的英特尔在2019年6月收购可编程开关ASIC制造商Barefoot Networks后所支持的。Pensando DPU拥有P4中可编程的包处理引擎,可以支持以线速度同时运行的多个服务,并处理通过配备它们的服务器舰队的数千万网络流。
确切地说,Pensando团队创造的“Elba”芯片有144个P4包处理器,其中一些人为思科带来了Nexus交换机和UCS服务器。该Elba器件是奔山度第二代DPU ASIC,采用了台积电7纳米技术,封装了两个端口,运行速度为200 Gb/秒。
这一切都很好,而且当涉及到网络时,它给了AMD足够的机会与超大规模企业、云构建器、HPC中心和大型企业进行交流。但是像英伟达和英特尔一样,AMD需要拥有更多的网络设备。它不能仅仅停留在SmartNIC和DPU上,因为交换机、路由器、DPU和上面提到的无数计算引擎将不得不协同工作,在计算网络综合体的正确部分进行某些类型的集体处理。
你开始的地方并不总是你结束的地方。这里有一个很好的例子。亚马逊网络服务公司在2015年以3.5亿美元的价格收购了Annapurna Labs,后者当时正在设计其最初的“Nitro”dpu。Annapurna团队进行了几次Nitro迭代,然后转向Graviton cpu和专门的人工智能训练ASIC (Trainium),以及专门的用于人工智能推理的矩阵数学引擎(Inferentia)。我们也认为有一个很好的机会,同样的Annapurna团队已经扩展到交换机ASIC。
如果Annapurna的成立是为了创造SmartNIC引擎,它可以向下移动到XPU,甚至可能向上移动到交换和路由器ASIC,那么为什么Pensando团队不能也向上移动到交换ASIC?这并不是说Pensando的创始人以前从未见过开关或路由器ASIC。他们现在可以使用Xilinx的高速Serdes和大量的P4技术,并可能创造一个非常好的交换机和路由器ASIC阵容,并与英特尔、英伟达、Marvell、博通和思科竞争。
或者AMD可以走一条更快捷的路线,收购Xsight Labs。Xsight Labs是由EZchip的创始人创建的新兴的开关ASIC制造商,在英伟达收购Mellanox前几年被Mellanox收购,作为其DPU业务的基础。(坦率地说,EZchip是Mellanox价值如此之高的原因之一。)Xsight Labs于2020年12月开始采样X1 asic,这是一款25.6 Tb/秒的设备,支持32个端口,运行速度为800 Gb/秒,以及12.8 Tb/秒的设备,支持32个端口,运行速度为400 Gb/秒。这些设备使用带有PAM-4编码的100gb /秒信号,以200 Gb/秒的速度从SerDes中输出,据我们所知,这已经相当不错了。Xsight Labs自五年前成立以来,在四轮1.16亿美元的融资中,英特尔、微软和Xilinx都占了很大一部分。
但正如我们所说,AMD现在有能力从头开始制造自己的交换机ASIC,而Xsight Labs,我们认为是渴望上市或出售,可能要价太高。但让我们面对现实吧:对于一个交换机ASIC制造商来说,目前能有多少潜在买家?Marvell已经拥有Xpliant、Innovium和它自己的Prestera产品。英特尔有 Fulcrum 和 Barefoot。博通已经有三条用于交换和路由的专用集成电路。思科有用于交换和路由的 Silicon One,它看起来是一个非常好的架构。伽利略技术公司(2001年以27亿美元卖给Marvell)、EZchip公司(2015年以8.11亿美元卖给Mellanox)、Annapurna Labs (2015年以3.5亿美元卖给AWS)和Habana Labs (2019年以20亿美元卖给英特尔),很久以前就完成了所有这些计算。
如果AMD不与Xsight Labs谈判,我们会非常惊讶。如果不是,AMD应该拿起电话打给以色列。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3082内容,欢迎关注。
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
如若转载,请注明出处:https://www.xiezuozhinan.com/11329.html