CPO技术在AI算力中的核心作用

说起算力基础设施的演进，有一项技术正在悄然改变AI数据中心的设计逻辑——共封装光学（Co-Packaged Optics，下文简称CPO）。当大模型参数规模突破万亿级别，训练集群扩展至万卡甚至十万卡规模时，服务器之间、GPU之间的互联带宽成为制约算力效率的关键瓶颈。传统可插拔光模块的功耗问题、电信号传输距离带来的延迟损耗，在这波AI浪潮中被无限放大，而CPO的出现恰恰瞄准了这些痛点。

CPO解决的核心问题

AI训练集群中，GPU之间的通信带宽需求正以惊人速度增长。以英伟达H100为例，服务器内部NVLink互连带宽已达900GB/s，而跨服务器的InfiniBand网络更是需要400G甚至800G光模块支撑。这种量级的数据传输如果仍沿用可插拔光模块方案，光模块本身的功耗会占据整个系统功耗的30%以上。更棘手的是，传统方案中光模块与交换芯片之间的电信号需要经过PCB板走线，高频信号衰减严重，信号完整性成为制约SerDes速率进一步提升的物理极限。

CPO的破局思路是将光模块的收发芯片（TIA、Driver IC）与交换ASIC共同封装在同一个基板上，光信号在芯片内部直接转换为电信号，彻底省去了PCB走线的损耗环节。这意味着什么呢？同等带宽下，CPO方案可将光模块功耗降低40%至50%，信号传输距离从厘米级缩短至毫米级，延迟降低的同时还能释放出宝贵的PCB面积用于其他计算元件布置。对于追求极致能效比的AI数据中心而言，这直接转化为运营成本的大幅下降和算力密度的进一步提升。

产业落地的关键节点

不过话说回来，CPO的产业化道路并非一片坦途。最大的挑战在于可维护性——传统可插拔方案支持热拔插，现场更换仅需数分钟；而CPO的光引擎与芯片封装在一起，任何故障都可能需要更换整个模块，运维复杂度陡增。这直接影响了云厂商的部署意愿，目前主流方案商更多聚焦于对可靠性要求极高但维护成本相对可控的新建AI集群。

从时间线来看，博通、英特尔等交换芯片巨头已将CPO列为800G/1.6T时代的核心路线图，台积电CoWoS封装平台的成熟也为CPO提供了关键的制造基础。行业普遍预期，2025年至2026年将成为CPO在超大规模数据中心规模部署的关键窗口期。届时，随着CPO光引擎的成本进一步下探、良率持续攀升，这项技术有望从“高端定制”走向“普惠标配”，成为下一代AI基础设施的标配互联方案。届时，数据中心的能效曲线将被重新改写。

CPO技术在AI算力中的核心作用

CPO解决的核心问题

产业落地的关键节点

推荐话题

发表回复取消回复

CPO解决的核心问题

产业落地的关键节点

推荐话题

发表回复 取消回复

发表回复取消回复