据《科创板日报》报道,华为计划于8月12日在2025金融AI推理应用落地与发展论坛上,发布其在AI推理领域的最新技术成果。该成果有望减少中国AI推理对高带宽内存(HBM)技术的依赖,同时提升国内AI大模型的推理性能,进一步完善中国AI推理生态。
华为在AI推理领域已有显著进展。今年3月,北京大学与华为联合发布了DeepSeek全栈开源推理方案,该方案基于北大自研的SCOW算力平台系统和鹤思调度系统,整合了DeepSeek、openEuler、MindSpore及vLLM/RAY等开源组件,实现了在华为昇腾芯片上的高效DeepSeek推理。
在性能突破方面,华为昇腾已取得多项成就。例如,CloudMatrix 384超节点在部署DeepSeek V3/R1时,在50ms时延约束下,单卡Decode吞吐量突破1920 Tokens/s;Atlas 800I A2推理服务器在100ms时延约束下,单卡吞吐量达到808 Tokens/s。
此外,科大讯飞与华为的合作也取得了显著成果。双方率先实现了国产算力上MoE模型的大规模跨节点专家并行集群推理,使推理吞吐量提升了3.2倍,端到端时延降低了50%。 |