华为盘古Ultra模型性能比肩DeepSeek-R1：国产AI算力生态迈向新高度

2025年4月20日更新

273

在人工智能领域，华为再次展现了其强大的技术实力与创新精神。2025年4月16日，华为最新发布的密集模型——盘古Ultra，在性能上已与国际顶尖模型DeepSeek-R1相媲美，这一成就不仅标志着国产AI算力生态的进一步成熟，更彰显了华为在超大规模模型训练领域的自主可控技术实力。

华为盘古Ultra模型是一款拥有1350亿参数的密集大模型，其整个训练过程完全基于华为自研的昇腾AI集群，未使用任何英伟达硬件。这一突破性的技术实现，打破了以往国内研究团队在获取高性能计算资源方面的限制，为国内大模型技术的快速发展开辟了新道路。

盘古Ultra模型在复杂推理、多模态理解等任务中表现优异，这得益于华为团队在模型架构和系统优化方面的深入研究和创新。为了稳定训练过程，华为团队提出了深度缩放夹心归一化（Depth-Scaled Sandwich-Norm）和微小初始化（TinyInit）两种关键技术。这些技术有效解决了超深网络训练中的不稳定性和收敛困难等问题，使得盘古Ultra模型能够在13.2万亿高质量数据上进行全流程无损失突刺的长稳训练。

在预训练阶段的评估中，盘古Ultra模型在绝大多数英文基准任务以及所有中文任务上均取得了最佳性能，显著优于Llama 405B、DeepSeek-V3等主流基线模型。特别是在MMLU、TriviaQA、GSM8K等高难度数据集上，盘古Ultra展现了卓越的语言理解与推理能力。

经过进一步的指令微调后，盘古Ultra模型的性能得到了进一步提升。在AIME 2024、MATH-500等数学推理任务以及LiveCodeBench等编程竞赛题中，盘古Ultra达到了业界领先水平。此外，在Arena Hard、MMLU-pro等涉及通用语言理解和推理能力的测试中，盘古Ultra同样表现出色，充分展示了其在高性能推理领域的竞争力和技术实力。

华为表示，盘古Ultra模型的未来应用前景广阔。凭借其卓越的性能和自主可控的技术实力，盘古Ultra将优先应用于金融、医疗等行业。在金融领域，盘古Ultra可以帮助银行和金融机构进行智能风控，提高信贷审批效率和准确性；在医疗领域，盘古Ultra可以辅助医生进行疾病诊断和治疗方案制定，提高医疗服务的质量和效率。

值得一提的是，盘古Ultra模型的训练过程完全基于国产技术栈，未使用任何英伟达硬件。这一成就不仅体现了华为在AI芯片和计算集群方面的技术积累和创新能力，也彰显了国产AI算力生态的进一步成熟和自主可控的重要性。

总之，华为盘古Ultra模型的发布是国产AI算力生态迈向新高度的重要标志。随着盘古Ultra在金融、医疗等行业的广泛应用和不断迭代升级，我们有理由相信，国产AI技术将在全球范围内展现出更加强劲的竞争力和影响力。

友情提示：软盟，拥有10余年经验的互联网应用软件技术开发商，提供全栈解决方案及软件外包服务，专注AI应用、区块链系统、Web系统、物联网系统定制，还为企业量身开发App和小程序。软盟融合AI大模型与区块链技术，助力企业数字化转型与商业模式创新，涵盖电商全链路系统开发及源码交付，帮企业构建全场景生态，实现业务高效升级。欢迎咨询本站的技术客服人员为您提供相关技术咨询服务，您将获得最前沿的技术支持和最专业的开发团队！更多详情请访问软盟官网https://www.softunis.com获取最新产品和服务。

文章版权归作者所有，未经允许请勿转载。若非本站原创的文章，特别作如下声明：本文刊载所有内容仅供提供信息交流和业务探讨而非提供法律建议目的使用，不代表任何监管机构的立场和观点。不承担任何由于内容的合法性及真实性所引起的争议和法律责任；凡注明为其他媒体来源的信息，均为转载，版权归版权所有人所有；如有未注明作者及出处的文章和资料等素材，请版权所有者联系我们，我们将及时补上或者删除，共同建设自媒体信息平台，感谢你的支持！

THE END