AMD发布ROCm 7开发平台:AI训练与推理性能最高提升3.8倍

6月13日消息,AMD在Advancing AI 2025峰会上正式发布了新一代开源软件栈技术ROCm 7,该版本在AI训练和推理性能上实现了显著提升,最高可达3.8倍,进一步强化了AMD在AI计算领域的竞争力。

关键性能提升

  • 推理性能:相比ROCm 6,ROCm 7在多个主流AI模型上表现突出,其中:DeepSeek R1 提升 3.8倍Llama 3.1 70B 提升 3.2倍Qwen2-72B 提升 3.4倍。
  • 训练性能:在Llama 2/3.1、千问1.5等模型上,训练速度普遍提升3倍以上。

主要新特性

  • 支持最新AI框架:如vLLM v1、SGLang、llm-d,优化大模型推理效率。
  • 低精度计算支持:全面兼容FP8、FP6、FP4及混合精度计算,特别优化MI350系列GPU的FP6/FP4性能。
  • 企业级功能:新增分布式推理优化、集群管理工具,并引入ROCm Enterprise AI,提供MLOps支持。
  • 跨平台扩展:新增对Windows的PyTorch和ONNX-EP支持(2025年Q3发布),并优化Linux发行版兼容性(如Ubuntu、Red Hat EPEL)。

硬件协同优化

ROCm 7针对AMD最新Instinct MI350系列GPU(3nm制程,288GB HBM3E内存)进行了深度优化,使其在FP8精度下,DeepSeek R1推理吞吐量比NVIDIA B200高出30%48。此外,MI355X在Llama 3.1 405B模型上的性能与NVIDIA GB200相当,展现了AMD在AI加速领域的强劲实力。

开发者生态增强

AMD同步推出开发者云服务,提供免费试用额度,支持即时访问MI350 GPU,帮助开发者快速部署AI应用。

ROCm 7预计于2025年第三季度正式上市,进一步推动开放AI生态的发展5。此次升级标志着AMD在AI软件栈上的重大突破,为开发者提供了更高效的AI计算解决方案。

image.png

AMD发布ROCm 7开发平台:AI训练与推理性能最高提升3.8倍

6月13日消息,AMD在Advancing AI 2025峰

长按识别二维码