AMD发布ROCm 7开发平台:AI训练与推理性能最高提升3.8倍
6月13日消息,AMD在Advancing AI 2025峰会上正式发布了新一代开源软件栈技术ROCm 7,该版本在AI训练和推理性能上实现了显著提升,最高可达3.8倍,进一步强化了AMD在AI计算领域的竞争力。
关键性能提升
- 推理性能:相比ROCm 6,ROCm 7在多个主流AI模型上表现突出,其中:DeepSeek R1 提升 3.8倍Llama 3.1 70B 提升 3.2倍Qwen2-72B 提升 3.4倍。
- 训练性能:在Llama 2/3.1、千问1.5等模型上,训练速度普遍提升3倍以上。
主要新特性
- 支持最新AI框架:如vLLM v1、SGLang、llm-d,优化大模型推理效率。
- 低精度计算支持:全面兼容FP8、FP6、FP4及混合精度计算,特别优化MI350系列GPU的FP6/FP4性能。
- 企业级功能:新增分布式推理优化、集群管理工具,并引入ROCm Enterprise AI,提供MLOps支持。
- 跨平台扩展:新增对Windows的PyTorch和ONNX-EP支持(2025年Q3发布),并优化Linux发行版兼容性(如Ubuntu、Red Hat EPEL)。
硬件协同优化
ROCm 7针对AMD最新Instinct MI350系列GPU(3nm制程,288GB HBM3E内存)进行了深度优化,使其在FP8精度下,DeepSeek R1推理吞吐量比NVIDIA B200高出30%48。此外,MI355X在Llama 3.1 405B模型上的性能与NVIDIA GB200相当,展现了AMD在AI加速领域的强劲实力。
开发者生态增强
AMD同步推出开发者云服务,提供免费试用额度,支持即时访问MI350 GPU,帮助开发者快速部署AI应用。
ROCm 7预计于2025年第三季度正式上市,进一步推动开放AI生态的发展5。此次升级标志着AMD在AI软件栈上的重大突破,为开发者提供了更高效的AI计算解决方案。