查看: 3158|回复: 14

苏姿丰2小时激情演讲！发布AMD最强AI芯片，OpenAIMicroSoft都来站台 [复制链接]

PH值

军衔等级：

少将

注册：2016-11-17 点赞数

275

发表于 2024-10-11 09:31:03 |显示全部楼层

智东西

智东西美国旧金山10月10日现场报道，酷热的天气刚刚过去，旧金山正值秋意凉爽，今日举行的AMD Advancing AI 2024盛会却格外火热。

AMD倾囊倒出了一系列AI杀手锏，发布全新旗舰AI芯片、服务器CPU、AI网卡、DPU和AI PC移动处理器，将AI计算的战火烧得更旺。

f2deb48f8c5494ee89f896bc81df23f098257e72.jpeg@f_auto?token=7f9dff8c47fc069f69ebb042ba6ca337

这家芯片巨头还大秀AI朋友圈，现场演讲集齐了GOOGLE、OpenAI、MicroSoft、Meta、xAI、Cohere、RekaAI等重量级AI生态伙伴。

备受期待的旗舰AI芯片AMD Instinct MI325X GPU首次启用HBM3E高带宽内存，8卡AI峰值算力达到21PFLOPS，并与去年发布的、同样采用HBM3E的英伟达H200 GPU用数据掰手腕：内存容量是H200的1.8倍，内存带宽、FP16和FP8峰值理论算力都是H200的1.3倍。

b17eca8065380cd7ffe31bf00d6e6e3a588281e3.png@f_auto?token=01f7412eefd22a95abc0c8be36fc4c63

AMD还披露了最新的AI芯片路线图，采用CDNA 4架构的MI350系列明年上市，其中8卡MI355X的AI峰值算力达到74PFLOPS，MI400系列将采用更先进的CDNA架构。

838ba61ea8d3fd1f339045d69c64e61194ca5f7e.jpeg@f_auto?token=94e2ef835a9b2ae5de5c40947db460cc

更高的数据中心算力，离不开先进的网络解决方案。对此，AMD发布了业界首款支撑UEC超以太网联盟的AI网卡Pensando Pollara 400和性能翻倍提升的Pensando Salina 400 DPU。

0d338744ebf81a4cfb17eaa67b00a357252da675.jpeg@f_auto?token=abea229832f2a678cbb54cd4107b32e3

另一款重磅新品是第五代EPYC服务器CPU，被AMD称为“面向云计算、企业级和AI的全球最好CPU”，采用台积电3/4nm制程工艺，最多支撑192核、384个线程。其中顶配EPYC 9965默认热设计功耗500W，以1000颗起订的单价为14813美金（约合人民币10万元）。

ae51f3deb48f8c54b78ef1809603eefbe1fe7ffc.png@f_auto?token=a9fd1816898f39ffb8175dd0e30350c7

与第五代英特尔至强铂金8592+处理器相比，AMD EPYC 9575F处理器的SPEC CPU性能提高多达2.7倍，企业级性能提高多达4.0倍，HPC（高性能计算）性能提高多达3.9倍，基于CPU的AI加速提高多达3.8倍，GPU主机节点提升多达1.2倍。

自2017年重回数据中心市场后，AMD一路势头强劲：其数据中心CPU收入市占率在2018年还只有2%，今年上半年已攀爬到34%，在全球覆盖超过950个云实例和超过350个OxM平台。

d31b0ef41bd5ad6e322929a12de1fad5b7fd3c66.jpeg@f_auto?token=4411969c024ec761cf280e8b9dec42a2

AMD是唯一一家能够提供全套CPU、GPU和网络解决方案来满足现代数据中心所有需求的企业。

AI PC芯片也迎来了新成员——AMD第三代商用AI移动处理器锐龙AI PRO 300系列。它被AMD称作“为下一代企业级AI PC打造的全球最好处理器”，预计到2025年将有超过100款锐龙AIPROPC上市。

64380cd7912397ddefea0328f5a871b9d1a287c0.png@f_auto?token=0abe522ad7f6dcc60fac70c0e0b2704d

一、旗舰AI芯片三代同堂：内存容量带宽暴涨，峰值算力冲9.2PF

AI芯片，正成为AMD业务增长的重头戏。

AMD去年12月发布的Instinct MI300X加速器，已经成为AMD历史上增长最快的产品，不到两个季度销售额就超过了10亿美金。

今年6月，AMD公布全新年度AI GPU路线图，最新一步便是今日发布的Instinct MI325X。在7月公布季度财报时，AMD董事会主席兼CEO苏姿丰博士透露，AMD预计其今年数据中心GPU收入将超过45亿美金。

MicroSoft、OpenAI、Meta、Cohere、Stability AI、Lepton AI（贾扬清创办）、World Labs（李飞飞创办）等企业的很多主流生成式AI解决方案均已采用MI300系列AI芯片。

aa18972bd40735fa5d91c32c327bccbd0e2408ff.jpeg@f_auto?token=1f5dee04fbb6aee50f6b677529bf8a24

MicroSoft董事长兼CEO萨提亚·纳德拉对MI300赞誉有加，称这款AI加速器在MicroSoftAzure工作负载的GPT-4推理上提供了领先的价格/性能。

基于Llama 3.1 405B运行对话式AI、内容生成、AI Agent及聊天机器人、总结摘要等任务时，MI300的推理速度最多达到英伟达H100的1.3倍。

f2deb48f8c5494ee48f5574d81df23f098257e4c.jpeg@f_auto?token=3cd10f52b99e1fbad8534cfc184e9e45

新推出的MI325X进一步抬高性能，跑Mixtral 8x7B、Mistral 7B、Llama 3.1 70B等大模型的推理性能，比英伟达H200快20%~40%。

9a504fc2d5628535c78a11243cc5b5c8a7ef6302.png@f_auto?token=0e9521ef9fb39c3ad6fac27337def58c

MI325X拥有1530亿颗晶体管，采用CDNA 3架构、256GB HBM3E内存，内存带宽达6TB/s，FP8峰值性能达到2.6PFLOPS，FP16峰值性能达到1.3PFLOPS。

fcfaaf51f3deb48f8d09b6a65c35f9272df5781a.png@f_auto?token=ba160b92bdea8cb0d4f58df8dee149b3

由8张MI325X组成的服务器平台有2TB HBM3E内存；内存带宽达到48TB/s；Infinity Fabric总线带宽为896GB/s；FP8性能最高达20.8PFLOPS，FP16性能最高达10.4PFLOPS。

21a4462309f79052b706ed57a0d914c47bcbd573.jpeg@f_auto?token=527591ffae8762d0973cdf933cba98c7

相比英伟达H200 HGX，MI325X服务器平台在跑Llama 3.1 405B时，推理性能可提高40%。

bf096b63f6246b6066cce83b47d2d942500fa27c.jpeg@f_auto?token=0087e28d5311a2922b4ae4ebf1c15925

从训练性能来看，单张MI325X训练Llama 2 7B的速度超过单张H200，8张MI325X训练Llama 2 70B的性能比肩H200 HGX。

10dfa9ec8a1363276a2b43bb3da563e209fac729.jpeg@f_auto?token=19ac6a2cfc7a6f0ecb615be859b2c6f1

AMD Instinct MI325X加速器或将于今年第四季度投产，将从明年第一季度起为平台供应商提供。

下一代MI350系列采用3nm制程工艺、新一代CDNA 4架构、288GB HBM3E内存，新增对FP4/FP6数据类型的支撑，推理性能相比基于CDNA 3的加速器有高达35倍的提升，有望在2025年下半年上市。

c9fcc3cec3fdfc039d2b981b7815449aa5c226fe.jpeg@f_auto?token=0dba57a290cb61f84743f36176b6e7ee

MI355X加速器的FP8和FP16性能相比MI325X提升了80%，FP16峰值性能达到2.3PFLOPS，FP8峰值性能达到4.6PFLOPS，FP6和FP4峰值性能达到9.2PFLOPS。

dc54564e9258d109f5156c787d720fb16d814d3b.jpeg@f_auto?token=3d5b0d2692eb4ed50e118aa31f2e780d

8张MI355X共有2.3TB HBM3E内存，内存带宽达到64TB/s，FP16峰值性能达到18.5PFLOPS，FP8峰值性能达到37PFLOPS，新增FP6和FP4的峰值性能为74PFLOPS。

f3d3572c11dfa9ec130142f5cefa340d908fc1da.png@f_auto?token=d771b207a0f1f6b2b891de40486e0b55

三代GPU的配置显著升级：相比8卡MI300X，8卡MI355X的AI峰值算力提升多达7.4倍、HBM内存提高多达1.5倍、支撑的模型参数量提升幅度接近6倍。

a71ea8d3fd1f41345317b2a28e3556c4d0c85e87.png@f_auto?token=58a7390ee65ec9a7bcb70f2f68c6350b

AMD持续投资App和开放生态系统，在AMD ROCm开放App栈中提供新特性和功能，可原生支撑主流AI框架及工具，具备开箱即用特性，搭配AMD Instinct加速器支撑主流生成式AI模型及Hugging Face上的超过100万款模型。

7af40ad162d9f2d30f964e0f05c6491d6227cc00.jpeg@f_auto?token=cece9f46d887538460b050476b060211

ROCm 6.2现包括对关键AI功能的支撑，如FP8数据类型、Flash Attention、内核融合等，可将AI大模型的推理性能、训练性能分别提升至ROCm 6.0的2.4倍、1.8倍。

faedab64034f78f01ae135aed51bc95bb2191cba.jpeg@f_auto?token=01ca29aadadb406a989b8f6baab357e0

此前AMD收购了欧洲最大的私人AI实验室Silo AI，以解决消费级AI最后一英里问题，加快AMD硬件上AI模型的开发和部署。欧洲最快的超级计算机LUMI便采用AMD Instinct加速器来训练欧洲语言版的大语言模型。

二、下一代AI网络：后端引入业界首款支撑UEC的AI网卡，前端上新400G可编程DPU

网络是实现最佳系统性能的基础。AI模型平均有30%的训练周期时间都花在网络等待上。在训练和分布式推理模型中，通信占了40%-75%的时间。

77c6a7efce1b9d16945f193e5ff477818d54648a.jpeg@f_auto?token=f4880f93d578700d4d6701751311f208

AI网络分为前端和后端：前端向AI集群提供数据和信息，可编程DPU不断发展；后端管理加速器与集群间的数据传输，关键在于获得最大利用率。

为了有效管理这两个网络，并推动整个系统的性能、可扩展性和效率提升，AMD今日发布了应用于前端网络的Pensando Salina 400 DPU和应用于后端网络的Pensando Pollara 400网卡。

ac345982b2b7d0a279f6bdda67c5b5074b369a77.png@f_auto?token=c5bf92715eccb5689ec116ec8a02437b

Salina 400是AMD第三代可编程DPU，被AMD称作“前端网络最佳DPU”，其性能、带宽和规模均提高至上一代DPU的两倍；Pollara 400是业界首款支撑超以太网联盟（UEC）的AI网卡。

3812b31bb051f8197a7996de769e89e32f73e784.jpeg@f_auto?token=b06949841a8723186d21b324880948f6

Salina 400支撑400G吞吐量，可实现快速数据传输速率，可为数据驱动的AI应用优化性能、效率、安全性和可扩展性。

Pollara 400采用AMD P4可编程引擎，支撑下一代RDMAApp，并以开放的网络生态系统为后盾，对于在后端网络中提供加速器到加速器通信的领先性能、可扩展性和效率至关重要。

2fdda3cc7cd98d1089fdbabe8d157b007aec90c9.jpeg@f_auto?token=33ab09ff85a5defad55d4f2c295261af

UEC Ready RDMA支撑智能数据包喷发和有序消息传递、避免拥塞、选择性重传和快速损失恢复。这种传输方式的消息完成速度是RoCEv2的6倍，整体完成速度是RoCEv2的5倍。

在后端网络，相比InfiniBand，以太网RoCEv2是更好的选择，具有低成本、高度可扩展的优势，可将TCO节省超过50%，能够扩展100万张GPU。而InfiniBand至多能扩展48000张GPU。

e61190ef76c6a7efddcc97cc51d06c5ff2de662e.jpeg@f_auto?token=9ecc16a650c52b1bdc52f15917a9029c

三、服务器CPU：3/4nm制程，最多192核/384线程

今年7月公布财报时，苏姿丰提到今年上半年，有超过1/3的企业服务器订单来自首次在其数据中心部署EPYC服务器CPU的企业。

cc11728b4710b9120a9d545d6fd73f0d934522ea.jpeg@f_auto?token=0385c10f21a7cff019449a7b397183c3

第五代EPYC处理器9005系列（代号“Turin”）专为现代数据中心设计。

314e251f95cad1c8634d4fadd314a407c83d517b.png@f_auto?token=cf061abc59f0dc7dbe056e78d7c4987c

该处理器在计算、内存、IO与平台、安全四大层面全面升级。

5366d0160924ab18034008aa99d025c37a890b96.png@f_auto?token=02038bfe2ce8921e9000c3515ce3c225

第五代EPYC拥有1500亿颗晶体管，采用台积电3/4nm 制程、全新“Zen 5” 及“Zen 5c”核心兼容广泛部署的SP5平台，最多支撑192核、384个线程，8~192核的功耗范畴为155W~500W。

3bf33a87e950352af360abdfff6938fcb3118b99.jpeg@f_auto?token=962fd92671eebd4136a08d0e5e6e775e

它支撑AVX-512全宽512位数据路径、128 PCIe 5.0/CXL 2.0、DDR5-6400MT/s内存速率，提升频率高达5GHz，机密计算的可信I/O和FIPS认证正在进行中。

与“Zen 4”相比，“Zen 5”核心架构为企业和云计算工作负载提供了提升17%的IPC（每时钟指令数），为AI和HPC提供了提升37%的IPC。

在SPEC CPU 2017基准测试中，192核EPYC 9965的整数吞吐量是64核至强8592+的2.7倍，32核EPYC 9355的每核心性能是32核6548Y+的1.4倍。

5bafa40f4bfbfbedb15769d5d4da3438aec31fc2.jpeg@f_auto?token=6b0a36ee797013e825fd04ef09199daf

跑视频转码、商用App、开源数据库、图像渲染等商用工作负载时，192核EPYC 9965的性能达到64核至强8592+性能的3~4倍。

caef76094b36acaf8d4cc79cd0f34e1e00e99cdf.png@f_auto?token=bcd469301bee056dce22d259e0f36d8c

在处理开源的HPC密集线性求解器、建模和仿真任务时，EPYC 9965的性能可达到至强8592+性能的2.1~3.9倍。

58ee3d6d55fbb2fbb57cbc8ce360e3aa4723dc97.jpeg@f_auto?token=7882ec78ab4b38ccd9dce507756f8ae9

达到相同性能，第五代EPYC所需的服务器数量更少，有助于降低数据中心的TCO（总拥有成本）以及节省空间和能源。

例如，要达到总共391000个单位的SPECrate 2017_int_base性能得分，相比1000台搭载英特尔至强铂金8280的服务器，现在131台搭载AMD EPYC 9965的现代服务器就能实现，功耗、3年TCO均显著减少。

e850352ac65c103851c10bae1e3b501db17e89dc.jpeg@f_auto?token=d9e94d68855794c17a65e84150330b6a

通过优化的CPU+GPU解决方案，AMD EPYC CPU不仅能处理传统通用目的的计算，而且能胜任AI推理，还能作为AI主机处理器。

4b90f603738da9772a98366f1c7b3b178718e3fc.png@f_auto?token=4424a41a21f91849b0b999a38fceb978

相比64核至强8592+，192核EPYC 9965在运行机器学习、端到端AI、相似搜索、大语言模型等工作负载时，推理性能提升多达1.9~3.8倍。

f11f3a292df5e0feba89bae5f04af7a65fdf727d.jpeg@f_auto?token=5b52e70e0e2074dee2819c956e4bb173

AMD EPYC 9005系列的新产品是64核EPYC 9575F，专为需要终极主机CPU能力的GPU驱动AI解决方案量身定制。

与竞争对手的3.8GHz处理器相比，专用AI主机的CPU EPYC 9575F提供了高达5GHz的提升，可将GPU编排任务的处理速度提高28%。

dcc451da81cb39db3f7eb3657d3cca2aab183004.jpeg@f_auto?token=419adff0c345fe0826c8175a1c8e4dc8

面向企业级HPC工作负载，64核EPYC 9575F的FEA仿真和CFD仿真&建模的性能，可提升至64核至强8592的1.6倍。

5fdf8db1cb134954eff396c6fa645156d0094a58.png@f_auto?token=b497b8e25637be8a3467434fd0d8821f

EPYC 9575F可使用其5GHz的最大频率提升来助力1000个节点的AI集群每秒驱动多达70万个推理token。同样搭配MI300X GPU，与64核至强8592+相比，EPYC 9575F将GPU系统训练Stable Diffusion XL v2文生图模型的性能提升20%。

730e0cf3d7ca7bcb3e0d6d601223a86df724a8c0.jpeg@f_auto?token=ba82ac6e2fc4e06b645953020b2819e4

搭配Instinct系列GPU的AMD EPYC AI主机CPU型号如下：

503d269759ee3d6d99744b74ef3cae2c4e4ade9d.png@f_auto?token=45766c3cef6e5ca4ef855cd85cfd87e4

同样搭配英伟达H100，EPYC 9575F可将GPU系统的推理性能、训练性能分别相比至强8592+提升20%、15%。

d058ccbf6c81800af52feca31d1ff0f4838b470a.png@f_auto?token=b93e3a2939e080a6a909d6e428259adc

与英伟达GPU系统适配的AMD EPYC AI主机CPU型号如下：

7a899e510fb30f24304bdc3d65bf124dac4b03f7.png@f_auto?token=255bcbb62c670a1f3f69326fb75fab9f

将EPYC用于计算与AI混合工作负载时，相比至强铂金8592+，EPYC 9654+2张Instinct MI210在处理50%通用计算+50% AI的混合任务时，每美金性能可提升多达2倍。

78310a55b319ebc423c8baf62e0c0cf21f1716e2.png@f_auto?token=c5b6f03550a4c7e56dfafac6a08c8ac0

四、企业级AI PC处理器：升级“Zen 5”架构，AI算力最高55TOPS

AI PC给企业生产力、身临其境的远程协作、创作与编辑、个人AI助理都带来了全新转型体验。

c75c10385343fbf2acb045c61c54098e64388f74.jpeg@f_auto?token=4961436549349d95d462454fa7b79bea

继今年6月推出第三代AI移动处理器锐龙AI 300系列处理器（代号“Strix Point”）后，今日AMD宣布推出锐龙AI PRO 300系列。

342ac65c103853430e8a4f183e397370ca808878.png@f_auto?token=2c5bc8cbce418953392d8c128b8c355f

该处理器专为提高企业生产力而设计，采用4nm工艺、“Zen 5” CPU架构（最多12核、24个线程）、RDNA 3.5 GPU架构（最多16个计算单元），支撑Copilot+功能，包括电话会议实时字幕、语言翻译、AI图像生成等。

ca1349540923dd54bb2ed4f57d2370d09d824883.png@f_auto?token=2fe21dbe821977a6a24e431c063c996e

其内置NPU可提供50-55TOPS的AI处理能力。

40TOPS是MicroSoftCopilot+ AI PC的基准要求。相比之下，苹果M4、AMD锐龙PRO 8040系列、英特尔酷睿Ultra 100系列的NPU算力分别为38TOPS、16TOPS、11TOPS。

3ac79f3df8dcd1004f8592fddea1841eb8122f8e.png@f_auto?token=81dd26a51c89b7ec49447c3cbac744e3

与英特尔酷睿Ultra 7 165H相比，旗舰锐龙AI 9 HX PRO 375的多线程性能提高了40%，办公生产力提高了14%，支撑更长续航。

d4628535e5dde7114df74add0ac50d159d1661a9.png@f_auto?token=f72d9546d80539f6daa1627e804ab7f0

锐龙AI PRO 300系列采用AMD PRO技术，提供世界级领先的安全性和可管理性，旨在简化IT运营及部署并确保企业获得卓越的投资回报率。

54fbb2fb43166d2288462195eb09caf99052d2b3.jpeg@f_auto?token=a75327c4ddb40f96a0220040d9600bf9

由搭载锐龙AI PRO 300系列的OEM系统预计将于今年晚些时候上市。

AMD也扩展了其PRO技术阵容，具有新的安全性和可管理性功能。配备AMD PRO技术的移动商用处理器现有云裸机恢复的标准配置，支撑IT团队通过云无缝恢复系统，确保平稳和持续的操作；提供一个新的供应链安全功能，实现整个供应链的可追溯性；看门狗定时器，提供额外的检测和恢复过程，为系统提供弹性支撑。

f636afc379310a555b7e48691b6f80a78326108a.png@f_auto?token=b117e7ee121b133df4120947703a5c07

通过AMD PRO技术，还能实现额外的基于AI的恶意App检测。这些全新的安全特性利用集成的NPU来运行基于AI的安全工作负载，不会影响日常性能。

结语：AMD正在数据中心市场攻势凶猛

AMD正沿着路线图，加速将AI基础设施所需的各种高性能AI解决方案推向市场，并不断证明它能够提供满足数据中心需求的多元化解决方案。

AI已经成为AMD战略布局的焦点。今日新发布的Instinct加速器、霄龙服务器CPU、Pensando网卡&DPU、锐龙AI PRO 300系列处理器，与持续增长的开放App生态系统形成了组合拳，有望进一步增强AMD在AI基础设施竞赛中的综合竞争力。

58ee3d6d55fbb2fb4c6bda17e260e3aa4623dc28.png@f_auto?token=b740679b95e77def983d12ddd912f4ed

无论是蚕食服务器CPU市场，还是新款AI芯片半年揽金逾10亿美金，都展现出这家老牌芯片巨头在数据中心领域的冲劲。紧锣密鼓的AI芯片产品迭代、快速扩张的全栈软硬件版图，都令人愈发期待AMD在AI计算市场创造出惊喜。

举报本楼

本帖有 14 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2024-12-21 19:36 , Processed in 0.317949 second(s), 20 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册