it之家 12 月 7 日消息,amd 今天凌晨 2 点举办“advancing ai”活动中,正式宣布了旗舰 ai gpu 加速器 mi300x,其性能比英伟达的 h100 高出 60%。
性能:
amd 公司在演讲过程中,对比英伟达的 h100 加速卡,分享了 mi300x 的性能参数情况,it之家附上数值如下:
内存容量是 h100 的 2.4 倍
内存带宽是 h100 的 1.6 倍
fp8 tflops 精度是 h100 的 1.3 倍
fp16 tflops 精度是 h100 的 1.3 倍
在 1v1 比较中,训练 llama 2 70b 模型速度比 h100 快 20%
在 1v1 比较中,训练 flashattention 2 模型速度比 h100 快 20%
在 8v8 server 比较中,训练 llama 2 70b 模型速度比 h100 快 40%
在 8v8 server 比较中,训练 bloom 176b 模型速度比 h100 快 60%
amd 提到,在训练性能方面,mi300x 与竞争对手(h100)不相上下,并提供具有竞争力的价格 / 性能,同时在推理工作负载方面表现更为出色。
mi300x ai 加速卡软件堆栈升至 rocm 6.0,改善支持生成式 ai 和大型语言模型。
新的软件堆栈支持最新的计算格式,如 fp16、bf16 和 fp8(包括 sparsity)。
架构:
amd instinct mi300x 是最受关注的芯片,因为它针对的是 ai 领域的 nvidia 的 hopper 和英特尔的 gaudi 加速器。
该芯片完全基于 cdna 3 架构设计,混合使用 5nm 和 6nm ip,amd 组合这些 ip,让其晶体管数量达到 1530 亿个。
设计方面,主中介层采用无源芯片布局,该芯片使用第 4 代 infinity fabric 星空体育网站入口官网手机版的解决方案容纳互连层。中介层总共包括 28 个芯片,其中包括 8 个 hbm3 封装、16 个 hbm 封装之间的虚拟芯片和 4 个有源芯片,每个有源芯片都有 2 个计算芯片。
每个基于 cdna 3 gpu 架构的 gcd 总共有 40 个计算单元,相当于 2560 个内核。总共有八个计算芯片 (gcd),因此总共有 320 个计算和 20,480 个核心单元。在良率方面,amd 将缩减这些内核的一小部分,我们将看到总共 304 个计算单元(每个 gpu 小芯片 38 个 cu),总共有 19,456 个流处理器。
内存方面,mi300x 采用 hbm3 内存,容量最高 192gb,比前代 mi250x(128 gb)高 50%。该内存将提供高达 5.3 tb / s 的带宽和 896 gb/s 的 infinity fabric 带宽。
amd 为 mi300x 配备了 8 个 hbm3 堆栈,每个堆栈为 12-hi,同时集成了 16 gb ic,每个 ic 为 2 gb 容量或每个堆栈 24 gb。
相比之下,nvidia 即将推出的 h200 ai 加速器提供 141 gb 容量,而英特尔的 gaudi 3 将提供 144 gb 容量。
在功耗方面,amd instinct mi300x 的额定功率为 750w,比 instinct mi250x 的 500w 增加了 50%,比 nvidia h200 增加了 50w。
其中一种配置是技嘉的 g593-zx1 / zx2 系列服务器,提供多达 8 个 mi300x gpu 加速器和两个 amd epyc 9004 cpu。这些系统将配备多达 8 个 3000w 电源,总功率为 18000w。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
notice: the content above (including the pictures and videos if any) is uploaded and posted by a user of netease hao, which is a social media platform and only provides information storage services.