计算,能源效率和内存性能的强度是全面的! cDNA 4建筑AMD Inst

作者: bet356亚洲版本体育 分类: 奇闻 发布时间: 2025-06-14 10:30
[中瓜在线原始技术分析]进入AI PC期间,AI峰会的进步成为了AMD的桥梁,即巨型半导体行业,与合作伙伴,开发人员,用户,用户和工业生态联盟交谈。刚才,AI 2025的进步已经成功持有。在这次峰会上,AMD宣布了新的cDNA 4 GPU架构,该体系结构发布了AMD Instinct MI350 GPU系列和新的ROCM 7。与此同时,它还共享了AMD Pensando Pollara 400 NIC NIC网络卡的技术属性,以应对AI时期面临的网络挑战。到目前为止,从CPU(EPYC)到GPU(本能),从前头网络到垂直/扩展网络,AMD可以为行业用户提供完整的AI系统解决方案。除了新的Instinct MI350系列GPU外,AMD还将讨论即将到来的2026年MI400 GPU系列,该系列将使GPU具有很高的绩效GPU到一个新时代。 ·cDNA 4建筑和本能MI350系列近年来,GPU诞生于AI计算。随着人工智能技术的持续开发和下降,GPU已成为具有生产力最高的AI生产率的主要硬件。 AMD cDNA 4的新体系结构具有一个基本的设计概念,该概念专门针对AI,可加速计算。因此,它结合了改进的矩阵引擎,用于开发人工智能和大型语言模型。以混合计算的准确性支持一种新的数据格式;使用改进的无限互连体系结构和高级包装技术来创建本能MI350系列GPU,并进一步提高能源效率。作为使用CNDA 4体系结构的第一台AIACCELERATOR卡,GPU Instinct MI350系列包括1000W的峰值功耗,用于冷藏空气冷却系统的Instinct MI350X和用于冷却系统的天然MI355X,以液体冷却,消耗1400W电气和较强的性能。它的体系结构包括ES XCD由TSMC N3P进程和由TSMC N6进程通过高级包装技术构建的IOD创建。和2.5D包装技术用于结合HBM3E和IOD内存。通常,成熟的TSMC包装技术采用小型芯片采用。这项技术可以通过向较大的硅内插机提供高密度的互连和深层趋势电容器来提供高性能计算功能,以适应各种功能性的托架,并与它们堆叠高频带的记忆(HBM)立方体。多亏了增强的模块化芯片套件,本能MI350系列GPU包括八个32核AMD cDNA 4建筑计算单元(XCD),通过3D混合键合建筑物堆放在前2个N6-N6制造的I/或芯片上。 CT MI350 GPU系列还支持128 HBM3E内存通道,该记忆通道采用双UTC支持12层堆叠的HBM3E内存,其容量最高为288GB,读数最高为8TB/s。同时,通过添加UTCL1/UTCL2尺寸选项和内存管道,我们可以满足高带宽要求的工作负载。它还具有256MB AMD Infinity Cache,并使用第四代无穷大织物,带宽速率高达1075GB/s。 XCD群集的两个由5.5 tb/s的无限织物高级包装以高速连接。本能MI350系列GPU具有非常灵活的分区,最多支持8个空间分区,以最大程度地利用GPU。 NPS模式(每个插座NUMA)支持NPS1和NPS2从NPS1和NPS4到天然MI300X。在SPX+NPS1模式下,天然MI350 GPU系列可以支持520b,即5200亿ai模型参数;在CPX+NPS2模式下,它可以支持大型模型的8 31700亿遍布参数,以实现最大的GPU使用。 ·双重升级计算吞吐量。尽管电力消耗不是两倍,但计算的强度大大提高,但天然MI350 GPU系列的能源效率的性能也更好。设计的目的是改善ANG在执行AI流动方面的经验。直到今天,天然MI350 GPU系列已经实现了计算的双重计算,而无需双重消耗。通过增强内存的带宽和共享本地数据,进一步支持了增加的吞吐量伴侣。同时,它也实现了技术数量的变化。此外,AMD还通过标准化引入了微型社区数据类型,可完全访问FP8(扩展和非量表)以及微型FP6和FP4数据类型的工业标准类型,并通过减少电力消耗来使用改进的计算性能。本能MI350系列GPU支持浮点点的各种数据格式,包括FP8,FP6,FP4,FP16,BF16和FP64。与SA上一代相比,AI计算能力已显着增强,FP16的性能为18.5 Pflops,FP8在37 Pflops和FP6/FP4最多74个pflops。 MI350 GPU系列系列的处理能力从7140亿到4.2万亿,增加了近6倍,可以有效地满足大语言模型和专业混合模型的培训和推理需求。此外,天然MI350 GPU系列的改进的矩阵发动机每个时钟周期的矩阵操作和GEMM -Sppeed Gemm机制的每个计算单元具​​有2倍混合精度;以及替代注意机制的替代功能的速率的2倍。接下来,让我们从HBM内存读取每瓦带宽的本能MI350X GPU来看一下,该记忆读带宽,该瓦特的带宽高达上一代MI300X GPU的30%。 HBM高潮阅读每个计算单元的带宽速度增加了50%以上。此外,您还可以参考下表,以了解有关新一代MI355X GPU和上一代MI300X GPU的改进性能的改进格式。例如,fp16/bf16数据类型的吞吐量增加到每个计算单位时钟周期的4K浮点操作,而fp8数据类型的吞吐量增加到每个计算单位计算时钟周期的8K浮点操作。 FP6/FP4格式数量支持,每个计算单元的速率在FP8中为两次,并维护FP64矢量吞吐量。 FP64矩阵的操作速率在矢量中相同。确定本能MI355X和上一代MI300X GPU在各种Llama应用中的官方应用3.1 405B大型模型,以及计算三个大型型号的deepSeek R1,Llama 3.3 70b和Llama 4 Maverick的计算性能数据,MI355X GPU的性能增加了2.6次,超过3.2次,增加了3.2次,增加了3.2次。在大规模建模速度方面,Llama前运动速度3/Llama 2具有四个不同参数和数据类型的大型模型增加了2.6次S至最低和最多3.5倍,实现了大量的代际效率升级。此外,就竞争对手的性能差异而言,与NVIDIA GB200/B200相比,本能MI355X GPU在记忆容量,带宽内存和不同数据类型的峰值性能方面的表现更好。多亏了这些规格,就Llama 3 70B/8B大型型号而言,天然MI3555X GPU与B200相同,而MLPERF5.0非官方测试结果中,MI3555X GPU的速度比B200快10%,在GB200中比GB200快10%。就DeepSeek R1 FP4而言,Llama 3.1 405B FP4低数据精度,较大的体积参数和大识别模型吞吐量,MI355X GPU的性能通常更好。此外,使用AMD Instinct MI350系列GPU解决方案将获得比竞争对手更高的经济体。以MI355X GPU和B200 GPU为例,例如前CAn带来了代币成本/$的40%以上。接下来,Intinct MI350系列GPU首先发行了感兴趣的朋友可以参考两个产品参数:·继续NAN在生态合作中继续努力,将成熟和可靠的整个解决方案带入行业。基于本能MI350系列GPU,AMD继续与行业生态系统的合作伙伴以及第五代EPYC+Intinct MI350系列GPU+AMD Pollara NIC网络解决方案作为主要的epyc+Instinct MI350系列,并携带完全基于公开标准的机架基础设施。 AMD Pensando Pollara 400 AI NIC具有出色的可扩展性设计,也是专注于AI领域的行业智能网络卡的第一台设备。它支持可编程性,支持集体的网络运营操作,与Hyper-Ethernet Alliance标准兼容,并且领先的性能体验比竞争对手高20%,最多是大型扩张的能力的20倍,10%的改进的运行符号是集群,网络结构成本降低16%。这是一个受信任的AI网络的高性能网络设备,具有高性能,高稳定性,高耐用性和高可扩展性。同时,AMD提供了带有液体冷却和冷却空气的多元化架子选项。其中,天然MI355X GPU主要针对液体冷却溶液,该溶液可提供128和96 GPU,36TB和27TB HBM3E记忆溶液; MI350X GPU主要针对空气冷却解决方案,提供64 GPU和18TB HBM3E内存解决方案。目前,AMD Instinct MI350系列GPU解决方案合作伙伴正在涵盖主要制造商,例如Oracle,Dell,Supermicro,HP,Cisco等,并且合作将于今年正式开始Q3。当时,每个合作伙伴将根据AMD Instinct MI350系列GPU推出机架设备。至于未来,AMD的计划也很明确。 2026年,AMD将推出下一代EPYC+MI400系列GPU和T他在下一代Vulcano网络卡中的AI架,并将其命名为“ Helios”。同时,根据AMD EPYC“威尼斯”和AMD EPYC“ Verano”的处理器,下一代和下一代解决方案在接下来的两年中也宣布,这将为AI行业权力的未来计算开发提供更明显的前景。此外,在这个峰值上,AMD揭示了下一代天然MI400系列的特征。它的FP4/FP8计算功率将高达40pf和20pf,并且HBM4内存的432GB,带宽将增加到19.6 TB/s。每个GPU的规模带宽为300 GB/s,进一步加速了AI计算。感谢SA的MI400 GPU系列性能的全面升级,与Oberon架子以及Nvidia Vera Rubin Architectural解决方案相比,Helios AI机架将具有最佳性能蚂蚁铅。因此,本能MI400系列GPU将为AI计算性能带来巨大的飞跃。 ·在AI期间的结论,硬件计算强度显示了生长的几何趋势。作为驱动高性能AI计算能力输出的主要设备,改善GPU的性能对于跳跃AI计算的功能具有重要意义。 The AMD Instinct MI350 series GPUs are based on the new CDNA 4 architecture design, and achieved comprehensive evolution in memory capacity, performance, bandwidth, number of GPU implementation units, the performance of throughput, andBP, and throughput, 2.5D and 3D advanced packaging technologies are GPUs to bring a great comprehensive experience and injection strong impetus to the future development of the AI ​​industry.此外,AMD还宣布了本能MI400系列GPU,其计算强度令人惊叹。这将在2026年加速整个AI行业的发展,并将显示MORE惊奇 - AI大型模型计算和培训中的性能的出色力量!

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!