开yun体育网要是仔细不雅察英伟达和 AMD 的 GPU 阶梯图-ky体育官网登录入口网页版(中国)有限公司官网
在超大范围和云诡计厂商范围较小、Arm 未能霸占数据中心市集以及 AMD 尚未走上回复之路的时刻开yun体育网,英特尔掌控着新诡计引擎进入数据中心的节律。
景观老是在变化。本周,英特尔的 CEO 帕特 . 基辛格(Pat Gelsinger)告示下野,比较之下,亚马逊云科技(AWS)在拉斯维加斯举办年度 re:Invent 大会,线下参会东说念主数达到 6 万,而线上东说念主数高度 40 万东说念主。谁在适度超大范围企业和云诡计制造商的时候推出次第,似乎有了新的谜底。
对于 AWS 而言,他们也不错适度新时候的发布节律,因为他们不需要像芯片厂商一样,进行如期的产物迭代。他们不需要像英特尔、AMD 和英伟达那样,把诡计引擎卖给 ODM 和 OEM,而是径直向客户出售云上产物。不言而喻的是,这是一项更容易的业务。
在 re:Invent 大会上,AWS 以偏执母公司亚马逊高管所带来的演讲,让外界对于他们的诡计引擎有了新的期待,比如 Graviton5、Inferentia3 及 Trainium3。
Trainium3 使用 3nm 工艺蚀刻,相较于 Trainium2 能效普及 40%、性能翻倍。AWS 的新闻稿中示意,Trainium3 UltraServers 的性能将是 Trainium2 UltraServers 的 4 倍,这意味着它们将从使用 Trainium2 的 16 台成立扩张到使用 Trainium3 的 32 台成立。
AWS CEO 马特 . 加曼(Matt Garman)称,Trainium3 将于 2025 年晚些时刻推出,这意味着冒昧会在 re:Invent 2025 年会议发布这款产物。早在 6 月份,就有一些对于 AWS 高管证实 Trainium3 将突破 1000 瓦的传言,但这点并不出乎外界的预思,英伟达的 Blackwell B200 GPU 的峰值功率是 1200 瓦。
的确出乎外界预思的是,在上个月的 SC24 超等诡计会议上,针对 HPC 运用的 Graviton4E 仍未推出,这与 AWS 在 2021 年 11 月推出的平凡 Graviton3 和 2022 年 11 月推出的增强版 Graviton3E 的过往速率比较有所各别。2023 年 11 月发布的 Graviton4 不错说是市集上基于 Arm 架构最佳的作事器 CPU 之一,固然亦然适用面最广的 CPU。
AWS 的 CPU、东说念主工智能加速器和 DPU 莫得任何年度更新的压力,要是仔细不雅察英伟达和 AMD 的 GPU 阶梯图,就会发现他们的中枢产物仍然是每两年发布一次,第二年会在第一年发布的 GPU 上进行内存升级或性能转机。
AWS 在芯片范围的迭代周期冒昧是两年,其间会有一些波动。Graviton1 内容上是一个基于 Nitro 架构的 DPU 卡,不错忽略不计。正如 AWS 公用做事诡计高档副总裁彼得 . 德桑蒂斯(Peter DeSantis)在 2018 年发布的主题演讲中所说的,Graviton1 仅仅"进入市集的一个信号",主要用于考据客户需求。2019 年推出的 Graviton2, AWS 遴荐了台积电的当代 7 纳米工艺,并使用了 Arm 的 Ares N1 内核,假想了一款 64 核 CPU,与运行在 AWS 云上的英特尔和 AMD 的 X86 CPU 比较,性价比向上 40%。
2021 年,遴荐 Arm Zeus V1 内核的 Graviton3 问世,相通是 64 个内核却不错承担更多的任务。2023 年,Graviton4 问世了,这款芯片遴荐了台积电 4 纳米工艺,在插槽上塞入 96 个 Demeter V2 内核,与 12 个内存带宽为 537.6 GB/ 秒的 DDR5 内存适度器搭配使用。与 Graviton3 比较,Graviton4 的单核性能普及了 30%,内核数目加多了 50%,性能普及了 2 倍。笔据咱们的订价分析,产物的性价比普及了 13% 到 15%。在内容的基准测试中,Graviton4 带来的性能优化有时能达到 40%。
AWS 处理器参加的资金至少需要两年才不错收回。因此,在 re:Invent 大会上期待任何干于 Graviton5 的新音书王人是不本质的。尽管如斯,AWS 的高管们如故会吊一下市集的胃口。
AWS 的高管在主题演讲中提供了一些对于 Graviton 的数据。AWS 诡计和收罗作事副总裁戴夫 . 布朗(Dave Brown)展示了这张图表,它在一定经过上说明了为什么英特尔最近几个季度的财务情状如斯灾祸。省略地说,AWS 的四项中枢作事(Redshift Serverless 和 Aurora 数据库、Kafka 的 Managed Streaming 和 ElastiCache 搜索)约莫有一半的处理是在 Graviton 上运行的。
布朗称:"最近,咱们达到了一个贫困的里程碑,在昔时的两年里,咱们数据中心突出 50% 的 CPU 算力王人来自 Graviton,这比其他所有类型的处理器加起来还要多。"
这恰是微软多年前所宣称思作念成的事情,而这亦然 AWS 所期待达成的筹谋。从长久来看,X86 是一种传统的平台,其价钱亦然传统的,就像之前的大型诡计机和 RISC/Unix。RISC-V 也许最终也会这么颠覆 Arm 架构 ( 开源的 ISA 与可组合的模块似乎是必由之路,就像 Linux 开源系统让 Windows Server 酿成传统平台的)。
加曼让咱们对 AWS 里面的 Graviton 作事器群范围有了一个大致的了解:" Graviton 正在落拓地增长,2019 年,通盘 AWS 的业务范围为 350 亿好意思元,而当今,单单 Graviton 运行的业务范围就与 2019 年通盘 AWS 业务范围一样,这辱骂常快的增长。"不错算计的是,Graviton 作事器集群的增长速率比 AWS 合座业务的增长速率还要快,而且幅度可能迥殊大。这对英特尔的伤害高大于对 AMD 的伤害,因为 AMD 多年来一直领有比英特尔更好的 X86 作事器 CPU。
Trainium 系列,是否会成为英伟达和 AMD 以外的取舍?
加曼挑剔 Trainium3 的惟一原因是,东说念主工智能考研对高性能诡计的需求增长得比任何其他诡计引擎快得多。靠近英伟达在 2025 年加大其 Blackwell B100 和 B200 GPU 的产能,以及 AMD 扩大其 Antares MI300 系列,AWS 要是思让客户将他们的东说念主工智能职责负载移植到 Trainium 上,就必须在市集上展现出纵情推行 Trainium 系列的决心。
在来岁的 re:Invent 大会之前,但愿能够看到 AWS 发布对于 Trainium3 的一些新优化,因为市集上的竞争敌手太多,以谷歌和微软为首的一些公司将在 2025 年推出他们旗下的东说念主工智能加速器。
就像 Graviton 系列一样,从当今运行,Trainium 系列的更新周期偶然将变为两年一更新。这些产物的研发参加王人迥殊不菲,因此 AWS 要竣事财务效益必须将 Trainium 的拓荒资本摊销到尽可能多的成立上。与 Graviton 一样,咱们合计 AWS 的 Trainium 达成这曾筹谋的日子不会太远方。从长久来看,这对英伟达和 AMD 来说不是功德,荒谬是要是谷歌、微软、腾讯、百度和阿里巴巴王人选用相通的活动。
AWS 还莫得愚蠢到试图在 GPU 加速器市集上与英伟达直面抗衡,但与谷歌的 TPU、SambaNova 的 RDU、Groq 的 GroqChip 和 Graphcore 的 IPU 一样,这家云诡计商相通合计我方不错构建一个系统阵列来进行东说念主工智能考研和推理,并为云诡计客户带来各别化体验和附加值产物,与购买英伟达比较,客户购买 AWS 的产物不错简约资本况兼掌捏更多的主动权。
正如咱们上头所指出的,AWS 高管对 Trainium3 并莫得露出太多的信息,但他们对 Trainium2 在 UltraServer 中的使用到迥殊慷慨。
本年的 re:Invent 大会上,AWS 更多地先容了使用 Trainium2 加速器的系统架构,并展示了基于这些加速器构建的收罗硬件,以扩张和扩张其东说念主工智能集群。底下是德桑蒂斯展示的 Trainium2:
正如咱们旧年报说念的那样,Trainium2 似乎在单个封装上搁置两个芯片互连,可能使用 NeuronLink die-to-die 里面互连时候,以在其分享的 HBM 存储器上一致地职责。Trainium2 作事器有一个节点,该节点带有一双主机处理器并与三个 Nitro DPU 贯串,如下所示:
这是诡计节点的俯瞰图,前端有四个 Nitros,后端有两个 Trainium2s,遴荐无线假想以加速部署速率。
两个交换机托架,一个主机托架和八个诡计托架构成了一台 Trainium2 作事器,该作事器使用 2TB/ 秒的 NeuronLink 电缆将 16 个 Tranium2 芯片互连成 2D 环面确立,每个成立上 96GB 的 HBM3 主内存王人会与其他成立分享。每台 Trainium2 作事工具有 1.5TB 的 HBM3 内存,总内存带宽为 46TB/ 秒(即每个 Trainium2 卡略低于 3TB/ 秒)。此节点在密集 FP8(一种浮点数示意形势)数据上的性能为 20.8 千万亿次浮点运算,在寥落 FP8 数据上的性能为 83.3 千万亿次浮点运算。
AWS 将四台作事器相互联结以搭建 Trainium2 UltraServer,该作事器在 64 个 AI 加速器中领有 6TB 的 HBM3 内存容量,内存带宽共计为 184TB/ 秒。该作事工具有 12.8Tb/ 秒的以太网带宽,可使用 EFAv3 适配器进行互连。UltraServer 作事器在密集 FP8 数据上的运算速率为 83.2 千万亿次浮点运算,在寥落 FP8 数据上的运算速率为 332.8 千万亿次浮点运算。底下是德桑蒂斯对 Trn2 UltraServer 实例硬件的展示:
在布满电线的机架顶部,隐私着一双交换机,它们构成了 3.2TB/ 秒的 EFAv3 以太网收罗的端点,该收罗将多个 Tranium2 作事器相互联结,以创建 UltraServer 作事器,并将作事器与外部宇宙联结。
这还不是通盘收罗架构。要是你思运行大范围的基础模子,需要的加速器将远远不啻 64 个。为了将千千万万的加速器联结在一齐,不错进行大范围考研,AWS 假想了一种基于以太网的收罗结构,名为 10p10u,其筹谋是在延长不到 10 微秒的情况下,为通盘收罗提供每秒数十 PB 的带宽。底下是 10p10u 收罗结构机架的方法:
由于原先作事器里面的电线迥殊复杂,AWS 研发了一款光纤骨干电缆,将需要使用的电线数目压缩为原先的十六分之一。其旨趣是将数百个光纤联结放在一条较粗的管线中,这么作念的公道是让作事器里面的架构更为简约。如下图所示,右边的机架使用的是光纤骨干电缆,它更简约工整。更少的联结和领会惩处意味着更少的装假,当你试图快速构建东说念主工智能基础要领时,这少量很贫困。
据悉,这种专诚用于东说念主工智能职责负载的 10u10p 收罗由于其优异的弘扬正在被大范围遴荐。德桑蒂斯展示了它与 AWS 创建的旧式以太网收罗比较的增长速率有多快:
假定这是积存结合数(灵验的诡计),旧的 Euclid 收罗结构(冒昧是 100Gb/ 秒)在四年内迟缓加多到近 150 万个端口。名为 One Fabric 的收罗与 10u10p 收罗在 2022 年年中大致同期推出,咱们料想其中 One Fabric 使用 400Gb/ 秒以太网,而 10u10p 基于 800Gb/ 秒以太网。One Fabric 有约莫 100 万个结合,而 10u10p 有约莫 330 万个结合。
加曼示意,与基于 AWS 云上的 GPU 实例比较,Trn2 实例的性价比将普及 30% 到 40%。固然,AWS 应该加大拉开外部诡计引擎与自家诡计引擎之间的差距,保持这么的差距是 Trainium 霸占东说念主工智能诡计器市集的正确举措。
看成主题演讲的一部分,德桑蒂斯和加曼王人谈到了一个代号为" Project Ranier "的超等集群,这是 AWS 正在为其东说念主工智能大模子合营伙伴 Anthropic 建造的一个超等集群。结果目下,亚马逊已向 Anthropic 投资 80 亿好意思元,该集群主要用于考研下一代 Claude 4 基础模子。加曼说," Project Ranier "将领罕有十万个 Trainium2 芯片,其性能将是考研 Claude 3 模子时所用机器的 5 倍。
本文由雷峰网编译自:https://www.nextplatform.com/2024/12/03/aws-reaps-the-benefits-of-the-custom-silicon-it-has-sown/开yun体育网
上一篇:开云体育(中国)官方网站当作亚马逊云科技最早、亦然诈欺最深切的客户-ky体育官网登录入口网页版(中国)有限公司官网 下一篇:欧洲杯体育玩忽自在中高端游戏机箱背部走线需求-ky体育官网登录入口网页版(中国)有限公司官网