本站出售,有兴趣带价格联系QQ:503594296

至100万个GPU 马斯克的xAI拟将孟菲斯超算集群扩展十倍 (100万个是什么)

admin1 8个月前 (12-05) 阅读数 15 #美股

美国田纳西州大孟菲斯商会(Greater Memphis Chamber)外地时期周三表示,马斯克的人工自动初创公司xAI方案将其位于孟菲斯的超级计算机扩展到至少100万个图形处置单元(GPU)。

此举代表了这一名为Colossus的超级计算机集群的大规模扩张,后者目前有10万个GPU来训练xAI的聊天Grok。

大孟菲斯商会在一份声明中表示,作为扩展方案的一部分,为xAI提供GPU的英伟达、为该计算机组装主机机架的戴尔和超微也将在孟菲斯树立业务。

Colossus是推进马斯克人工自动努力的关键组成部分,这位亿万富翁正加深了他与OpenAI及其首席执行官萨姆·奥特曼(Sam Altman)的竞争。上个月,马斯克扩展了对这家ChatGPT制造商的诉讼,称OpenAI和微软试图合法垄断人工自动市场。

将xAI超级计算机扩展十倍的方案或许会引发环境疑问,由于活动人士和立法者曾经对越来越多的数据中心的微小动力消耗启动了细心审查。往年8月,南边环境法中心(Southern Environmental Law Center)要求田纳西州外地官员核实xAI能否在没有取无暇气容许的状况下经常经常使用燃气轮机为其超级计算机提供动力。


马斯克烧几十亿美元造最大超算中心,10万块H100训练Grok追逐GPT-4o

马斯克的xAI公司宣布将投资巨额资金建造全球上最大的超算中心,以确保Grok 2及后续版本的训练需求。 此超算中心估量在2025年春季建成,规模将是目前最大GPU集群的四倍。 马斯克指出,Grok 2训练要求约2万个基于Hopper架构的英伟达H100 GPU,而Grok 3及更高版本则要求10万个H100芯片。 特斯拉第一季度财报显示,公司曾因算力限制而推延Grok 2模型的训练与发布,方案年外部署8.5万个H100 GPU,破费60亿美元中的大部分用于购置芯片。 每台H100芯片的售价约3万美元,仅芯片费用就要求28亿美元。 马斯克表示,这个芯片储量足以训练Grok 2。 但是,他或许以为这不够打破性,选择建造一个超级计算工厂,方案部署10万个H100芯片。 该工厂将与Oracle协作,估量在2025年春季之前运转。 扎克伯格也宣布了Meta将额外购置50万块GPU的方案,总数到达100万块,批发价值达300亿美元。 微软的目的是到年底拥有180万个GPU,OpenAI希望为最新AI模型经常使用1000万个GPU,并讨论了一个价值1000亿美元的超级计算机方案。 这场算力竞赛的赢家或许是英伟达,由于其CFO Colette Kress提到Blackwell旗舰芯片的优先客户名单包括科技巨头,英伟达未来的产品更新也将继续为这些巨头提供支持。 芯片充足后,电力供应将成为未来最大的限制要素,尤其是关于拥有10万GPU的数据中心要求的100兆瓦电力。 为了降低本钱,数据中心通常选址于电力廉价且供应充足的偏远地域,例如微软和OpenAI在威斯康星州建造大型数据中心,亚马逊云服务的数据中心则位于亚利桑那州。 马斯克表示,xAI或许会将超算中心建在特斯拉总部德克萨斯州奥斯汀市。 在数据中心启动模型训练是一个耗电环节,例如训练GPT-3的耗电量相当于130个美国度庭一年的电量。 CEO Sam Altman投资了Helion Energy,这家公司旨在经过核聚变提供环保且低本钱的AI数据中心运转方式。 但是,马斯克以为AI公司很快将争夺降压变压器,以将高压电流转换为电网可用的电力,从而从公用电网失掉电力。 AI行业或许要求“transformers for Transformers”来应对未来应战。

版权声明

本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。

热门