打响丢弃英伟达GPU第一枪 苹果在谷歌芯片上训练AI
美东时期7月29日,苹果公司公布iPhone AI的首个预览版,随后公布论文,称其人工自动模型是在谷歌的TPU(张量处置单元)上训练的。论文中引见了为支持Apple Intelligence性能而开发的基础言语模型,包括一个设计用于在设备上高效运转的约30亿参数模型和一个基于私有云计算的云侧大模型。
苹果基础模型的建模概述苹果官方公布论文
苹果公布的论文称,他们在8192块TPU v4芯片上训练云侧AFM(Apple Foundation Model),经常经常使用4096的序列长度和4096个序列的批量大小,启动了6.3万亿token训练。端侧AFM在2048块TPU v5p芯片上启动训练。
苹果的选择标明,一些大型科技公司在人工自动训练方面或许正在寻觅英伟达图形处置单元的替代品。
一些芯片行业媒体称,这是苹果打响了丢弃英伟达GPU的第一枪。
往年6月初,日本证券公司瑞穗证券估量,英伟达控制着用于训练和部署OpenAI的GPT等模型的AI芯片市场的70%至95%。一些专家将英伟达在AI芯片市场的位置描画为护城河,其旗舰AI图形处置单元GPU(例如H100)与该公司的CUDA软件相结合,使其在竞争中占据了先机。
包括谷歌、Meta、甲骨文和特斯拉在内的科技公司不时在努力构建自己的人工自动系统和产品。
心智观察所研讨员潘攻愚指出,苹果宣布其Apple Foundation Model(AFM)在谷歌自主开发的Tensor处置单元(TPU)启动训练,而且还租用了谷歌的云服务。苹果在AI训练方面的衡量折射出了英伟达通用型AI减速器和谷歌的ASIC定制化AI服务体系的竞争更新。
谷歌自2015年以来不时在经常经常使用自主设计的TPU来训练和部署AI模型。不是设计通用途理器,而是将其设计为专门用于神经网络任务负载的矩阵处置器,在整个大批计算和数据传递环节中,基本不要求访问内存。
往年5月,谷歌宣布推出了人工自动(AI)数据中心芯片Trillium,据称该芯片的速度相比之前的版本优化了简直5倍。该公司表示,这款芯片将用于开发自己的模型,包括Gemini和Imagen。
谷歌称,假定延迟三年预订,最新的TPU每小时经常经常使用本钱不到2美元。谷歌于2015年终次推出TPU用于外部任务负载,并于2017年向群众开通。它们如今是专为人工自动设计的最成熟的定制芯片之一。
虽然如此,谷歌仍是英伟达最大的客户之一。它经常经常使用英伟达 的GPU和自己的TPU来训练AI系统,并且还在其云端出售英伟达技术的访问权限。
“虽然英伟达目前控制着高达80%份额的高端AI芯片市场,但剩余市场份额大多被大型云服务供应商如谷歌、微软、亚马逊占据。这一次性性苹果采纳的谷歌TPUv5虽然在通用性上较英伟达同生态位芯片逊色,但主打一特性价比,综合总本钱(TCO)要低英伟达四倍,而且拿货周期短。目前谷歌TPUv5所在的市场大约有300亿美元,英伟达不时觊觎这块‘肥肉’,但思索到和谷歌巧妙的竞合相关,英伟达目前还不会贸然大举进入ASIC范围。”潘攻愚剖析称。
Meta首席行动官马克·扎克伯格和Alphabet首席行动官桑达尔·皮查伊上周均宣布评论称,他们的公司和业内其他公司或许在AI基础设备上投资过度,但他们也供认,不这样做的商业风险太高。一旦落后,将无法掌握未来10到15年最关键的技术。
256TOPS、35W,后摩用一颗芯片掀起智能驾驶新战事
本不安静的智能驾驶芯片江湖,再添新变局。
5 月 10 日,后摩智能重磅发布智能驾驶芯片鸿途™H30,该芯片物理算力高达 256TOPS@INT8,与时下备受追捧的 256TOPS 英伟达 Orin X 不相上下,典型功耗只要 35W,能效比之高可见一斑。
这块芯片性能如此微弱的面前,在于其采用了推翻性的底层架构设计——存算一体。
与大少数芯片基于冯·诺依曼架构打造不同,存算一体经过在存储单元内成功部分或全部的运算,极大地处置了芯片性能受存储带宽限制的瓶颈,且降低了功耗需求。
鸿途™H30 的推出关于行业来说具有严重的意义,其大算力、极致能效比、超低延时、低本钱等特性,正好吻合智能汽车关于芯片的需求。
当下,智能驾驶行业正在面临性能优化、本钱下探的关键开展期,作为国际首款存算一体智驾芯片,该芯片注定将引发一系列的连锁反响。
「从大型计算机到团体 PC,再到如今的手机,技术开展与运行革新的趋向标明,每 1000 倍效率优化将会发明一个新的计算时代,随同着 AI 技术的跃进,今天的芯片也有望在计算才干和效率上有 1000 倍以上的优化,后摩希望做出极效的 AI 芯片,成功万物智能。 」后摩智能开创人兼 CEO 吴强在发布会上如此说道。
存算一体,推翻智能驾驶芯片
正如扫尾所说的,后摩采用了存算一体这种新的底层架构来设计芯片。
所谓存算一体,从字面意思过去说,就是存储和计算融为一体。
首先要求明白的一点是,一切的 AI 算法包括深度学习,实质上是在下达指令,做少量的乘加计算,体如今芯片层面,则是一大堆晶体管的开开闭闭。
在过去依照冯·诺依曼架构设计的芯片下,AI 计算环节简易了解是这样的:数据经过设备输入到存储器,处置器(计算单元)从存储器中失掉指令和数据,启动计算,处置完后输入结果,写回存储器。
这种架构的清楚特点是计算单元与存储单元分别,在执行计算时,数据在二者之间高频地迁移,在面对惯例计算量时,这样做尚足以胜任任务,但是随着智能驾驶、ChatGPT 等大数据模型出现,关于算力需求急剧优化,冯·诺依曼架构末尾遭遇瓶颈。
举例来说,以矩阵乘法为主的 Transformer 类计算,大少数的步骤是在访问内存,而非执行计算,虽然少量数据频繁在计算单元与存储单元之间移动,但由于存储器读写的速度不够快,造成数据被「梗塞」在访存环节中,并未真正投入计算,由此使得计算系统的有效带严惩大降低,系统算力的增长步履维艰。
虽然可以经过多核 (如 CPU)/众核 (如 GPU) 并行减速技术优化算力,但这将带来功耗和本钱的优化。
运行存算一体新架构,可以处置这个难题,其底层逻辑是将 AI 计算中少量乘加计算的权重部分,直接留在存储单元中计算,以优化数据传输途径,从而大幅优化计算效率。
而这正是后摩智能设计智能驾驶芯片 IP 的思绪,公司结合开创人兼研发副总裁陈亮分享道,经过在传统的 SRAM 电路旁,参与包括 Activation Driver、乘法器、加法树、累加器等定制化电路结构,后摩成功成功高能效的存内并行乘加运算。
「计算电路紧挨着存储单元,数据被读出的同时可以在原地启动乘加计算,相较于(冯·诺伊曼架构下)Row by Row 的数据读取方式,极大地提高了并行性。」
这样的 IP 设计拥有超高的计算密度,使得「大算力」得以成功;基于 SRAM 的纯数字设计,还满足全精度要求;架构上是完全的存内计算,也增加了访存功耗。
基于此,后摩面向智能驾驶场景打造了公用 IPU(Intelligence Processing Unit,处置器架构)——天枢架构。
陈亮表示,取名「天枢」在于其设计理念自创融合了庭院式的中国传统住宅和现代高层公寓楼的不同品格。
在他看来,庭院式代表着集中式的存储和计算架构,特斯拉 FSD 芯片正是如此,经过堆积少量芯片资源以及高并行性,带来性能优化。
但是,这在遇到算力要求更大、计算灵敏性要求更高的场景下,容易遭到数据规模的限制,此时计算效率急剧降低,数据的并行性和计算资源的并行性无法婚配。
「这样的架构设计相似于古典中式庭院,它向内合围成一个小的院子,集各种性能于一身,使得人与人、人和自然之间可以十分高效沟通,但是由于院落面积终究有限,所能容纳的寓居人数也有限,且设计和建造这样的庭院难度和本钱极大,所以它的可拓展性就比拟差。」
而现代西式的高层公寓就一模一样,其采用完全相反的独立小单元,可以在三维空间中自在拓展,以容纳更多的人,类比芯片结构,就是将一个算力很大的核切分红若干个小核,细分到极致。 「不过这样的架构下,人和自然之间、人和人之间的沟通效率就会变得很低。 」
后摩的做法是融合了中式庭院和西式高楼的特点,陈亮解释道,先打造一个优美的庭院,以大规划设计保证计算资源应用效率,在此基础上,再自创现代高层修建的方式,以多核/多配件线程的方式灵敏扩展算力,「这样我们就成功了芯片效率、灵敏性和可扩展性的完美平衡。」
能效比力压英伟达 Orin,鸿途™H30 未来可期
立足于天枢架构,后摩成功研收回首款存算一体智驾芯片——鸿途™H30。
该芯片物理算力到达 256TOPS@INT8,典型功耗 35W,简易计算可得,SoC 层面的能效比到达了 7.3TOPS/Watt,而在传统的冯·诺依曼架构下,采用 12nm 相反工艺,所能成功的能效比多在 2TOPS/Watt 的水平。
发布会上,后摩结合开创人兼产品副总裁信晓旭以 Resnet50 为例,更为直观地展现了鸿途™H30 这一优秀的性能目的。
在 Resnet50 v1.5,输入图片尺寸是 224x224 的测试条件下,当「batch size = 8」时,鸿途™H30 到达了 帧/秒的性能,是某国际巨头旗舰芯片的 2.3 倍,而在「batch size = 1」时,这一差距更为清楚,鸿途™H30 性能到达了 8700 帧/秒,而国际巨头的芯片性能仅为 1520 帧/秒,前者是后者的 5.7 倍。
「国际巨头的芯片要求在更高的 batch size 的状况才干更好地发扬性能,但高 batch size 带来的是延时的参与。 而我们架构针对智能驾驶场景特殊优化的,因此在低 batch 下 (也就是更低延时),性能就能够充沛发扬。 」
另一参数——实践业务下的计算效率更能说明实质差异。 基于上述相反的条件,鸿途™H30 在「batch size = 8」条件下,计算效率到达了 294FPS/Watt,是国际友商的 4.6 倍,「batch size = 1」时,则到达了 11.3 倍。
而这还是在不同制程下的对比,鸿途™H30 基于 12nm 工艺,而国际巨头芯片基于 8nm 工艺,不难了解,假设将二者转化成同一工艺节点对比,存算一体架构的芯片计算效率优势将会更清楚。
鸿途™H30 的规格参数还不止这些,其支持 Memory 扩展,带宽到达 128GB/S,同时,外部还集成了 16 路的 1080P 的视频编码单元和解码单元,在外部的高速接口上,采用 PCle 4.0 的衔接,向下兼容,lane 数可配,支持 RC 和 EP mode。
多重「硬实力」加持下,鸿途™H30 成功运转常用的经典 CV 网络和多种智能驾驶先进网络,包括以后业内最受关注的 BEV 网络模型以及普遍运行于高阶辅佐驾驶范围的 Pointpillar 网络模型。
信晓旭泄漏,以鸿途™H30 打造的智能驾驶处置方案曾经在协作同伴的无人小车上成功部署,「这是业界第一次性基于存算一体架构的芯片成功运转端到端的智能驾驶技术栈。」
在发布会现场,后摩还专门推出了基于鸿途™H30 打造的智能驾驶配件平台——力驭®,其 CPU 算力高达 200 Kdmips,AI 算力为 256Tops,支持多传感器输入,能够为智能驾驶提供更充沛的算力支持;在功耗上,力驭®平台仅为 85W,可采用愈加灵敏的散热方式,成功更低本钱的方便部署。
权衡一款芯片好不好,除了看配件上的「硬实力」,还要看软件上的易用性,这其中工具链发扬着关键的作用。 信晓旭以为,除了追求芯片在 PPA 目的上的竞争力之外,还要确保在软件工具链的竞争力,「要打造高效,易用的软件开发工具链,让算法开发人员用得舒适、用得爽。 」
汽车之心了解到,为了协助客户和协作同伴用好芯片,后摩基于鸿途™H30 芯片自主研发了一款软件开发工具链——后摩小道™,以无侵入式的底层架构创新保证了通用性的同时,进一步成功了鸿途™H30 的高效、易用。
信晓旭表示,在芯片和工具链的双重配合下,后摩能够向智能驾驶市场提供更优选择。 他泄漏,鸿途™H30 将于往年 6 月份末尾给 Alpha 客户送测。
「我们的研发人员还在加班加点地调试,启动送测之前的最后预备任务,这将会是后摩用存算一体重构智能驾驶芯片的末尾。」
格式未定的智能驾驶芯片江湖,再次迎来大洗牌
在后摩发布鸿途™H30 之前,似乎没有玩家在芯片底层架构做改动,即使是打响大算力芯片前装量产第一枪的国际巨头英伟达,目前也是沿着冯·诺伊曼架构不时迭代自己的产品。
但是随着智能驾驶往更高阶和更普及化方向开展,关于架构创新的呼唤,显得愈发紧迫。
一方面,从高速公路、加快路到城区路途,智能驾驶面临的场景越来越复杂,为了识别各种异形物,玩家们部署了 Transformer 等大模型,由此也带来算力需求的急剧上升,业内估量从以后炽热的城市 NOA 到未来走向 L3/L4 级智能驾驶,芯片算力将从几百 TOPS 往上千 TOPS 增长,但是在传统的冯·诺依曼架构设计下,存储带宽制约算力向上拓展的空间;
另一方面,智能驾驶性能正在减速向下浸透,工信部数据显示,2022 年,智能网联乘用车 L2 级及以上辅佐驾驶系统的市场浸透率优化至 34.9%,较 2021
版权声明
本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。