端侧AI成热点,Arm预计2025年将会有逾1,000亿台具备AI能力的Arm设备

来源: 芯查查资讯 作者:程文智 2024-11-28 21:16:30
Arm预测,到2025年底,全球将会有超过1,000亿台具备AI能力的Arm设备。当然,这个是累计数据,包括从Cortex-M到Cortex-A的所有具有AI推理能力的设备,应用领域包括基础设施、汽车、物联网以及各种智能终端等。

  AI的火热是大家有目共睹的,随着ChatGPT的兴起,生成式AI变得浪潮涌动,云端AI开始流行,现在大部分的投资都集中在云端AI,但其实AI真正想要大面积落地,让普通大众都能用上,还是要在端侧。因此,这两年来,不少厂商已经开始看到了端侧AI的星辰大海。

   

  11月21日,Arm终端事业部产品管理副总裁 James McNiven在Arm年度技术大会的主题演讲中表示,“我们正身处AI时代,AI的发展对各个行业提出了越来越多样化的需求。”他同时预测,到2025年底,全球将会有超过1,000亿台具备AI能力的Arm设备。当然,这个是累计数据,包括从Cortex-M到Cortex-A的所有具有AI推理能力的设备,应用领域包括基础设施、汽车、物联网以及各种智能终端等。 

穿着西装笔挺的男子与配字

描述已自动生成

 图:Arm 终端事业部产品管理副总裁 James McNiven

   

  据James McNiven介绍,目前Arm拥有广泛的面向边缘AI的产品,从Cortex-M到 Cortex-A,涵盖了不同的性能水平和功耗需求。比如,其基于Arm Cortex-M的产品有Cortex-M7、Cortex-M33、Cortex-M55等;还有基于Arm Ethos NPU产品,可用于功耗受限的设备上,进行 AI 推理场景。此外,Arm还提供Helium技术。Helium是针对Cortex-M系列处理器的矢量扩展技术,可提升人工智能、机器学习与数字信号处理的性能。

   

AI潜力巨大,Arm推出计算子系统(CSS)解决方案降低进入门槛

  AI开始在各个领域发力,比如DeepMind最近使用AI预测蛋白质结构而获得了诺贝尔化学奖;AI能将临床试验的时间缩短高达50%。另据Counterpoint Research预测,到2026年底,中国道路上预计会有超过100万辆搭载L3级别的ADAS汽车;IDC则预计到今年年底,中国将有1.7亿台以上支持AI的智能手机,55%的PC将支持AI功能;到2027年,中国AI数据中心市场规模将达到164亿美元。可见AI带动的市场规模之大。

   

  但AI将比历史上任何计算节点都需要更高的算力、更大的内存,每一次AI技术迭代,都需要将大量的计算部署到极度受限的功耗环境中,“而这正是Arm的强项。” James McNiven表示。

   

  他同时认为,要想充分释放AI的潜力,就需要从系统层面进行思考,将硬件、软件和生态无缝集成到一个全面的解决方案内,让其具有可扩展性、高性能和能效,并且能够加速产品上市。

  为此,Arm提出了一种异构计算架构,以实现对系统多种计算要素的优化协作。“为了管理不同应用程序中的工作负载,需要一种能够高效率编写软件的方式,让开发者能够针对该硬件进行开发。我们需要谨慎考虑如何将这些计算组件结合在一起。我们不能只是将这些模块拼凑在一起,随意编写一些软件,就认为这将成为一个可扩展的全球解决方案。因此,我们推出了Arm计算子系统(CSS),为客户提供优化的解决方案,强大的软件生态系统,以及更快的上市时间,这些正是Arm CSS 的核心所在,这些特性不仅推动了行业变革,也将在AI时代继续引领潮流。” James McNiven在分享中表示。

   

  以智能终端市场为例,Arm的终端CSS集成了CPU、GPU、互联技术,以及生产就绪的CPU和GPU物理实现。同时,Arm也持续在CPU架构中新增更多AI计算的功能,并结合GPU进行优化。此外,Arm确保合作伙伴能够将他们的NPU与终端CSS集成,以实现在应用中的无缝协作,从而帮助合作伙伴以更低的风险、更快的速度构建产品。

   

  这样一来,客户只需要专注于差异化的部分,研发或者采购NPU,或其他加速器,然后将其与CSS子系统进行连接即可。

   

  他表示,Arm CSS的优势目前广受全球客户的欢迎,也收到了来自中国客户正向的反馈,他希望通过CSS的持续迭代更新,能助力中国客户把握AI机遇。

   

  同时,Arm在芯粒系统架构(Chiplet System Architecture, CSA)框架上投入资源,Arm正与约 50 位行业领导者合作,通过CSA,共同开发标准,以支持芯粒的整合。他认为芯粒是一种非常有前景的技术,可以根据需求灵活组合,选择不同的工艺节点,就像搭建乐高一样搭建物理芯片的IP模块。重要的是,在数据中心领域,已经有公司基于Arm架构来做芯粒产品,汽车行业也有相同的趋势。

   

大力投资软件

  在James McNiven看来,AI时代,需要以软件为中心的思维来思考硬件设计,因为硬件若无软件支持就毫无意义。据他观察,在传统的、AI热潮兴起前的初创公司中,硬件和软件工程师的比例大约是50/50。但现在,情况完全不同了,变成了10/90——10%的硬件工程师和90%的软件工程师。软件的地位已经压倒性地提升,而围绕软件构建的复杂性也在持续增长。

   

  “Arm聚焦于整体的技术栈,从底层硬件到整个技术栈中的软件和应用程序。” James McNiven表示,Arm已投入30多年来编写和优化软件,软件始终是Arm计算平台不可或缺的一部分。未来技术将变得更加复杂,并且需要大量的支持。软件的开发成本高且耗时,因此投资策略也必须不断进化。据悉,全球有超过2,000万名开发者在Arm平台进行软件开发。

   

  再加上,边缘AI主要用在端侧,而端侧领域面临着使用不同的API和平台的问题,导致碎片化很严重。为了应对这一挑战,Arm推出了Arm Kleidi。从Arm的角度来看,Arm需要思考如何打造一个软件库,通过将其集成到合作伙伴的软件中,让这些应用能够在包括移动终端在内的端侧领域,充分发挥 Arm CPU 的性能优势。同时,James McNiven 指出,“我们也持续投入软件,例如,在企业场景中提供支持,通过与 Linaro 的合作,持续强化对Linux的支持,在固件标准(如 UEFI)上的贡献,以及对一些开源工具的支持等。这些都是我们持续进行的工作任务,目标是尽可能减少产业的碎片化。”他进一步表示,在过去的努力下,在终端领域的进展非常不错。

   

AI PC带来的机遇

  前面有提到,IDC预计今年新推出的PC中将会有55%支持AI功能,加上苹果这几年将Arm处理器用在苹果Macbook上之后,保证了其性能的同时,更加节能了,也让其他PC厂商看到了Arm处理器在PC上应用的可能性。

   

  据James McNiven介绍,在AI PC方面,Arm正与包括微软在内的多家合作伙伴携手合作。目前已有众多原生应用程序在Windows on Arm平台上运行,也有丰富的开发工具,以及越来越多的创新应用,像爱奇艺、哔哩哔哩和搜狗这些原生支持Windows on Arm的应用程序,可以充分利用AI PC的所有AI功能。

图形用户界面

描述已自动生成

  另外,他强调,Arm多年来持续投资Armv9架构。在过去几年中,Arm通过加入许多以AI为核心的功能,使该架构适用于未来发展,而这一进程还在持续。十多年前,Arm首次将AI功能引入Arm架构,随后在Armv8架构中引入了64位技术,不过,真正开启AI时代的,则是Armv9。

   

  未来十年的Arm计算平台是专为AI而设计的,所有这些功能将通过软硬件能力的结合来实现。Armv9近期新增的两大关键技术是SVE和SME:

  • 可伸缩向量扩展(SVE):SVE2已应用于一些领先的计算产品中,如全新的天玑9400,可加速工作负载,惠及开发者和终端用户。SVE2提升了视频和图像处理,提供更好的照片质量。
  • 可伸缩矩阵扩展(SME):新一代架构功能将为开发者提供通用指令集,使其能够一次在多个硬件平台上实现Arm架构中的加速效果。

   

与生态伙伴合作完善Arm生态

  Arm能走到今天与生态伙伴的支持是分不开的,随着芯片复杂性和封装水平的提高,晶圆代工厂的支持相当重要,无论是台积公司、三星还是英特尔。但懂得打造这些超级复杂产品的科技人才非常短缺,尤其是在AI领域,如何进行协作、如何利用设计服务以及如何整合不同领域的专业知识以构建面向未来的出色平台十分关键。

   

  因此,Arm推出了Arm 全面设计(Arm Total Design, ATD)生态项目这样的合作伙伴平台,生态系统合作伙伴能够专注于各自擅长的领域,进而更快、更具成本效益地开发出更好、更强大的产品。

   

  据James McNiven介绍,此计划在全球持续成长,成员规模自推出以来已经翻倍。已有许多平台以Arm Neoverse计算子系统(CSS)为核心,通过这个生态项目所汇聚各种制造环节所需的专业支持,快速打造出定制化的解决方案。

   

  同时,Arm也在与合作伙伴紧密合作,共同定义未来的技术。比如,通过与vivo的合作,Arm可以更了解用户在手机上的核心需求,并针对这些需求进行优化。

   

  另外,Arm还保持着与开源社区的合作。在中国市场,Arm与龙蜥社区、欧拉社区、OpenCloud OS进行了合作。

   

  值得一提的是,Arm还在构建AI框架、AI 软件库和 AI 技术——KleidiAI。Kleidi确保全球领先的AI框架可以基于Arm平台即刻运行,解锁性能,无需额外的工作,当新的模型发布时,其性能可以在第一时间被利用。比如,Arm与腾讯的合作,并对其混元大模型进行了优化。通过集成Kleidi,混元大模型的预填充部分加速了100%,而解码器的速度提高了10%。这些性能改善有助于实现更快、更高效的AI操作。

   

  据悉,Arm在不到24小时内就将Kleidi集成到了Llama 3中。这意味着,当新版本发布时,无论是Llama还是MediaPipe,开发者都能立即享受到这些优化带来的好处。

0
收藏
0