CIPU芯片为“算力”加码,助推云计算产业发展

来源: 芯闻路1号 作者:未来星蜥蜴姐 2022-07-09 00:00:00

       2022年6月13日,阿里云智能总裁张建锋在2022阿里云峰会上正式发布了云数据中心专用处理器CIPU(Cloud infrastructure Processing Units 云基础设施处理器),将替代CPU成为云时代数据中心的处理核心。

   

  这个只比CPU多个“I”的新名词,一举成为云计算架构中取代CPU“C位”的存在,来应对愈加棘手的数据吞吐、网络时延和带宽的问题。这将对云计算产业产生哪些影响?本期深度报道中,阿里云MVP、金融科技专家马超,苏宁消费金融安全运维部总经理顾黄亮,以及一舟科技资深咨询顾问张岩磊几位专家阐述了他们的观点。

   

  激发算力潜能

   

  根据官方定义,CIPU是阿里云自主研发的云基础设施处理器,在数据中心内部替代CPU成为云计算体系架构的中心,是为飞天云操作系统设计的专用处理器。CIPU向下云化管理数据中心硬件,并对计算、存储和网络资源进行加速,向上接入飞天云操作系统,将全球200多万台服务器变成一台超级计算机,为客户提供更高性能、更低价格、更可靠的云计算服务。

  例如,CIPU与计算结合,快速接入不同类型资源的服务器,带来算力的“0”损耗,以及硬件级安全的加固隔离;CIPU与存储结合,对存算分离架构的块存储接入进行硬件加速,云盘存储IOPS 最高可达300万,长尾时延降低50%;CIPU与网络结合,可对大带宽物理网络进行硬件加速,构建大规模弹性RDMA高性能网络,时延最低可达5微秒。

   

  基于CIPU和飞天的新一代云计算架构体系,在通用计算、大数据、人工智能等核心场景的计算测试中展现了优越的性能。在通用分布式计算领域,Redis性能提升了68%、MySQL提升了60%、Nginx提升了30%;高吞吐类的互联网业务上云之后,比自建物理机的集群吞吐量提升了30%,业务高峰期延迟下降了90%;在大数据和AI等计算与数据双密集场景下,相比传统的TCP网络,弹性RDMA高性能网络的吞吐能力提升30%以上;云原生方面,容器启动速度快了350%,在Serverless场景下6秒可拉起3000个弹性容器实例。

   

  阿里云MVP、金融科技专家马超介绍说,云计算平台基本起源于10年前,当时阿里创造了“双十一”购物节,这样的疯狂增长奇迹,让人始料不及,创造了增长1000%的神话。不过这种爆炸式增长,也成为了当时IT人的甜蜜负担,IT人渐渐发现其用户的增长速度已经渐渐超出系统处理能力的提升速度了,而原有一直沿用的IOE(IBM的小型机、Oracle的数据库和EMC的存储)中心化系统体系与这种高用户并发的场景几乎格格不入,原有的IOE产品根本就无法负担这种上亿用户同时在线的业务场景。

阿里云MVP、金融科技专家马超

   

  也正是由于上述原因,10年前的中国互联网人就开始在PC服务器、开源数据库产品、分布式存储等云计算相关技术上开展了研究和探索。以前提升算力的思路是让服务器越来越强,而分布式思路是只需要增加服务器节点的数量,就能处理更多的并发服务请求,而在分布式改造的过程中,云计算这个金融科技的基础底座也在这样的流量冲击下被塑造形成。但由于虚拟化层的存在,云计算之前难以发挥出云平台的全部算力潜能,一般认为,虚拟机能达到硬件平台总算力的90%即是比较好的成绩了,剩下的10%是云平台调度节点的损耗。在CIPU这个全新体系架构下,阿里云可以向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速,向上接入飞天云操作系统,将全球数百万台服务器连成一台超级计算机。

   

  助推云计算发展

   

  张建锋表示,在过去十多年里,云计算技术经历了两个发展阶段:第一个阶段是分布式和虚拟化技术替代了大型机、小型机,满足了当时企业业务扩展带来的算力弹性需求;第二阶段出现了资源池化技术,通过把计算和存储进行分离,而后规模化编排和调度,形成了超大规模的计算和存储资源池。

   

  近年来,云上客户的需求发生了很大变化,数据密集型的计算越来越多,不断地提高了对云计算提供的低时延、高带宽的需求,这些需求很难通过传统体系结构去满足。上述两个阶段演进虽然推动了云计算发展,但它们都是通过软件定义的方法,基于以CPU为中心的传统体系架构去优化。随着数字经济的发展,“以软件定义为主”的云计算再也无法满足产业需求。  

   

  行业期待着、也努力着推动下一代云计算的发展。2020年之后,部分芯片巨头陆续推出了相关数据中心产品,如NVIDIA的DPU(Data Processing Unit,数据处理器)和英特尔的IPU(Infrastructure Processing Units,基础设施处理器),与阿里云推出CIPU一样,都是希望设计一个新的管控中心,替换掉CPU的管控职能。

   

  DPU诞生背景是带宽与计算性能的增速失调,CPU性能从5-10年前每年30%的增幅,到三年前只有每年不到3%的增幅。而网络带宽每年依旧有35%左右的增长。这意味着,处理性能和带宽增速比例从原来大概1:1,变成了现在的1:10左右。因此,DPU侧重的是数据迁移带宽能力,作为集成加速平台,DPU能够从CPU上卸载关键的网络、存储和安全任务,降低CPU开销,直接效果是给 CPU“减负”。

   

  IPU紧随DPU之后,作用也类似。IPU通过专用协议加速器来加速基础设施功能,包括存储虚拟化、网络虚拟化和安全,通过把软件中的存储和网络虚拟化功能从CPU转移到IPU,从而释放CPU核心,还能允许灵活的工作负载分配,提高数据中心利用率。因此,IPU更强调虚拟化云化能力,它扩展了英特尔的智能网卡功能,旨在应对当下日益复杂的数据中心,提高数据密集场景的计算能力。尽管技术路径上有所区分,但无论是DPU还是IPU,都是想通过软件定义+硬件加速的方式,替代CPU成为数据中心的核心硬件。

   

  CIPU则更像是两者的综合体,通过向下向上接入,让算力虚拟化损耗降到0,并通过规模化应用RDMA网络技术,让访问云端比访问本地硬盘更快。CIPU既能解决数据迁移带宽问题,也能云化虚拟化管控数据中心。同时,搭载飞天系统设计后,实现了软硬件一体化,一方面通过硬件提供高性能,另一方面通过软件提供灵活性。

   

  苏宁消费金融安全运维部总经理顾黄亮认为,CIPU是为新型数据中心设计的专用处理器,具备两个核心功能,分别是具有管理虚拟化资源的能力和解决数据迁移过程中对带宽要求的问题。因此,CIPU对于云计算的发展,存在“助推”作用。现在的云计算架构中,算力瓶颈在于计算架构和网络架构,有了CIPU,便可以利用其计算管控能力来连接计算、存储和网络资源,构建资源生态,同时还可以加速资源云化过程,做到“即插即用”、“安全可信”。

苏宁消费金融安全运维部总经理顾黄亮

   

  一舟科技资深咨询顾问张岩磊认为,CIPU更需要配套芯片与之形成支撑体系,进而推动芯片、存储、网络、系统软件、应用软件等整个云计算产业链升级,最终升级用户的体验。以网络为例,现在数据中心处理的数据量和复杂度越来越大,对网络的要求也越来越高。阿里云的云计算网络包括两部分:一是数据中心物理网络,另一个是通过飞天操作系统在此基础上做的虚拟化云网络,也就是洛神云网络。阿里云通过自研高速网络拥塞控制协议HPCC、 EFLOPS智能计算集群等大规模高性能低延时网络技术,自研可预期网络,可以提升通信的智能性,在数据中心内建设“高速网”,从而链接起超级大算力集群,让算力被客户按需便捷高效使用。

   

  利于争夺定义权

   

  数字时代关于信息有4个要素:获取、传输、处理和显示。在信息的显示方面,我们已做得不错。但在获取、传输、处理方面还有欠缺。因此,在国际上,以英特尔、NVIDIA为代表的硬件厂商和以亚马逊、微软为代表的头部云厂商,都纷纷推出IPU、DPU等自研技术,试图在数据传输、处理方面破局。

   

  数字经济的发展与算力规模密切相关。算力规模排名前20的国家中,有17个国家实体经济非常发达,算力是数字经济的新引擎,所以我国近年来对算力的发展越来越重视。目前,中国的整体算力在世界上排第二,人均算力处于中等偏上水平,还有很大的发展空间。

   

  清华大学全球产业研究院发布《2021-2022全球计算力指数报告》指出,算力对经济增长的拉动具有长期性和倍增效应:计算力指数平均每提高1点,数字经济和GDP将分别增长3.5‰和1.8‰。如何更低成本、高效地提供触手可及的算力资源,已经成为全球科技厂商都在争夺的新一轮技术制高点。

   

  过去几年,包括阿里巴巴、亚马逊、谷歌、微软、英特尔、NVIDIA等在内,全球科技大厂都在大规模加码投入新一代云数据中心服务器。在上一代计算体系架构中,英特尔CPU和NVIDIA GPU是主流架构,通过软件虚拟化的方式将算力“切”成一份份对外服务。

   

  科技部国家科技专家、方融科技高级工程师周迪认为,阿里云作为云厂商,意味着与英特尔这样的硬件厂商不同,阿里云对于云计算技术发展各个阶段所面临的问题,有更为切身的体会。软件上,CIPU接入飞天云操作系统,更高效地完成虚拟化资源编排调度的工作;硬件上,飞天操作系统通过CIPU能快速云化管理数据中心物理设备,并对网络和存储硬件进行加速,这样一来,不仅不会浪费CPU的算力,还能增强网络和存储性能。CIPU的推出,意味着我们在技术自主化方面的努力,或许已更进一步。每当技术发展到一个更新换代的新阶段,围绕这方面的竞争往往精彩不断。如何打破以CPU为中心的传统云计算体系架构,打破海外云厂商、硬件厂商定义的传统发展路线,走出一条自己的新路,定义新一代云计算基础技术?或许,大幕刚刚拉开。

科技部国家科技专家、方融科技高级工程师周迪

   

  早在2016年,阿里巴巴内部就开始了技术长征——跳开现有计算架构,构建一套全新的架构,来彻底解决虚拟化软件造成的“公摊”成本和性能丢失问题。如今,阿里云CIPU改变了云计算仅用软件驱动硬件的技术模式,通过一款专为云设计的核心硬件对资源加速,实现云计算的高性能和低成本输出。通过CIPU与阿里云自研盘古存储、洛神网络结合,能够让访问时延降低至30微秒,使用户访问远程存储的数据,比读取本地数据速度更快;与计算结合,快速接入不同类型资源的服务器,可以实现硬件级安全的加固隔离。

   

  过去几十年里,以大型计算机、小型计算机、PC计算机、移动计算终端为代表的算力浪潮中,中国都是计算技术的深度使用者,在计算的定义上不曾握有话语权。这种科技话语权的缺失,导致我们今天在很多核心技术领域面临“卡脖子”风险。比如,在国内金融领域,以大型机为代表的计算架构至今在国有大行中广泛应用,替换步骤非常缓慢。

   

  因此,如果把这件事情放到全球计算发展史和新一轮科技竞争的大背景下看,其意义可能比我们认知的更大。

   

  正如中国工程院院士、清华大学计算机科学与技术系教授郑纬民所说,“近几年,云计算已经进入一个关键的转换期。过去这些年,在云计算领域,我国主要在软件层面有创新,发展了一些开源生态,但还是在传统IT的格局下追赶。现在,阿里云提出了CIPU技术,把上一代计算架构中心完全打破,在基础技术上实现世界领先,和国际IT巨头站在同一个起跑线上。他们提出了CIPU,使得中国在争取云计算的定义权中处于有利位置,改变了原本由西方制定的游戏规则,让我国IT产业拥有全球领导力。基于这一改变格局的事情,我对中国在下一个技术时代拥有自己的一席之地表示乐观。”

0
收藏
0