谷歌发布AI大模型Gemini,声称性能超GPT-4

来源: 芯闻路1号 作者:编辑Henry 2023-12-07 10:04:47

12月7日凌晨,谷歌公布了其多模态AI模型系列——Gemini,并声称Gemini在“32个广泛使用的学术基准中的30个”中击败了GPT-4。

 

Gemini1.0是谷歌筹备了一年之久的GPT4真正竞品,也是目前谷歌能拿出手的功能最为强悍、适配最为灵活的大模型,包括三种不同套件,分别是Gemini Ultra, Gemini Pro和Gemini Nano。

 

其中Ultra的能力最强,复杂度最高,能够处理最为困难的多模态任务;Pro能力稍弱,是一个可扩展至多任务的模型;Nano则是一款可以在手机端侧运行的模型。这说明,Gemini的触达范围很广,可以下探至数据中心,也可以上行至移动设备端侧。谷歌的Bard聊天机器人,此番也已经升级到了Gemini,可以说Gemini的初始版本已于今日开始在Bard中提供。

 

 

与GPT-4一样,Gemini可以处理多种类型(或“模式”)的输入,使其成为多模态模型,这意味着它可以处理文本、代码、图像甚至音频。目标是制造一种人工智能,能够准确解决问题、提供建议和回答各个领域的问题。谷歌表示,这将推动计算的新时代,并希望将该技术紧密集成到其产品中。

 

“Gemini 1.0复杂的多模态推理功能可以帮助理解复杂的文本和视觉信息,”谷歌提到,“通过阅读、过滤和理解信息从数十万份文件中提取见解的卓越能力,将有助于在从科学到金融的许多领域以数字速度实现新的突破。”

 

谷歌表示,Gemini将提供三种版本:Gemini Ultra(“用于高度复杂的任务”)、Gemini Pro(“用于扩展各种任务”)和Gemini Nano(用于“设备任务”,如谷歌的Pixel 8 Pro智能手机)。每个版本的复杂性按参数计数区分。更多的参数意味着更大的神经网络,通常更有能力执行更复杂的任务,但需要更多的计算能力才能运行。这意味着最小版本Nano被设计为在消费类设备上本地运行,而Ultra只能在数据中心硬件上运行。

 

到目前为止,创建多模态模型的标准方法基本是针对不同模态训练单独的组件,然后将它们拼接以粗略模仿其中一些功能。这会导致这些模型有时擅长执行某些任务,例如描述图像,但难以处理更概念性和复杂的推理。

 

其通过60页的相关技术报告证明,Gemini是一个真正原生的多模态大模型,因为从最初的预训练数据开始,Gemini就在针对不同模态的模型进行训练,因此其功能在每个重大领域都达到了SOTA(State of the art,特指领先水平的大模型)。

 

https://img2.jiemian.com/101/original/20231207/170190725211221000_a700xH.png

图源:谷歌技术报告

 

在权威MMMU基准测试中,Gemini Ultra获得了59.4%的SOTA分数。这项基准测试是经典的多模态测试,由跨不同领域的多模式任务组成,能够体现大模型的深度推理能力,而推理过程本身,需要花费的成本要远远高于模型训练。谷歌技术报告同时显示,谷歌是使用TPUv5e和TPUv4来训练Gemini,尤其是训练Gemini Ultra时,使用了跨多个数据中心的大量TPUv4。

 

多模态能力之外,Gemini在专业知识储备和高级编码等领域都处在最前列。比如,Gemini Ultra在MMLU(大规模多任务语言理解数据集)中的得分率高达90.0%,这款MMLU数据集包含数学、物理、历史、法律、医学和伦理等57个科目,专门用于测试大模型的知识储备和解决问题能力。Gemini Ultra是第一个在MMLU上超越人类专家的大模型。

 

值得一提的是,谷歌此番并没有透露Ultra和Pro版本的具体参数规模,但根据量子位的分析,Gemini与谷歌此前的主力大模型PaLM-2相比,参数规模上要增大许多。此前,PaLM-2被曝参数规模为3400亿。

 

谷歌方面表示,Gemini将通过谷歌产品推向数十亿用户。从12月13日开始,开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API访问Gemini Pro。

 

此外,谷歌还同步发布了最新版本的计算芯片TPU v5p,相较上一代TPU v4性价比提升2.3倍。

0
收藏
0