李开复AI公司首发大模型

11月6日，由创新工场董事长兼CEO李开复成立的AI公司“零一万物”发布了首款开源中英双语大模型“Yi”。与此同时，36氪从知情人士处获悉，零一万物已完成新一轮融资，由阿里云领投。目前，零一万物估值已超10亿美元，跻身独角兽行列。

此前，“Yi”于11月2日已经在Hugging Face低调上传了两个参数规模分别为6B和34B的基础模型。截至11月5日，Yi-34B分别在Hugging Face LLM Leaderboard（pretrained）（预训练大语言模型）和中文大模型榜单C-Eval排行榜已经爬升到1位。

上下文窗口，意味着模型的“记忆力”。据介绍，Yi目前拥有200K上下文窗口，可处理约40万字的文本——这也是目前全球大模型中最长的上下文窗口。

李开复提到，由于GPU紧缺，当模型尺寸从6B推向更大的尺寸时，团队需要把握好规模减少试错成本，不能一味追求“大”。通过打磨AI Infra，Yi-34B将训练成本下降了40%，“别的友商如果要用2000张GPU，我们只要1200张。”

Yi的训练数据主要来源于公开语料的爬取和数据库。李开复介绍，训练数据的难点在于重复率高、质量低。通过清晰，团队从100多T的数据中筛选出了3T。由于中文语料的质量较低，目前，Yi的训练数据中英文语料的比例高于中文语料。

那么Yi的能力究竟几何？在测评中，零一万物参考了Meta开源模型Llama2能力测评中所用到的PIQA、SIQA、HellaSwag、WinoGrande等多个数据集，来评估Yi的“常识推理能力”“阅读理解能力”“数学与代码能力”等多维度能力。

结果显示，Yi-6B在常识推理能力和阅读理解能力上达到了国内外开源模型的平均水平，但在数学与代码能力上还较弱。Yi-34B在常识推理能力和阅读理解能力上均大幅领先国内外开源模型，在数学与代码能力上处于领先水平。

相较于市面上常见的参数规模7B、13B，零一万物给出的是6B和34B的方案。李开复认为，34B的尺寸属于开源大模型稀缺的“黄金比例”尺寸，达到“涌现”门槛、满足精度要求的同时，对厂商而言能够采用高效率单卡推理，训练成本友好。

李开复坦言，在完成融资前，零一万物为了覆盖算力等训练成本已经负债几千万美元。这也侧面反映出李开复All in AI的决心。

作为零一万物的发起人，李开复也可谓是中国人工智能的领军人物之一。他曾先后担任微软全球副总裁、谷歌全球副总裁兼大中华区总裁，并在2009年创立了天使投资和企业孵化平台创新工场。

2023年3月，李开复躬身入局大模型赛道，为筹建新公司零一万物广发“英雄帖”：“零一万物欢迎有AI 2.0技术实力和AGI信仰的优秀人才加入，一起打造AI2.0全新平台，加速AGI到来。”到7月，零一万物已有来自阿里、百度、谷歌、微软等国内外公司的数十位核心成员到位。发布会上，李开复介绍，“（团队）在6、7月份写的第一行代码。”

图片来源于网络

李开复AI公司首发大模型

全部评论