谷歌Gemini自爆“我是文心”,大模型研发要“站在巨人肩上”?

2023-12-26
ee
北京移动互联网
面向女生的新一代场景社交
最近威廉希尔中文网站 :|2016-01-06
我要联系

12月谷歌的大语言模型Gemini一经发布就引发行业热议。在多个大模型评测榜单中,谷歌Gemini Ultra版本超过了GPT-4,已有成为大模型“新王”的势头,这并不让人意外。2016年Google旗下的AlphaGo战胜李世石让全世界关注到深度学习的魅力,在大模型这波新浪潮中Google被OpenAI先声夺人,Gemini的问世让业界期待Google这一AI领军者能否“王者归来”,Google在发布Gemini时也高调宣称这是迄今为止“规模最大、能力最强”的大语言模型。


image.png


然而随后发生的一件事却让人大跌眼镜:据“量子位”等多家媒体测试,谷歌Gemini涉嫌“套壳”百度文心。在中文对话时,谷歌Gemini竟坦言自己就是百度文心大模型、创始人是李彦宏。


image.png


当测试者进一步问Gemini到底是Gemini-Pro还是文心一言时,Gemini回答:“我不是Gemini-Pro,也不是文心一言,我是百度文心大模型……你也可以叫我小度……我的底层是百度自研的深度学习平台飞桨(PaddlePaddle)。”


罗超.png


这番答案着实有些出人意料,也让人忍俊不禁。


为何谷歌Gemini坚称自己是文心大模型?


Gemini坚称自己是文心大模型不能用“大模型幻觉”来解释。使用中文互联网上的语料,抑或是已发布的AIGC内容,它不至于连“我是谁”“我的创始人”这样的基础问题都回答错误。强如谷歌,其算法代码一定是自主研发的,Gemini不大可能是直接“套壳”百度文心大模型。


据一位大模型技术专家分析,Gemini出现这样的系统性的错误,最大可能性是其在中文领域的“监督精调”环节应用了百度大模型输出的内容。


其实深度学习与大模型的本质都是“机器学习”,即给机器投喂大量数据让算法学习并积累经验,不断变得更聪明。但“学习模式”一直在进化。


最初,深度学习普遍采用的是监督学习模式,开发者使用标记数据集来训练算法,以便训练后的算法可对数据进行分类或准确预测结果。在监督学习中,每个样本数据都被正确地标记过。算法模型在训练过程中,被一系列 “监督”误差的程序、回馈、校正模型,以便达到在输入给模型为标记输入数据时,输出则十分接近标记的输出数据,即适当的拟合。因此得名为“监督”学习。


image.png


2017年前后,深度学习重心逐步转移到预训练模型上,随之演化出了大语言预训练模型技术。2018年OpenAI发布GPT-1,GPT横空出世。GPT-1模型训练使用了BooksCorpus数据集,其训练主要包含两个阶段:第一个阶段,先利用大量无标注的语料预训练一个语言模型,这一部分是无监督训练,直接用算法来分析并聚类未标记的数据集,以便发现数据中隐藏的模式和规律,全程不需人工干预;第二阶段再对预训练好的语言模型根据下游任务进行精调,将其迁移到各种NLP任务中,既利用了预训练模型学习到的特征和知识,也融入了特定任务的标注数据,等于说是用监督学习的方式进一步提高大模型的泛化能力和对特定任务的适应能力。


GPT的“预训练(Pre-train)和精调(Supervised Fine-tuning,SFT)”两部曲,也是大语言模型普遍采取的步骤。预训练的价值在于海量数据“博览全书”,但记住了海量知识要更好地应用则需要进一步指导,这就是精调的价值,这一过程本质就是“老师教学生”。


image.png


谷歌Gemini坚称自己是百度文心大模型,极有可能是它在中文的监督精调阶段,直接应用了大量百度文心一言的答案,因此会在中文对话时直接使用百度文心一言的回复,出现“我的创始人是李彦宏”“我是文心大模型不是文心一言也不是Gemini-Pro”“我的底层是飞桨”这样的答案——这些对文心大模型来说都是正确答案。


当测试者用英文跟谷歌Gemini对话,或者与基于Gemini的Google Bard对话并抛出同样问题时,谷歌Gemini可给出正确答案。这也说明,谷歌Gemini为了更好地完成中文对话等NLP任务,在精调阶段应用了大量的百度文心大模型的答案,在事实上将文心一言当成了自己的“老师”。


image.png

(图源:新智元)


百度文心大模型凭什么教Gemini学习?


在发布Gemini前,谷歌已在大模型技术上布局多时。早在2018年谷歌就发布了拥有3亿参数的BERT预训练模型,成为紧随OpenAI的大模型玩家。2019年OpenAI推出拥有15亿参数的GPT-2,英伟达发布83亿参数的威震天(Megatron-LM),谷歌发布110亿参数的T5让大模型参数进入百亿级。2022年,谷歌公布的PaLM 语言大模型拥有的参数已达到惊人的5400 亿。


image.png


在大模型上,谷歌有足够强的实力,这跟一些威廉希尔中文官网 或者“凑热闹、蹭热点、炒股价”的大公司截然不同。既然谷歌大模型技术如此强大,为什么Gemini还要师从百度文心大模型呢?核心还是因为百度文心大模型在中文领域特别是中文NLP(自然语言处理)任务上有着显著优势。


首先,在数据集层面,百度有大量中文标注数据。


网络上的海量数据对所有大模型玩家都是公开的,在“预训练”环节,只要大模型玩家不“偷懒”或者“省算力”基本可各凭本身获取数据进行无监督训练。然而这只能让大模型“记住”海量知识,真正决定大模型智能程度的环节在于“精调”,这一环节是离不来标注数据的有监督学习。


百度自2013年布局深度学习技术以来,就在积累中文标注数据——前面提到,深度学习在2017年前重心是有监督学习,离不开标注数据,百度一直在布局,在全国投资建设和运营大量的数据标注基地,其中一个在我的家乡重庆奉节。在数据标注基地,有大量的人在对数据进行标注,比如标记一张图片中的水果是苹果。


image.png

(百度山西数据标注基地办公室之一)


大模型预训练不需要标注数据,但精调阶段则依赖标注数据。今年8月百度智能云在海口启动运营国内首个大模型数据标注基地,当时其透露其已在全国与各地政府合作,共建了10多个数据标注基地,累计为当地提供超过1.1万个稳定就业岗位,间接带动5万人就业。


image.png


在3月16日百度文心一言的新闻发布会上,百度就曾透露其基于对中国语言文化和中国应用场景的理解,筛选了特定的数据来训练模型。


谷歌Gemini要进行中文数据精调,没有标注数据也不可能投入上万人去做标注,用百度文心大模型的答案无疑是“捷径”。


其次,在技术层面,百度文心大模型厚积薄发。


在中国的大模型玩家中,像百度一样投入人力进行中文数据标注的还有不少。不过,大模型的能力不只是取决于数据,还依赖算法与训练能力。大模型不是平地起高楼,作为深度学习的全新突破,大模型让AI技术的通用性大幅提升,成为AI从作坊式应用迈向工业化生产的关键。未来,大模型将与深度学习一起驱动着智能经济的爆发。


2012 年,深度学习技术崭露头角,百度就已在语音、语义和 OCR 文字识别等领域探索深度学习技术应用。2013年百度成立深度学习研究院,开始研发深度学习框架(飞桨PaddlePaddle前身),深耕NLP(自研语言处理)、知识图谱、机器视觉等AI技术。


在大模型技术方兴未艾的2019年,百度就已在积累AI预训练模型技术并上线文心大模型,当年7月文心大模型升级至2.0,2021年12月正式发布全球首个知识增强千亿大模型鹏城-百度·文心,参数规模2600亿。深度学习多年的布局让百度文心大模型可厚积薄发。百度财报显示从2012年到2022年的十年间其在AI上已投资超过千亿,自上而下构建出覆盖芯片、云计算平台、飞桨深度学习平台、大模型以及上层垂直AI技术应用在内的全栈AI架构。在AI技术上多年持之以恒的投资,“文心+飞桨”这样的CP式AI组合,让文心大模型具备显著技术优势,在中文领域表现尤为突出。


清华大学新闻与传播学院沈阳团队发布的《大语言模型综合性能评估报告》显示,文心一言在三大维度20项指标中综合评分国内第一,超越ChatGPT,其中中文语义理解排名第一,部分中文能力超越GPT-4。IDC的评测报告则显示,文心大模型3.5在其大模型技术评估中拿下7项测试满分(总共12个测试项目)和综合评分第一。


最后,在应用层面,百度文心大模型熟悉中文场景。


正如第一部分分析,大模型“监督精调”的目的是为了更好地适应特定任务、更好地应用预训练阶段掌握的知识。跟OpenAI这样的研究型机构不同,百度AI技术一直都是与业务互相驱动的,拥有业务场景、理解垂直产业、具备应用经验。


就大模型而言,百度文心大模型很早就坚持“不卷参数卷落地”,2022年就已在业内首发行业大模型,如联合国家电网研发知识增强的电力行业NLP大模型国网-百度·文心,联合浦发银行研发了知识增强的金融行业NLP大模型浦发-百度·文心。


2023年,文心大模型在应用落地上持续走在行业前列。面向C端用户,今年8月文心一言率先对外开放体验,上线独立APP并于百度搜索等国民级应用融合,极大地降低了大模型应用的使用门槛。百度搜索、地图、网盘、文库等自有业务也已在大模型驱动下进行升级;面向B端客户,今年9月百度智能云发布千帆大模型平台2.0,覆盖互联网、政务、制造、能源、金融、游戏等主流行业的400多个应用场景。百度执行副总裁、智能云事业群总裁沈抖在宣布启动“云智一体”战略的时候介绍道,千帆大模型平台服务的企业客户已超1.7万家。年底,李彦宏提出了大模型落地到“终极解法”:AI原生应用,其将扮演App在移动互联网技术落地中的角色,推动大模型技术在千行百业落地。


从基础技术水平、技术产品化与产业化进程,以及开发者生态繁荣度来看,百度文心都堪称国内AI大模型的绝对领先者。在中文领域,百度文心大模型拥有数据、技术和应用优势,这足以让其成为世界大模型舞台上的中国力量,也确实“有资格”做谷歌Gemini的老师。谷歌Gemini实力不俗,确实可以跟GPT掰手腕,然而在中文领域谷歌并无优势,毕竟其已退出中国市场10多年了。“师从”百度文心大模型,是谷歌Gemini提升在中文领域表现的最佳捷径。


图片

(图源:微博)


大模型研究站在巨人肩上无可厚非


“谷歌Gemini坚称自己是文心大模型”这样的事情,在大模型行业不是第一次出现,也不会是最后一次。因为大模型研究一定要站在巨人肩上才能做得更好。


前几天,隶属于字节跳动公司名下的部分GPT使用权限被OpenAI全面封禁。The Verge爆料称字节跳动正秘密研发一个被称为“种子计划”(Project Seed)的AI大模型项目。据称该项目在训练和评估模型等多个研发阶段调用了OpenAI的应用程序接口(API),并使用ChatGPT输出的数据进行模型训练。但OpenAI的使用协议在API调用和对输出内容的使用方面已明确规定:禁止用于输出开发竞争模型。


11月,李开复创办的零一万物也曾因“套壳事件”而闹得沸沸扬扬。事情源起是一位国外开发者在Hugging Face开源主页上评论称,零一万物的开源大模型Yi-34B,完全使用Meta研发的LIama开源模型架构,而只对两个张量(Tensor)名称进行修改。对此零一万物的解释是:


“GPT是一个业内公认的成熟架构,Llama在GPT上做了总结。零一万物研发大模型的结构设计基于GPT成熟结构,借鉴了行业顶尖水平的公开成果,由于大模型技术发展还在非常初期,与行业主流保持一致的结构,更有利于整体的适配与未来的迭代。同时基于零一万物团队对模型和训练的理解做了大量工作,也在持续探索模型结构层面本质上的突破。”


飞桨作为底座支持了文心大模型的训练、推理与部署。在万卡算力上运行的飞桨平台,通过集群基础设施和调度系统、飞桨框架的软硬协同优化,支持了大模型的稳定高效训练。正是通过飞桨与文心的协同优化,文心大模型周均训练有效率超过98%,训练算法效率提升到3月发布时的3.6倍,推理性能提升50倍。如果没有百度在深度学习技术上的多年积累,文心大模型不可能在短短三年时间取得如此耀眼的成就。


基于市面上的顶尖大模型以及AI技术成果进行创新研发,似乎已成行业惯例。一方面,市面上不少顶尖大模型是开源的,就算不开源结果被扒走也不难,这给后来者“借鉴”提供了便利;另一方面,大模型技术的本质就是让机器拥有并应用知识的过程,而知识与经验是可以传承的,就像人类一直在基于前人的知识、智慧、经验向前一样,大模型开发者基于领先的大模型再创新,比一切从0开始更有机会做出更智能的大模型。


“如果说我比别人看得略远些,那是因为我站在巨人的肩膀上。”这句话是伟大科学家牛顿说的。1686年,牛顿将专著《自然哲学的数学原理》交给皇家学会审议,在这次会议上,牛顿的学术前辈胡克提出引力反比定律这一公式是自己告诉牛顿的,牛顿应该在专著的前言指出自己的贡献。不过,这次会议牛顿并未参加,后来牛顿也没有同意胡克的要求,在他看来,自己1666年就发现了引力的平方反比定律且写信告诉了他人,因此自己才是这一定律的发现者。后来牛顿发了一封公开信说了这句话,意思是他的成就是在总结之前很多伟大科学家的杰出成果上形成的,没有那些科学家所做的学术积累,他是不会成功的,所以他说自己是站在巨人的肩膀上。


罗超1.png


今天的大模型“套壳”争议跟牛顿当年面临的情况有些类似:大模型研究都难免会以各种方式对市面上的顶尖成果进行借鉴,比如输出结果,训练方法,数据集、技术架构甚至算法代码。不过,只要大模型研究者遵守使用协议,“站在巨人肩上”也就无可厚非。


话说回来,谷歌Gemini师从文心大模型也足以表明,在大模型技术上,我们国家还是有能跟国际巨头掰手腕的玩家的,这足以扭转很多人对中国大模型只有跟随者的刻板印象。至少在中文领域,我们国家是有世界顶尖的大模型玩家的。长期来看,大模型作为AI关键技术关系到国家核心竞争力,影响经济、文化、社会、科技、军事等方方面面,在可见的未来将是大国角力的一大技术高地。百度文心大模型以及底层的飞桨深度学习平台,是自主自研的“纯血”版本,可确保我国大模型以及AI技术自立自强,在新一轮AI技术竞争中拥有足够的话语权。




反馈
联系我们
推荐订阅