当前位置: 编码机 >> 编码机介绍 >> GPT4地位难保,谷歌Gemini新王
出品|虎嗅科技组
作者|齐健
头图|Google
当地时间12月6日,谷歌官宣了其最新大模型Gemini1.0。
Gemini1.0与LLaMA模型相似,也是一套系列模型,其中包含三个版本:
GeminiUltra——参数量最大,能力最强,适用于高度复杂的任务。
GeminiPro——可扩展至各种任务的模型。
GeminiNano——高效的设备端任务模型。
Gemini1.0主打多模态能力,谷歌将Gemini定义为一款“原生多模态(nativelymultimodal)”模型。
在模型能力方面,谷歌称GeminiUltra的性能在大型语言模型(LLM)研发中使用的32个广泛使用的学术基准中的30个超过了当前最先进的结果。
在MMLU(大规模多任务语言理解)测试框架中,GeminiUltra的得分高达90.0%,甚至超越了人类专家。
Gemini被谷歌CEOSundarPichai称为“谷歌迄今为止最大、能力最强的AI模型”。
SundarPichai在Gemini的官宣博客中写道:
“在许多领先的基准测试中都具有最先进的性能。谷歌的第一个版本Gemini1.0针对不同尺寸进行了优化:Ultra、Pro和Nano。这些是Gemini时代的第一个模型,也是谷歌今年早些时候成立GoogleDeepMind时的愿景的首次实现。这个模型的新时代代表了谷歌作为一家公司所做出的最大的科学和工程努力之一。我对未来以及双子座将为世界各地的人们带来的机会感到由衷地兴奋。”
目前,谷歌官方称其主打的聊天机器人Bard已升级至GeminiPro版本,能力在推理、规划和理解等方面得到显著提升,并继续免费向用户提供服务。谷歌预计明年初推出更为先进的“BardAdvanced”,届时将采用GeminiUltra。
在Gemini发布之前,谷歌在生成式AI和LLM方面主推的两款模型PaLM2和LaMDA,在用户当中收获的评价一直不高,相对于业界领军的GPT-4差距很大。
由此,传闻中谷歌重点研发的Gemini模型一直被寄予厚望。Gemini也是谷歌大脑(GoogleBrain)和DeepMind合并组建GoogleDeepMind之后的首个重要产品。
下面我们来看看,Gemini到底牛在哪?
超过人类专家,向强人工智能迈近一步?
“Gemini在MMLU基准测试中超越人类专家。”
虽然,有了AlphaGo的经验,我们并不认为AI在某些领域超越人类是什么新鲜事。但今时不同往日,在ChatGPT带来的AGI、强人工智能“威慑”下,任何被称为超越人类的AI,多多少少都会引人侧目。
那么在这个测试集中超越人类专家,到底有多厉害呢?
大型语言模型(LLM)的主流评测数据集包括:GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等。通常用于评估模型在语言理解、推理、阅读理解和常识推理等方面的能力。
MMLU(大规模多任务语言理解)是一个结合了数学、物理、历史、法律、医学和伦理学等57个科目的测试集。相比于其他测试集,MMLU的广泛性和深度更强,它通过大量和多样的任务来测试AI模型在理解自然语言方面的能力,特别是在复杂和多变的真实世界场景中的表现。这使得MMLU成为一个极具挑战性的评测框架,可以全面地评估和推动大型语言模型的发展。
GPT-4与Gemini在MMLU测试集的对比
这个框架通常包括数以千计的不同任务,涵盖广泛的主题和挑战。MMLU的目的是提供一个全面且多样化的方法,测试和评估语言模型在各种复杂和现实世界场景中的表现。其中的测试任务可能包括理解笑话、回答有关世界历史的问题、解释科学现象等众多更接近于人类知识、常识和理解能力的项目。
在MMLU测试中超越人类专家,也可以理解为,在这个测试框架下,Gemini在“各种复杂和现实世界场景中的表现”超越了人类专家。
谷歌在官方博客中称:Gemini利用MMLU基准方法使Gemini能够利用其推理能力在回答难题之前更仔细地思考,从而比仅使用第一印象有显着改进。
除此之外,GeminiUltra还在新的MMMU(专家AGI的大规模多学科多模式理解和推理)基准测试中取得了59.4%的最先进分数,该基准测试由跨越不同领域、需要深思熟虑的推理的多模态任务组成。
谷歌的测试显示GeminiUltra的性能优于之前最先进的模型,无需从图像中提取文本以进行进一步处理的对象字符识别(OCR)系统的帮助。这些基准凸显了双子座天生的多模态性,并表明了双子座更复杂推理能力的早期迹象。
Gemini在文本和编码等一系列基准测试中的表现
在某个测试集中超越人类专家,对于AGI或者强人工智能来说虽然还相去甚远,但仍可以说是在这条路上迈出的坚实一步。
原生多模态,比GPT-4更强大?
其实Gemini的LLM性能表现并不是他最大的亮点。Gemini真正值得
转载请注明:http://www.aideyishus.com/lkyy/5927.html