沉重!Gemini是谷歌发布的最具能力的大型模型 AI 超GPT4的模型性能

AI Gemini gpt 发布 性能 2024-01-04 71

摘要:此外,GeminiUltra的得分率为900%,是第一个在MMLU(大规模多任务语言理解)测试中超过人类专家的模型。值得注意的是,对于Ultra和Pro版本的具体参数规模谷歌此次并没有透露,但根据量子位的分析,Gemini与谷歌此前的主力大模型PaLM-2相比,参数规模上要增大许多。...

沉重!Gemini是谷歌发布的最具能力的大型模型 AI 超GPT4的模型性能

作者|星奈

编辑|方奇

媒体|AI大模型工场

“贾维斯,你在吗?”

“随时为你服务”

《钢铁侠》中的人工智能助手“贾维斯”是每个人都期待拥有的存在,而如今,谷歌推出的Gemini大模型正在逐渐将这一愿景变为现实。

官方宣布了最新多模态大模型Gemini 1.0(双子星)版本的正式上线,该版本在处理和结合文本、代码、音频、图像和视频等不同类型信息方面表现出众。

Gemini不仅能准确识别纸上描绘的蓝色鸭子并加以半开玩笑评价,甚至对普通话的声调还有准确的理解。此外,它还能够根据多种元素展现对应场景,并生成与场景相匹配的音乐。

Gemini的出现,预示着每个人都可能拥有“贾维斯”的时代已经不再遥远。

一、谷歌大模型是如何超越GPT4?

Gemini是目前最灵活的模型,能够在所有设备上高效运行,且其先进的功能将显著改善开发者和企业客户通过AI构建和扩展的方式。此外,Gemini可以处理和结合文本、代码、音频、图像和视频等不同类型的信息。

对于Gemini Ultra来说,它的性能在自然图像、音频和视频理解到数学推理等32项学术基准中超过了目前最先进的水平。而在MMLU(大规模多任务语言理解)测试中,Gemini Ultra的性能超过了人类专家。此外,在新的MMM基准测试中,它也取得了优异成绩。Gemini Ultra在图像基准测试中的表现也优于以往最佳的模型。

二、多模态大模型想象空间巨大

谷歌的Gemini设计为原生多模态,从一开始就在不同模态上进行预训练,利用额外的多模态数据对其进行微调,以进一步提高其有效性。它具有复杂的多模态推理能力,可帮助理解复杂的书面和视觉信息。Gemini 1.0还具有编码能力,可以理解、解释和生成世界上最流行的编程语言的高质量代码。

在Gemini多模态大模型的基础层,谷歌使用自研的TPUs v4 和 v5e 在通过AI优化过的基础设施上,对Gemini 1.0进行了大规模训练。值得关注的是,谷歌还同步发布了迄今为止功能最强大、效率最高且可扩展性最强的TPU系统Cloud TPU v5p,相较上一代TPU v4性价比提升2.8倍。

Gemini的发布无疑打开了大模型发展的另一道大门,相比大语言模型,Gemini的多模态特性更为接近人类自然交互,也更像《钢铁侠》中贾维斯的存在。

无论是几天前突然蹿红的文生视频Pika1.0,还是Gemini,都让我们看到了多模态大模型未来发展的潜力。

相关推荐