摘要：此外，GeminiUltra的得分率为900%，是第一个在MMLU（大规模多任务语言理解）测试中超过人类专家的模型。值得注意的是，对于Ultra和Pro版本的具体参数规模谷歌此次并没有透露，但根据量子位的分析，Gemini与谷歌此前的主力大模型PaLM-2相比，参数规模上要增大许多。...

沉重！Gemini是谷歌发布的最具能力的大型模型 AI 超GPT4的模型性能

作者｜星奈

编辑｜方奇

媒体｜AI大模型工场

“贾维斯，你在吗？”

“随时为你服务”

《钢铁侠》中的人工智能助手“贾维斯”是每个人都期待拥有的存在，而如今，谷歌推出的Gemini大模型正在逐渐将这一愿景变为现实。

官方宣布了最新多模态大模型Gemini 1.0（双子星）版本的正式上线，该版本在处理和结合文本、代码、音频、图像和视频等不同类型信息方面表现出众。

Gemini不仅能准确识别纸上描绘的蓝色鸭子并加以半开玩笑评价，甚至对普通话的声调还有准确的理解。此外，它还能够根据多种元素展现对应场景，并生成与场景相匹配的音乐。

Gemini的出现，预示着每个人都可能拥有“贾维斯”的时代已经不再遥远。

一、谷歌大模型是如何超越GPT4？

Gemini是目前最灵活的模型，能够在所有设备上高效运行，且其先进的功能将显著改善开发者和企业客户通过AI构建和扩展的方式。此外，Gemini可以处理和结合文本、代码、音频、图像和视频等不同类型的信息。

对于Gemini Ultra来说，它的性能在自然图像、音频和视频理解到数学推理等32项学术基准中超过了目前最先进的水平。而在MMLU（大规模多任务语言理解）测试中，Gemini Ultra的性能超过了人类专家。此外，在新的MMM基准测试中，它也取得了优异成绩。Gemini Ultra在图像基准测试中的表现也优于以往最佳的模型。

二、多模态大模型想象空间巨大

谷歌的Gemini设计为原生多模态，从一开始就在不同模态上进行预训练，利用额外的多模态数据对其进行微调，以进一步提高其有效性。它具有复杂的多模态推理能力，可帮助理解复杂的书面和视觉信息。Gemini 1.0还具有编码能力，可以理解、解释和生成世界上最流行的编程语言的高质量代码。

在Gemini多模态大模型的基础层，谷歌使用自研的TPUs v4 和 v5e 在通过AI优化过的基础设施上，对Gemini 1.0进行了大规模训练。值得关注的是，谷歌还同步发布了迄今为止功能最强大、效率最高且可扩展性最强的TPU系统Cloud TPU v5p，相较上一代TPU v4性价比提升2.8倍。

Gemini的发布无疑打开了大模型发展的另一道大门，相比大语言模型，Gemini的多模态特性更为接近人类自然交互，也更像《钢铁侠》中贾维斯的存在。

无论是几天前突然蹿红的文生视频Pika1.0，还是Gemini，都让我们看到了多模态大模型未来发展的潜力。

一、谷歌大模型是如何超越GPT4？

二、多模态大模型想象空间巨大

相关推荐