文章约 6 分钟

DeepSeek 跌落神坛?在“人类最后一场考试”中,Google 才是真正的王者

从 Humanity's Last Exam 榜单切入,讨论 DeepSeek、OpenAI 与 Google 在多模态推理能力上的差距和基础研究变化。

  • AI

摘要: 当大众还在惊叹 DeepSeek 把大模型价格打下来的同时,AI 基础研究的战场早已转移。2026 年最新的 Humanity’s Last Exam (HLE) 榜单揭示了一个残酷真相:在通往 AGI 的终极多模态推理之路上,Scaling Law 已死,而 Gemini 3.1 Pro 正在绝尘而去。


引言:被误读的“统治力”

如果让时间倒回 2025 年初,科技圈最热的词只有一个——DeepSeek。

那时,DeepSeek-R1 横空出世,靠着纯强化学习(Pure RL)和蒸馏技术,不仅把推理成本打到了地板价,更在数学和代码榜单上和 OpenAI o3 打得有来有回。一时间,“开源战胜闭源”、“中美 AI 差距清零”的论调甚嚣尘上。

但事实真的如此吗?

当我们把目光投向 2026 年 2 月,投向那个被誉为“AI 智商试金石”的 Humanity’s Last Exam (HLE) 榜单时,会发现一个令人沉默的真相:

那个曾被寄予厚望的 DeepSeek,并没有霸榜。 OpenAI 的 GPT-5 系列,也并非不可战胜。

真正的王者,是那个一度被嘲讽“起大早赶晚集”的 Google。


01 HLE 榜单背后的残酷真相

先科普一下,什么是 Humanity’s Last Exam (HLE)

这可不是让 AI 做做小学奥数或者写写贪吃蛇代码。这是由 CAIS(AI 安全中心)设计的、专门用来“难倒”当今最强模型的终极测试。 它的题目设计原则非常变态:Google-proof(防搜索)。 即便让一个相关专业的人类博士生,开着电脑连着网搜两个小时,也未必能做对。

它考的不是记忆,是极深度的逻辑推理,是跨学科的知识整合,更是对复杂图表、科学绘图、3D 模型的原生理解

来看这张最新的 2026 战局图:

在这张图上,蓝色的虚线代表了 SOTA(State-of-the-Art)的轨迹,而这条线,几乎完全被 Google 的 Gemini 系列主导。

  • 王者区(>45%):Gemini 3.1 Pro 2026 年 3 月发布的版本,准确率飙升至 47% 左右。这是目前唯一的“第一梯队”,遥遥领先所有对手。
  • 追赶区(30%-40%):GPT-5.2 & Gemini 3 Pro OpenAI 的主力模型 GPT-5.2 拼尽全力,也只是摸到了 35% 的门槛。
  • 掉队区(~20%):DeepSeek 系列 不管是 DeepSeek 3.2 还是 R1 的后续版本,在这个榜单上都停留在了 20% 上下的位置。

为什么? 为什么在数学代码上大杀四方的 DeepSeek,到了 HLE 上就“泯然众模”?

这就不得不提坊间流传已久的“算力隐疾”。 DeepSeek 虽然算法惊艳,但受限于国产芯片生态(传闻主力训练集群基于华为昇腾),在超大规模多模态训练的稳定性与效率上,依然难以匹敌坐拥数万张 H100/GB200 集群的 Google 和 OpenAI。

偏科生,终究难拿全能冠军。


02 2026 年基础研究的三大变局

如果说 2024 年是“堆参数”的时代,2025 年是“拼推理”的时代,那么站在 2026 年看,基础研究已经进入了**“多模态原生推理”**的深水区。

Gemini 3.1 Pro 能赢,不是因为它参数最大,而是因为它踩准了三个技术节拍。

变局一:原生多模态(Native Multimodality)的降维打击

HLE 榜单里,有大量题目是这样的:给一张复杂的有机化学分子结构图,问你它的合成路径;或者给一段物理实验的示波器波形图,问你实验哪里出错了。

这种题,文本模型根本没法做。 以往的做法是:找个视觉编码器(Vision Encoder)把图转成字,再喂给 LLM。但这中间会有巨大的信息损耗。

Google 的狠劲在于,从 Gemini 1.0 开始,它就是原生多模态训练的。 它的“脑子”里,文字、图片、视频、音频是同一种东西。它不是在“看图说话”,它是在“用视觉思考”。

这就是为什么 DeepSeek 在纯文本逻辑上很强,但一遇到需要“看懂”的科学推理题,分数就断崖式下跌。

变局二:系统 2 思维(System 2)的内生化

OpenAI o1 开启了“慢思考”的先河,但在 2026 年,这种能力进化了。

现在的顶级模型,不再需要你写 Prompt 告诉它“请一步步思考”。 它们引入了 Latent Reasoning(隐式推理) —— 模型在输出答案前,已经在高维向量空间里进行了成百上千次的自我辩论、自我推翻、自我验证。

Gemini 3.1 Pro 的高分,本质上是用时间换智能。 它在回答一个 HLE 问题时,内部消耗的计算量(Test-Time Compute),可能相当于生成一篇万字长文。

变局三:架构的大一统(The Great Unification)

还记得 Transformer 的那个致命弱点吗?上下文越长,计算越慢。

2026 年最前沿的研究,终于搞定了 SSM(状态空间模型)与 Attention 的完美融合。 像 Jamba、Zamba 以及 Google 内部未公开的新架构,让模型既能像 Mamba 一样处理百万级 token 的超长文献(线性复杂度),又能像 Transformer 一样精准地从大海里捞针。

这让模型具备了真正的**“长期工作记忆”**。它能读完这领域过去 50 年的所有论文,然后回答你一个极度冷门的学术问题。


03 写在最后:最后的防线

HLE 的名字起得很悲壮——Humanity’s Last Exam

一年前,最好的模型(GPT-4o)在这场考试里只能拿 3%,和瞎蒙差不多。 谁能想到,仅仅过了 12 个月,Gemini 3.1 Pro 已经把它刷到了 47%

虽然距离 100% 还有距离,但这个上升曲线是惊人的。 它告诉我们:AGI 的大门,正在被多模态推理这把钥匙缓缓打开。

对于我们每一个从业者来说,启示也很简单: 不要再迷信单一的榜单,也不要神话任何一家公司。 DeepSeek 依然是性价比之王,是代码辅助、日常对话的神器,它的开源精神值得瑞思拜。 但如果你追求的是人类认知边界的突破,是复杂科研场景的攻坚,那么请把目光投向拥有最强算力底座、最深多模态积累的那个巨头。

毕竟在 AI 进化的路上,算力是底气,多模态是未来。


总结 2026 年初的关键词

  • Hybrid (SSM+Attn):架构大一统。
  • Latent Thinking:思维过程向量化、隐式化。
  • Self-Play RL:不再依赖人类数据,模型自我博弈进化。
  • 1.58-bit:计算成本的物理极限突破。

互动话题: 你觉得 DeepSeek 还有机会在多模态领域反超 Google 吗?国产算力的瓶颈,真的会锁死我们的大模型上限吗? 欢迎在评论区聊聊你的看法。


本文数据基于 2026 年 2 月 CAIS 公开榜单及行业技术分析,不构成投资建议。

返回文章列表