DeepSeek 跌落神坛？在“人类最后一场考试”中，Google 才是真正的王者

摘要： 当大众还在惊叹 DeepSeek 把大模型价格打下来的同时，AI 基础研究的战场早已转移。2026 年最新的 Humanity’s Last Exam (HLE) 榜单揭示了一个残酷真相：在通往 AGI 的终极多模态推理之路上，Scaling Law 已死，而 Gemini 3.1 Pro 正在绝尘而去。

引言：被误读的“统治力”

如果让时间倒回 2025 年初，科技圈最热的词只有一个——DeepSeek。

那时，DeepSeek-R1 横空出世，靠着纯强化学习（Pure RL）和蒸馏技术，不仅把推理成本打到了地板价，更在数学和代码榜单上和 OpenAI o3 打得有来有回。一时间，“开源战胜闭源”、“中美 AI 差距清零”的论调甚嚣尘上。

但事实真的如此吗？

当我们把目光投向 2026 年 2 月，投向那个被誉为“AI 智商试金石”的 Humanity’s Last Exam (HLE) 榜单时，会发现一个令人沉默的真相：

那个曾被寄予厚望的 DeepSeek，并没有霸榜。 OpenAI 的 GPT-5 系列，也并非不可战胜。

真正的王者，是那个一度被嘲讽“起大早赶晚集”的 Google。

01 HLE 榜单背后的残酷真相

先科普一下，什么是 Humanity’s Last Exam (HLE)？

这可不是让 AI 做做小学奥数或者写写贪吃蛇代码。这是由 CAIS（AI 安全中心）设计的、专门用来“难倒”当今最强模型的终极测试。它的题目设计原则非常变态：Google-proof（防搜索）。 即便让一个相关专业的人类博士生，开着电脑连着网搜两个小时，也未必能做对。

它考的不是记忆，是极深度的逻辑推理，是跨学科的知识整合，更是对复杂图表、科学绘图、3D 模型的原生理解。

来看这张最新的 2026 战局图：

在这张图上，蓝色的虚线代表了 SOTA（State-of-the-Art）的轨迹，而这条线，几乎完全被 Google 的 Gemini 系列主导。

王者区（>45%）：Gemini 3.1 Pro 2026 年 3 月发布的版本，准确率飙升至 47% 左右。这是目前唯一的“第一梯队”，遥遥领先所有对手。
追赶区（30%-40%）：GPT-5.2 & Gemini 3 Pro OpenAI 的主力模型 GPT-5.2 拼尽全力，也只是摸到了 35% 的门槛。
掉队区（~20%）：DeepSeek 系列 不管是 DeepSeek 3.2 还是 R1 的后续版本，在这个榜单上都停留在了 20% 上下的位置。

为什么？ 为什么在数学代码上大杀四方的 DeepSeek，到了 HLE 上就“泯然众模”？

这就不得不提坊间流传已久的“算力隐疾”。 DeepSeek 虽然算法惊艳，但受限于国产芯片生态（传闻主力训练集群基于华为昇腾），在超大规模多模态训练的稳定性与效率上，依然难以匹敌坐拥数万张 H100/GB200 集群的 Google 和 OpenAI。

偏科生，终究难拿全能冠军。

02 2026 年基础研究的三大变局

如果说 2024 年是“堆参数”的时代，2025 年是“拼推理”的时代，那么站在 2026 年看，基础研究已经进入了**“多模态原生推理”**的深水区。

Gemini 3.1 Pro 能赢，不是因为它参数最大，而是因为它踩准了三个技术节拍。

变局一：原生多模态（Native Multimodality）的降维打击

HLE 榜单里，有大量题目是这样的：给一张复杂的有机化学分子结构图，问你它的合成路径；或者给一段物理实验的示波器波形图，问你实验哪里出错了。

这种题，文本模型根本没法做。以往的做法是：找个视觉编码器（Vision Encoder）把图转成字，再喂给 LLM。但这中间会有巨大的信息损耗。

Google 的狠劲在于，从 Gemini 1.0 开始，它就是原生多模态训练的。它的“脑子”里，文字、图片、视频、音频是同一种东西。它不是在“看图说话”，它是在“用视觉思考”。

这就是为什么 DeepSeek 在纯文本逻辑上很强，但一遇到需要“看懂”的科学推理题，分数就断崖式下跌。

变局二：系统 2 思维（System 2）的内生化

OpenAI o1 开启了“慢思考”的先河，但在 2026 年，这种能力进化了。

现在的顶级模型，不再需要你写 Prompt 告诉它“请一步步思考”。它们引入了 Latent Reasoning（隐式推理） —— 模型在输出答案前，已经在高维向量空间里进行了成百上千次的自我辩论、自我推翻、自我验证。

Gemini 3.1 Pro 的高分，本质上是用时间换智能。它在回答一个 HLE 问题时，内部消耗的计算量（Test-Time Compute），可能相当于生成一篇万字长文。

变局三：架构的大一统（The Great Unification）

还记得 Transformer 的那个致命弱点吗？上下文越长，计算越慢。

2026 年最前沿的研究，终于搞定了 SSM（状态空间模型）与 Attention 的完美融合。像 Jamba、Zamba 以及 Google 内部未公开的新架构，让模型既能像 Mamba 一样处理百万级 token 的超长文献（线性复杂度），又能像 Transformer 一样精准地从大海里捞针。

这让模型具备了真正的**“长期工作记忆”**。它能读完这领域过去 50 年的所有论文，然后回答你一个极度冷门的学术问题。

03 写在最后：最后的防线

HLE 的名字起得很悲壮——Humanity’s Last Exam。

一年前，最好的模型（GPT-4o）在这场考试里只能拿 3%，和瞎蒙差不多。谁能想到，仅仅过了 12 个月，Gemini 3.1 Pro 已经把它刷到了 47%。

虽然距离 100% 还有距离，但这个上升曲线是惊人的。它告诉我们：AGI 的大门，正在被多模态推理这把钥匙缓缓打开。

对于我们每一个从业者来说，启示也很简单：不要再迷信单一的榜单，也不要神话任何一家公司。 DeepSeek 依然是性价比之王，是代码辅助、日常对话的神器，它的开源精神值得瑞思拜。但如果你追求的是人类认知边界的突破，是复杂科研场景的攻坚，那么请把目光投向拥有最强算力底座、最深多模态积累的那个巨头。

毕竟在 AI 进化的路上，算力是底气，多模态是未来。

总结 2026 年初的关键词

Hybrid (SSM+Attn)：架构大一统。
Latent Thinking：思维过程向量化、隐式化。
Self-Play RL：不再依赖人类数据，模型自我博弈进化。
1.58-bit：计算成本的物理极限突破。

互动话题： 你觉得 DeepSeek 还有机会在多模态领域反超 Google 吗？国产算力的瓶颈，真的会锁死我们的大模型上限吗？欢迎在评论区聊聊你的看法。

本文数据基于 2026 年 2 月 CAIS 公开榜单及行业技术分析，不构成投资建议。