完善大模型评测体系 提升人工智能发展的中国话语权
发布时间:2026-05-22 15:02 文章来源:人民邮电报

  近日,美国国家标准与技术研究院(NIST)人工智能标准与创新中心(CAISI)发布了针对我国DeepSeek V4大模型的专项评测报告。报告显示,DeepSeek V4的成本优势显著优于美国同类技术,但模型能力与美国顶尖水平存在8个月差距。这一结论迅速引发AI行业广泛热议:有评论质疑“落后8个月”的判断是否客观,认为单一海外评测无法定义国产AI的真实实力;有观点提出,要正视差距,加速提升大模型能力。究竟应如何看待NIST的评测结果?我国自主大模型评测体系又如何破局?

  理性看待NIST评测

  “要理性看待NIST评测结果,所谓8个月差距不代表全面落后。”北京航空航天大学计算机科学技术系主任肖利民教授在接受《人民邮电》报采访时表示。

  据介绍,NIST采用半私有数据集与自研闭源评测体系,可有效规避大模型研发团队通过“刷榜”作弊——即将测试数据集混入训练数据拉高评测成绩的行为,保证了评测结果的真实性。同时,其评测场景覆盖网络安全、软件工程、自然科学、抽象推理、数学等多个高难度领域,可从多维度衡量大模型的综合智能水平,这也是其在全球AI评测领域具有影响力的核心原因。

  然而,NIST评测的局限性也同样突出。“当前,NIST评测仅选取有限场景,覆盖范围不够全面,无法全面呈现大模型的真实能力。”肖利民举例说明,DeepSeek V4在超长上下文处理方面的核心优势就未被充分体现。根据DeepSeek V4技术报告,该模型的超长上下文能力在学术评测中,甚至超越了谷歌Gemini 3.1 Pro模型,这一亮点在NIST的评估中未被充分体现。

  肖利民进一步分析,当前全球大模型技术已形成“低成本训推”与“高模型能力”双轨并行的发展格局,而Deep-Seek选择的是“低成本训推”路线。通过混合注意力架构创新、率先适配国产算力生态等技术突破,DeepSeek V4大幅降低了模型训推与使用成本,同时借助多行业落地应用,持续优化模型对中国本土场景的适配能力,走出了一条“普惠化、实用化”中国AI发展路径。

  “DeepSeek V4与OpenAI、谷歌等企业的最新模型,设计目标本就存在差异,不能用单一标准简单评判。”肖利民分析说,DeepSeek V4侧重突破超长上下文场景的效率瓶颈、降低技术落地成本,因此在模型架构与算法优化上投入了大量资源,这在一定程度上导致其在模型绝对能力提升上的投入相对少于以“极致性能”为目标的OpenAI等公司。“如果DeepSeek调整目标,在相同成本投入下专注提升模型性能,未必会存在NIST所谓的8个月差距。”

  肖利民强调,DeepSeek在成本优化上取得的技术成果,恰恰彰显了我国AI企业强大的创新能力与发展潜力。其坚持的低成本优先路线更契合我国国情——让更多行业能够用得起、用得好大模型,通过共建开放生态,实现技术的持续迭代与稳健进步,“这本身就是一种不可忽视的竞争优势”。

  加速构建自主大模型评测体系

  针对当前全球AI评测由美国主导的格局,肖利民指出,我国亟须加速构建自主独立、面向全球的第三方AI大模型评测标准与权威榜单,这是打破被动局面、完善产业生态的关键。

  肖利民从三个维度分析了构建自主评测体系的必要性。其一,美国主导的评测体系因闭源特性,无法实现结果复现,其公正客观性难以核验,甚至可能通过夸大技术差距,对我国AI产业发展进行舆论打压与发展限制。其二,构建我国自主的AI评测标准,才能真正做到“心中有数”,精准把握我国大模型与国外先进水平的差距所在、优势之处,避免被单一评价体系“绑架”。其三,评测标准是大模型产业生态的核心底层要素,自主评测体系的完善能够有效推动我国大模型技术能力快速提升。“未来,若能推动中国AI评测标准走向全球,将进一步提升我国在全球AI领域的影响力。”肖利民如是说。

  技术突破与商业落地双向赋能

  针对行业热议的“大模型理论智力与商业落地能力孰轻孰重”的问题,肖利民表示,二者并非对立关系,而是相辅相成、双向赋能,共同推动大模型产业的良性发展。

  “理论智力决定了大模型的技术上限,决定其能够解决多么复杂的问题;而商业落地能力则体现了技术的可及性与经济性,决定其能否被广泛、持续地应用于实际场景。”肖利民分析说,没有理论突破,商业落地终将遭遇技术天花板,难以实现持续升级;没有商业落地,理论智力的领先也只是“空中楼阁”,无法转化为可持续的产业价值与社会价值。

  在肖利民看来,真正决定全球AI竞赛走向的,是“在可控成本下实现高水平智能”的能力。理想的AI模型,既要在评测榜单中展现优异性能,也要在实际应用中保持合理价格、稳定可用。因此,评判AI竞争的关键,不应只看模型“多聪明”,更要看谁能在有限算力约束下,将技术优势转化为实实在在的商业落地成果,并借助落地反馈,持续拓宽理论边界。

  结合我国实际国情,肖利民强调,现阶段“商业落地能力”或许更为重要。一方面,大模型在真实场景的核心价值,往往无法通过排行榜的分数体现,只有落地到具体行业,解决实际问题,才能彰显大模型的真正价值。另一方面,大模型技术的扩散速度极快,单项智力指标上的微小差距,往往能通过开源、论文复现等方式快速缩小。但商业落地能力一旦形成——包括更低的使用成本、更稳定的工程化能力、更广泛的行业适配、更活跃的开发者生态,就会形成难以被短期超越的核心竞争优势。

  “不慕虚名,不走捷径,在关键技术上深耕突破,在产业落地中积累优势,这正是我国AI企业在全球科技竞争中保持韧性、实现突围的核心路径。”肖利民总结道。(记者 吴双)

扫一扫在手机上查看当前页面