完善大模型评测体系提升人工智能发展的中国话语权_数字快讯

完善大模型评测体系提升人工智能发展的中国话语权

发布时间：2026-05-22 15:02 文章来源：人民邮电报

　　近日，美国国家标准与技术研究院（NIST）人工智能标准与创新中心（CAISI）发布了针对我国DeepSeek V4大模型的专项评测报告。报告显示，DeepSeek V4的成本优势显著优于美国同类技术，但模型能力与美国顶尖水平存在8个月差距。这一结论迅速引发AI行业广泛热议：有评论质疑“落后8个月”的判断是否客观，认为单一海外评测无法定义国产AI的真实实力；有观点提出，要正视差距，加速提升大模型能力。究竟应如何看待NIST的评测结果？我国自主大模型评测体系又如何破局？

　　理性看待NIST评测

　　“要理性看待NIST评测结果，所谓8个月差距不代表全面落后。”北京航空航天大学计算机科学技术系主任肖利民教授在接受《人民邮电》报采访时表示。

　　据介绍，NIST采用半私有数据集与自研闭源评测体系，可有效规避大模型研发团队通过“刷榜”作弊——即将测试数据集混入训练数据拉高评测成绩的行为，保证了评测结果的真实性。同时，其评测场景覆盖网络安全、软件工程、自然科学、抽象推理、数学等多个高难度领域，可从多维度衡量大模型的综合智能水平，这也是其在全球AI评测领域具有影响力的核心原因。

　　然而，NIST评测的局限性也同样突出。“当前，NIST评测仅选取有限场景，覆盖范围不够全面，无法全面呈现大模型的真实能力。”肖利民举例说明，DeepSeek V4在超长上下文处理方面的核心优势就未被充分体现。根据DeepSeek V4技术报告，该模型的超长上下文能力在学术评测中，甚至超越了谷歌Gemini 3.1 Pro模型，这一亮点在NIST的评估中未被充分体现。

　　肖利民进一步分析，当前全球大模型技术已形成“低成本训推”与“高模型能力”双轨并行的发展格局，而Deep-Seek选择的是“低成本训推”路线。通过混合注意力架构创新、率先适配国产算力生态等技术突破，DeepSeek V4大幅降低了模型训推与使用成本，同时借助多行业落地应用，持续优化模型对中国本土场景的适配能力，走出了一条“普惠化、实用化”中国AI发展路径。

　　“DeepSeek V4与OpenAI、谷歌等企业的最新模型，设计目标本就存在差异，不能用单一标准简单评判。”肖利民分析说，DeepSeek V4侧重突破超长上下文场景的效率瓶颈、降低技术落地成本，因此在模型架构与算法优化上投入了大量资源，这在一定程度上导致其在模型绝对能力提升上的投入相对少于以“极致性能”为目标的OpenAI等公司。“如果DeepSeek调整目标，在相同成本投入下专注提升模型性能，未必会存在NIST所谓的8个月差距。”

　　肖利民强调，DeepSeek在成本优化上取得的技术成果，恰恰彰显了我国AI企业强大的创新能力与发展潜力。其坚持的低成本优先路线更契合我国国情——让更多行业能够用得起、用得好大模型，通过共建开放生态，实现技术的持续迭代与稳健进步，“这本身就是一种不可忽视的竞争优势”。

　　加速构建自主大模型评测体系

　　针对当前全球AI评测由美国主导的格局，肖利民指出，我国亟须加速构建自主独立、面向全球的第三方AI大模型评测标准与权威榜单，这是打破被动局面、完善产业生态的关键。

　　肖利民从三个维度分析了构建自主评测体系的必要性。其一，美国主导的评测体系因闭源特性，无法实现结果复现，其公正客观性难以核验，甚至可能通过夸大技术差距，对我国AI产业发展进行舆论打压与发展限制。其二，构建我国自主的AI评测标准，才能真正做到“心中有数”，精准把握我国大模型与国外先进水平的差距所在、优势之处，避免被单一评价体系“绑架”。其三，评测标准是大模型产业生态的核心底层要素，自主评测体系的完善能够有效推动我国大模型技术能力快速提升。“未来，若能推动中国AI评测标准走向全球，将进一步提升我国在全球AI领域的影响力。”肖利民如是说。

　　技术突破与商业落地双向赋能

　　针对行业热议的“大模型理论智力与商业落地能力孰轻孰重”的问题，肖利民表示，二者并非对立关系，而是相辅相成、双向赋能，共同推动大模型产业的良性发展。

　　“理论智力决定了大模型的技术上限，决定其能够解决多么复杂的问题；而商业落地能力则体现了技术的可及性与经济性，决定其能否被广泛、持续地应用于实际场景。”肖利民分析说，没有理论突破，商业落地终将遭遇技术天花板，难以实现持续升级；没有商业落地，理论智力的领先也只是“空中楼阁”，无法转化为可持续的产业价值与社会价值。

　　在肖利民看来，真正决定全球AI竞赛走向的，是“在可控成本下实现高水平智能”的能力。理想的AI模型，既要在评测榜单中展现优异性能，也要在实际应用中保持合理价格、稳定可用。因此，评判AI竞争的关键，不应只看模型“多聪明”，更要看谁能在有限算力约束下，将技术优势转化为实实在在的商业落地成果，并借助落地反馈，持续拓宽理论边界。

　　结合我国实际国情，肖利民强调，现阶段“商业落地能力”或许更为重要。一方面，大模型在真实场景的核心价值，往往无法通过排行榜的分数体现，只有落地到具体行业，解决实际问题，才能彰显大模型的真正价值。另一方面，大模型技术的扩散速度极快，单项智力指标上的微小差距，往往能通过开源、论文复现等方式快速缩小。但商业落地能力一旦形成——包括更低的使用成本、更稳定的工程化能力、更广泛的行业适配、更活跃的开发者生态，就会形成难以被短期超越的核心竞争优势。

　　“不慕虚名，不走捷径，在关键技术上深耕突破，在产业落地中积累优势，这正是我国AI企业在全球科技竞争中保持韧性、实现突围的核心路径。”肖利民总结道。（记者吴双）

扫一扫在手机上查看当前页面