建设高质量科学数据集 推动科学研究范式创新
发布时间:2026-06-12 15:09 文章来源:国家数据局微信公众号

随着重大科技基础设施、科学观测平台、数字化实验系统和行业科研平台的不断发展,科学数据正成为支撑科研创新的战略资源。《全国数据资源调查报告(2025年)》(以下简称《报告》)显示,2025年,全国年度数据生产总量达52.26泽字节,同比增长27.28%;数据存储总量达2.53泽字节,同比增长21.05%。我国已经形成较大的数据资源基础,但数据资源规模扩大并不等同于高质量数据供给能力自然形成,关键还在于能否把分散、异构、复杂的数据进一步转化为可治理、可共享、可复用、可验证的数据资源体系。

一、高质量科学数据集正在成为支撑科研突破的关键底座

传统科研更多依赖理论推演、实验验证和经验判断。随着科学仪器、观测平台和数字化实验体系不断发展,科研活动产生的数据规模持续扩大,数据类型也更加多样,数据处理难度也不断提升。《报告》显示,本年度调查有效样本数量4.25万个,调查面向14类调查对象开展数据资源调查工作,有效样本包括科研机构1259个、国家科学数据中心10个。科研机构和科学数据平台已经成为全国数据资源体系中的重要组成部分。

与其他数据相比,科学数据往往来源于复杂仪器观测、实验过程记录、遥感探测、生命健康研究和材料分析等场景,具有来源复杂、专业性强、噪声水平高、结构类型多样、验证门槛高等鲜明特点,更强调专业语义、实验条件、观测背景、质量控制和可复现性。尤其在天文观测、材料实验、生命科学等领域,原始数据体量巨大、噪声复杂、专业门槛高,只有经过校准、标注、关联和质量控制,才能转化为可用于人工智能和科学分析的高质量科学数据集。

二、我国推进科学数据资源建设具备多重基础

一是数据资源供给规模持续扩大。《报告》显示,2025年,全国云存储总量为0.98泽字节,同比增长53.13%,占数据存储总量的38.74%;结构化数据存储量为0.56泽字节,同比增长43.59%,占数据存储总量的22.13%;活跃数据总量为1.67泽字节,同比增长28.46%。数据资源开发利用程度正在提升,也为科学数据进一步结构化治理、标准化管理和智能化分析提供了基础条件。

二是重大科研平台、科学数据基础设施和应用场景持续丰富。当前,我国已在国家层面优化整合20个国家科学数据中心,围绕基础学科、基因组、微生物等方向推进体系建设。重大科技基础设施已成为高质量科学数据的重要来源。中国科学院重大科技基础设施共享服务平台集中了一批FAST 500米口径球面射电望远镜、上海光源等典型设施,覆盖天文支架、遥感测绘、先进材料等多个前沿方向。随着科研任务向更高精度、更大范围、更强实时性和交叉推进,科学数据的规模、类型和处理复杂度都在同步上升。

三是科学数据应用与转化能力正在提升。《报告》指出,AI for Science推动科学数据创新涌现,并加速向产业转化应用。从行业数据看,2025年科学研究和技术服务业领域数据生产量为1.96泽字节,企业数据流通量为146.42艾字节,同比增长33.15%,数据开发率为32.88%。从应用方向看,13.43%的科学数据用于人工智能训练分析,同比增长50.32%,增速领先其他行业;90%的科学数据服务于前沿研究和重大工程项目,10%的科学数据向产业、民生领域转化应用。科学数据已经不只是科研过程中的记录性资源,正在成为支撑前沿研究、重大工程的重要基础。科学数据资源的开发利用正从单一主体、单一平台、单一场景的模式,逐步向多主体协同、多场景复用转变。科学数据集建设也应顺应这一趋势,在安全合规的前提下,推动跨机构、跨学科、跨场景的数据协同利用。

三、当前科学数据集建设仍面临几个突出问题

一是科学领域高质量数据集供给不足。原始科研数据数量较大,但可直接用于科学分析、模型训练和科研复现的高质量数据集仍然不足。部分原始科研数据不能直接用于模型训练、结果验证和跨场景复用,仍需进一步经过校准、清洗、标注、关联和质量评测。

二是科学数据集建设的专业门槛较高。科学数据通常涉及复杂的仪器条件、实验参数、观测环境、时空背景以及学科知识体系,不能简单套用通用算法或一般数据加工流程,需要在数据清洗、标注、关联、评测等环节充分纳入领域知识和专业判断。

三是跨机构共享和复用机制不够顺畅。科学数据分散在不同平台、机构、项目和团队之中,在标准规范、权益边界、维护责任、成果归属和安全合规等方面仍存在协调成本。高质量科学数据集建设不是一次性工作,需覆盖采集、治理、评测、共享、更新和反馈优化的长期机制,推动更多科学数据转化为可复用的科研公共能力。

四、以高质量科学数据体系支撑科学研究范式创新

一是面向科研任务建设。数据集建设要围绕重大科学问题、重点科研平台和关键应用场景展开,明确服务什么研究任务、支撑什么模型开发、覆盖哪些核心变量、如何进行动态更新,避免脱离实际需求的低水平重复建设。只有面向任务组织数据,数据集才能真正转化为科研生产力。

二是重视稀有数据建设。“稀有数据”(Rare Data)或“稀有事件”(Rare Events)犹如稀有金属,应用价值高、存在稀缺性,是应用数学、统计物理和现代机器学习领域极其重要且具有深刻物理和数学内涵的概念。稀有数据通常指在总体数据分布中出现概率极低、样本量极少,但往往决定系统稳定性、安全边界或核心物理相变的极端数据。建设专门锁定此类临界极限状态的稀有数据中心,不仅是突破目前“AI for Science”分布外泛化瓶颈的基础前提,更是关乎国家总体防灾减灾与复杂大系统治理底线安全的战略刚需。该中心前置于物理表象、用数学法则在数据真空区预切出“稀有绝境数据”的能力,对传统以收集为主的大数据中心显著不同。在整体架构与长效运行层面,稀有科学数据中心将构建“异构汇聚、先验生成、极限推演、对抗评测”四位一体的底座体系。硬件上融合高性能科学计算与智算集群,向下通过协议打通航空暗数据、事故灾损报告与工业疲劳等跨行业的长尾孤岛;向上则依托机理方程构建数字孪生试验场。

三是标准先行、质量优先。要围绕数据来源、元数据描述、标注规范、校准流程、完整性、一致性、可追溯性和可复现性,加快建立科学数据集质量评价体系。对重点领域、重点装置、重点平台形成的数据集,可探索第三方评测、质量认证和动态迭代机制,提高数据集的可信度和可用性。

四是人机协同提升效率。要充分利用大模型、多模态识别、知识抽取、智能标注等新工具,提升科学数据清洗、关联、分类、审核和结构化处理效率;同时,对于专业性强、解释要求高、影响科研结论可靠性的关键环节,必须强化科研人员和领域专家参与,形成技术处理与专业校核相结合的数据治理机制,提高数据治理效率与科学严谨性。

五是开放共享与安全合规并重。报告显示,科学数据仍以本地化存储为主,在集中管理、弹性调用、跨机构共享和规模化利用方面还有提升空间。应进一步完善数据授权使用、收益分配、责任认定、合规审查和全过程审计机制,推动科研机构、平台企业和行业主体在安全前提下有序开展数据流通和协同创新,使更多高价值科学数据转化为可持续服务科研创新的公共能力。

总的来看,高质量科学数据集建设并非单一的数据整理工作,而是关系科研组织方式、知识发现路径和协同效率的基础性工程。我国已具备数据资源、重大科研平台和政策推进基础,关键是提升科学数据的规范治理、质量评测、共享复用和持续服务能力。应以重大科研任务为牵引,以建设高质量科学数据集为抓手,推动数据治理、科研应用、模型训练和反馈优化形成良性循环,更好支撑科研范式创新和原创发现能力提升。

(作者:孙胜利 系中国科学院院士)

扫一扫在手机上查看当前页面