朱敏在第八届数字中国建设峰会大数据融合应用分论坛上的发言
发布时间:2025-11-26 14:43 文章来源:峰会组委会秘书处

强化数据的基础资源和创新引擎作用,推动我国大数据产业向“智”而行

中国电子信息产业发展研究院副院长

朱敏

  非常荣幸,能有机会代表赛迪这里向各位嘉宾分享我们关于大数据融合应用的一些初步的一些认识。我今天汇报的题目是《强化数据的基础资源和创新引擎作用,推动我国大数据产业向“智”而行》。

  大数据与人工智能发展从来都是相伴而行,左图可以看到人工智能发展经历了多个波次,每一轮波次都离不开数据的繁荣、应用。但是最近这波次中我们看到人工智能和大数据协同发展相向而行的双向赋能作用愈发明显。人工智能发展中,无论是大算力还是大数据,实际上都离不开大数据技术和产业的发展,大数据既提供了基础设施,也为人工智能大模型的算法提供了基本养料。

  我今天的汇报主题是在相融相成的情况下,人工智能到底会为大数据产业带来什么根本性的变化,对于未来发展应该如何考虑和应对。

  一、人工智能+时代,大数据产业迎来变革和重构的新契机。

  刚才提到这方面的变革是全方位全系列。首先技术发生了一系列变动,从海量的数据处理,实际上人工智能要求海量数据处理对于我们的数据处理能力要求倍增。意味着这种多模态数据融合,大体量数据计算和自动化数据生成等方面,对于基本的采、算、存、储、用等能力提出了一系列要求。

  首先我们观察变化,数据的静态存储转向动态存储,而且持续优化。像我们看到的华为等一系列的这种头部的这种企业,正在通过分层机制存算融合,语义压缩等一系列技术提升存储效率,满足大数据快速读写操作和调用的高效率要求。

  第二个特点是云数据库开始具有AI特点,或者称之为AI数据库,向这个方向加速演进。过去十年大数据产业的发展或者技术的这种演进。实际上和我们过去的这种数据库从本地单机的这种部署转向分布式云化的这种部署,它具有显著的大规模、高安全、弹性调用的特点,但是人工智能技术和应用的发展,使得我们现在对相应的数据库有更高要求,更加强调实时性。

  海量数据进行交互处理,实际上对交互实时性提出更高要求。同时,多元异构数据或者多模态数据这种联合计算也会对我们数据库有更灵活的响应要求。

  与此同时也看到了要在数据库上加载人工智能模型,实际上也希望人工智能这种深度学习模型能够与数据库进行尽量无缝的集成,因此这种情况下对我们的数据库也提出了更高效支持模型训练和推理能力的要求。

  因此可以看到原来的云数据库更多显现出AI特点,或者向AI数据库方向演进。

  第三个特点,数据分析开始向智能算法交互融合发展。早期的数据分析可能是一些简单的数据加工处理。但是随着人工智能这个模型应用的这种发展和推进,我们看到了它从早期的数据分析转向了基于知识挖掘的这种深层次的智能化的应用,这也推动了我们的这种数据分析走向了智算融合的这种交织融合的发展。技术上的发展势必会带来产业上的一系列的这种变化。从现在看来,大数据企业等在整个产业链上也涌现出这种创新的势头。

  这里引用了一个数据,美国知名的风险投资机构First Mark去年发布的最新报告显示,它在机器学习人工智能或数据全景的领域,一共引入了2000多家企业上榜。所谓上榜都是属于发展引领型或者具有特色或者巨大发展空间的企业。

  通过这样的数据观察,它比2023年榜单新增500多家,大量的新兴企业,新兴巨头进入榜单。这并不意味着传统企业放弃了大数据演进。我们也看到类似于FAP这样传统的龙头企业也在做相应的变革,也是依托传统业务积累的行业知识资源进行深度开发。

  在这种核心的产品上,我们嵌入AI的数据产品和能力,推动这种数据资源、AI技术和应用平台和业务场景一体化融合创新。这里举了SAP的例子,实际上去年9月份它推出了生成式AI助手,实际上在所有核心产品功能中推出的人工智能助手,它类似于chatGPT可以进行交互自然语言理解。同时它可以看到所有数据,同时做出算法的分析模型以及对简单任务安排和简单任务实现自动化安排执行,包括数据输入、报告撰写、流程审批等等。

  这使得它原有处理效率,提升90%以上,而且短短三个月到去年年底他们自己内部统计,80%简单任务已经实现全自动化处理。这我们就看到了,人工智能嵌入核心场景发挥了巨大作用,而且不只体现在内部效率的提升,也看到了它在供应链、财务、人力资源管理上强化了AI模型的引入,也服务于它的客户。

  全球的一家知名航空企业,通过AI人力资源模型,有效提升了他高价值或者高潜力员工保留率,使保留率提高到98%,也成功应用人工智能技术使得大数据服务于资源管理系统发挥作用。

  这两年它的股市价格一路攀升。大家可能要问,仅仅一个技术的应用就会带来我们股市价格的一路攀升吗?实际上我们观察到技术引用的背后,可能是我们一系列竞争规则和商业模式的深刻变革。过去我们的软件实际上是用于开发工具,而有了人工智能或者大数据的这种加持以后,它更多的是来取代工作或者替代或者是类人、仿人、替人一致性工作。

  在这种情况下,我们过去的核心竞争力是规则加经验,而在未来,我们的核心竞争力可能转换为数据加模型。过去有一些单一功能或者是任务驱动的一些场景,转化为点对点的场景驱动的一些应用。这就意味着我们竞争规则发生改变,与此同时我们的商业模式也在发生深刻的变革。过去我们的软件购买或者是数字服务的这种购买可能按照工具这样的方式,或者按次调用的方式来购买。而未来如果是它用来取代类人的,或者是承担一部分类人的这种工作,这种情况下,我们的商业模式可能按照任务的这种结果来购买。

  因此,这一系列深刻的背后的这种理性的变化,股市也恰恰用它的股价攀升表明了对未来发展逻辑的认同。

  与此同时我们看到大量的新兴企业也在涌入赛道,大量的新兴企业聚不聚焦于细分领域,搭建这种数据+AI原生架构,基于行业专有知识的驱动,来构建AI智能体服务,尤其这几年在软件编程、智能客服、金融征信、营销设计等方面成为独角兽的新赛道。

  发展最好的是自动化编程,中间这一列,上述头两家公司都属于这样的公司,像Anysphere这样的公司,它的核心代表产品是全球首款继承软件的开发环境。它可以深度融合在代码的生成、课时调优以及可以深刻理解工程师的开发工作流程,理解自然语言,理解上下文要求,自动完成代码编写和实时优化,就意味着大量原有的人工编程工作可以由开发平台或者工具替代。最终影响目标就是可以预测编程人员的要求,进而进行实现一键编程。

  第二家公司Cognition这家公司是2024年首先推出全球首位全自主的AI软件工程师Devin。这样的一个工程师,实际上是希望实现自主化学习和自主化更新迭代或者调优。这种情况下它可以自主学习进行相应任务规划,自主进行技术学习同时构建和部署软件,甚至能修复bug,甚至是自动调优模型。这就意味着未来可能很多人的工作,原有简单体力劳动或者脑力工作由这样的技术替代,而人可以转向更高级的需求设计或者相应更复杂的或者创新性任务。

  传统大数据公司或者基础设施公司也利用这一轮的变革,我们看到他在积极进行拓展。

  最下边的databricks,它是2013年成立,是一个传统数据基础设施的公司,但是这几年发展尤其快。一方面它面向大数据推出了数康融合技术,同时也是打造统一数据平台,聚焦各类结构化非结构化数据,帮助企业开发和部署深度机器学习模型,实际上就为AI提供养料进行生产,为企业开发AI应用提供技术。这家公司最近5年也飙升为美国独角兽第四,这也表明了对于未来新兴企业,新兴独角兽发展在整个社会或者市场表明了极大认同。

  业务的发展,实际新兴企业发展可以看到整个格局在变化,一方面传统巨头公司在去年Gartner数据库魔力象限中,传统的巨头公司仍然位居前列。与此同时看到,它的前五道DT全部转化为独角兽的公司,也可以说在数据库领域整个市场格局在发生变迁。

  第三个特点,高质量的数据集成为价值的中心,大模型的发展尤其以DeepSeek为代表的高效治理大模型的快速发展和广泛部署,使得我们过去无论是哪种简单单系统、结构化、高价值密度的小数据,还是多领域、多系统非结构化、低价值密度的全量数据,都没有办法完全满足人工智能商业化推广的要求。

  在这种情况下,可能中国这些挑战会更为艰巨,我们引入一份研究报告显示,2023年我国数据产存的转化率不足5%,海量数据的源头以及企业即便存了以后一年未使用的数据也占比较低。这种情况下如何建设高质量数据形成高质量数据集,成为我们数据能够发挥高价值的关键核心,因此将分散、散乱、碎片化的原始数据通过无论是归集、清洗、加工、标注、对其增强以及管理、数据合成等一系列环节,把它加工成行业所需要的高效、高价值的数据集,将会成为我们能否激活数据价值转化为产业价值、经济价值的一个价值原点,这是我们所观察到的一个新的变化。

  第四个特点,大数据的产业一方面在快速变革,与此同时与传统产业的融合或者数据密集型产业的融合是在加快的。无论是低空经济、具身智能、自动驾驶、碳排放管理、生物医药等方面,这些数据密集型的新兴产业正在和大数据产业加速融合,孕育出一批具有数智特征的新主体、新业态、新模式。

  举一个简单的例子,在今年2025年4月21日上海智源机器人发布了国内头一款面向具身智能开发者一站式开发平台,这样的平台发挥什么样的作用?它提供多模态的数据采集、模型训练、模型推理和仿真测试。在这个平台上,它实际加入了自己长期以来积累百万实际的数据以及仿真数据,为这种开发者提供相应的服务。

  这有什么意义?实际上我们在人形机器人中,在现在的发展中大家面临最困难的,进行人形机器人的建模和调优以后缺少动作,比如动作的基础数据然后建立相关模型。传统做法用动捕来做,但这样意味着成本高时间长,因此这种情况下能否有开放的数据集,能否有仿真的数据取代一部分真实数据进行相应数据训练成为一个关键。

  通过发布这样一个平台,而且这个平台聚焦于工业、家庭等五大行业100多个场景,为开发者提供了开放平台。开发者可以用这些经过实际检验的数据进行开发,它可以加速迭代,迅速形成智能机器人或者人形机器人的模型,加快产品的成熟和落地。

  响应在自动驾驶行业也面临这种变化,无论通过大量传感器和海量数据的采集还是通过神经网络等多个模型把相应车辆、路况和道路周边物体等进行相应建模的测算,建立高精度实时反应的模型,满足对复杂路况或者突发情况的要求,也是我们进一步的拓展重点。这些一系列大数据的应用和深层次的融合,实际上正为我们这种新兴行业智能化产业的发展带来新的机遇。

  第五个特点,正在推行一系列制度变革,可以说这种制度变革是全方位的。世界各国毫不夸张地讲,现在视为数据经济时代战略性的资源。把数据和网络空间作为国家第五疆域,实际都在纷纷立法保护自己争夺话语权,防范这种风险。实际上欧盟最先推出的GDPR,可以说在平静湖面上滴入的第一滴水,但这个水引起的波纹或者涟漪是非常巨大的,引发了涟漪的效应。

  可以看到一系列的国家为了应对欧盟单一数据市场的制度输出,维护本国数据制度的话语权也在纷纷推出相似或者也相应的数据管理或保护制度。在中国发布了一系列数据安全法和个人信息保护法等等,我们看到在一系列的制度建设中有三个重点:

  第一,个人信息保护先行,无论中国、英国、韩国、印度等等,把个人数据的保护列在非常关键重要的地位。

  第二,数据跨境流动成为重中之重。在整个数据跨境流动中,现在基本的做法是对数据进行分级分类,像欧盟将与自己战略相符,认为安全威胁小或者标准能力高度匹配的国家开展跨境流动合作,列为它的白名单,不经审查就可以进入欧盟,可以应用于欧盟。形成了小圈层内推动高标准的数据跨境流动。

  相反的做法,个别国家对一些可能与自己发展不相符,或者带有一定安全威胁的数据列进限定出口或者流动的关键名单数据,也包括关键基础设施的数据、基因数据、个人生物信息等等,也就是说数据的分级分类成为我们进行数据跨境流动管理的重要手段或者核心。

  第三,数据风险防范的力度加大,现在大家所知道或者熟悉的一些像算法黑箱、算法剥削或者数据茧房、信息茧房,以及合成数据、数据投毒等等,一系列新型的风险正在急剧上升,也在引发世界各国积极探索技术+制度双轮驱动的新型治理的方式。

  二、当前我国大数据产业呈现“固本拓源、强链赋能”新格局。

  大数据或者人工智能+对大数据技术和产业带来了一系列变化,我们正在迎接这一系列的变化,我国大数据产业也呈现新的发展特点。

  党的十八大以来,我们习近平总书记明确提出要发挥数据的基础资源作用和创新引擎的作用,构建以数据为关键要素的数字经济,推动实体经济与数字经济融合发展,推动互联网、大数据、人工智能与实体经济的深度融合,做好大文章。

  经过多年布局可以看到,实际大数据产业在持续增长,2019-2024年间,云计算大数据的服务业实际从0.35万亿增长到0.41万亿,是以年均两位数的速度在增长,而且远远高于数据产业的平均增速。

  与此同时,除了规模体量大以外也呈现出一些新的特点:

  第一个特点,整个大数据产业链的水平在持续增强。首先产业供给能力在不断地增强,围绕数据资源、基础硬件、通用软件、行业应用以及安全保障等方面形成一系列的技术先进应用广泛的产品和服务。

  与此同时我们也看到,也在逐步形成大企业引领、中小企业协同和创新企业不断涌现的企业融通发展的格局。根据不完全统计到2023年底中国大数据企业大概5000余家,已经形成了相对比较完整的大数据产业生态系统。更为关键的是我们看到,数据的产业集群效应开始显著增强,累计已经建成“十二五”大数据方向的工业,国家新型工业化产业示范基地,这样的基地在其中大数据产业的占比是相当高的,有的能达到八成甚至更高,这表明这个产业的示范基地含金量相当高。

  第二个特点,数据赋能实体经济走深拓广。根据我们对前5次开展大数据产业试点示范工作,我们也做了一个分析,当时遴选出来900多个产业试点示范的项目,我们通过一系列的分析发现,通过大数据技术的应用,工业企业的生产率平均提高40%以上,产品研发周期缩短了15%,能源利用效率也提升了10%以上。可以说大数据技术对赋能实体经济的成效还是相当显著的,这个小样本的显示也看到新的发展带来的变革。

  三、以数据赋能新型工业化为主线推动大数据产业发展的新思路。

  在“十五五”期间可以说围绕着制造强国新型工业化战略的实施,我们国家在制造业发展大数据新兴产业有巨大优势,首先我们产业体系完整,有超大市场规模,也有丰富多元应用场景。通过数据赋能新型工业化可能要做好122策略,首先打造一套基础设施,强化两大支撑,推动两大协同。

  具体看来我们需要筑牢数字技术设施的发展根基,从网络侧看需要拓宽网络建设和应用的广度,提升像5G和千兆网这种网络覆盖程度,体系化推进算力网络发展,深入推进5G和工业互联网标识的贯通,整体性提升网络服务质量。

  从数据方面来看需要加大数据基础设施的建设和应用力度,遵循向标识身份建构统一的原则,推进低成本高效,可信赖数据流通基础设施建设,促进数据流得动。算力方面需要统筹算力资源分配和深化服务深度。推进通用算力向智能算力超算等一系列算力资源协同发展,同时也引导算力统筹供给也是说向算力互联网发展。

  探索对于新型基础设施建设包括像量子计算中心,量子计算云平台等新型基础设施的建设。有了基础设施这是一个新的必要保障,对于产业发展我们认为有必要推动双轮驱动。一方面是中下游推动大数据产业链本身这种优化升级。通过巩固夯实大数据的采集和存储的技术和产业重点突破一系列在大数据标注治理中的关键技术,包括多模态标注等一系列关键技术的研发,协同攻关大数据共享流通,聚焦工业大数据计算分析,优化提升大数据系统集成。通过一系列举措,核心目的就是加快培育新技术、新业务、新模式,推动整个产业链协同创新发展和优化提升。

  通过大数据产业链与其他产业链的融合,深度推进大数据创新链和产业链深度融合,也包括一方面我们利用集中优势突破大数据关键核心技术,同时我们要真正发挥生态的活力作用。通过像开源项目、开源社区建设,充分调用产学研用各方面力量推进技术研发标准制订以及中试验证和产业规模化推广等等,真正发挥科技创新和产业创新融合作用。

  推进大数据与其他产业融合发展,比如说真正推动这种数据在大数据的应用,在不同行业构建相应的模型库和算法库。推动我们与低空经济、自动驾驶、具身智能、低碳经济等各个新兴行业和领域以及未来产业协同发展。产业的发展和助力也需要相应的保障。这样的保障一方面需要我们构建大数据发展的开放生态,这个生态中企业毫无疑问是核心单元。需要继续支持企业做优、做大、做强。尤其左上角对新兴行业培育新兴企业,培育新兴企业做大做强以后,培育更多专精特新主体。通过强大企业实力巩固产业链实力。与此同时需要考虑向大数据集聚发展,实现规模化发展,构建打造大数据产业的高地。

  需要培育一体化的数据要素市场,数据能够流得动,用得起这是基本保障,同时考虑国际开放与合作共享。通过一系列举措,无非打造主体多元、创新活跃、流通应用有效以及应用繁荣的产业生态体系发展,就是最大的安全。与此同时在事物的另外一面,也需要构建全流程、全周期的大数据产业安全治理体系。一方面考虑继续持续落实数据安全法个人信息保护的配套法则,另外一方面也要构建全生命周期的安全机制,从采、存、算、管、用等多个环节提供一系列有效的技术手段保障。光有技术不行,也要考虑数据伦理治理,构建人工智能与数据使用的伦理规范和责任的约束机制,防范技术滥用与歧视的风险。

  展望未来,大数据产业可以毫不夸张地讲是数字经济发展战略必争之地,未来五年甚至十年中有巨大机遇也有一定的不确定性。我们非常愿意与业界同仁一起凝聚共识共谋发展。为深入推进大数据技术和产业的发展,以及支持数字中国建设贡献力量,以上是我的汇报,请各位批评指正。

  (以上内容根据嘉宾发言速记整理)

扫一扫在手机上查看当前页面