共建科学智能开放生态
复旦大学人工智能创新与产业研究院院长、上海科学智能研究院院长
漆远
很高兴来到这个论坛向大家分享我们在科学智能AI4S的工作和思考。
人工智能正深刻影响着众多行业,其中科学领域是其重要的应用领域之一。去年,诺贝尔奖的两个奖项颁给了在人工智能领域做出杰出贡献的科研人员,哈萨比斯便是其中之一。他在去年的演讲中提出,人工智能将对疾病治疗、能源开发、气候变化等众多领域产生变革性的影响。哈萨比斯强调,人工智能不仅仅是一项普通技术,而是一项具有划时代意义的技术。关于通用人工智能(AGI)的预测,许多讨论集中在三年或十年内实现,即便十年的时间框架也显得极为迅速。
去年,两个诺贝尔奖的颁发颇具象征意义,分别代表了“科学为人工智能”和“人工智能为科学”两个领域的重要进展。在“科学为人工智能”的领域,一位物理学诺贝尔奖得主受到统计物理学的启发,提出了深度学习的概念。去年,Sora在此基础上,运用统计物理学的原理,开发了一系列与图像和视频处理相关的应用。另一方面,“人工智能为科学”领域也取得了显著成就,特别是在生物学领域,人工智能解决了长期困扰人类的蛋白质结构预测问题。可以说,“人工智能为科学”与“科学为人工智能”构成了一个相互促进的双模型结构。
人工智能领域呈现出迅猛发展的趋势,我将忽略前几十年的发展历程。然而,自2020年10月底ChatGPT的问世标志着预训练大型模型的出现,以及去年9月份至今年年初DeepSeek关于推理和开源开放的讨论,我们目前正深入探讨人工智能如何融入物理世界。今天,我们所讨论的许多人工智能应用仍然局限于屏幕背后,如聊天机器人、视频或图像生成等。一个关键问题是,我们能否利用人工智能进行天气预报、气候分析以及新药的设计?这正是人工智能走向物理世界的具体体现。
DeepSeek是非常有意思的事情,不光从算法本身未必是原创性突破,但从两个点特别好,一是极致性价比,它把算法工程和数据进行高度结合,达到非常好的效果,另外是开源开放。很多模型比如OpenAI是闭源,DeepSeek是开源的,在全世界引起很大反响,不光中国公司,连微软已经部署像DeepSeek模型。不妨是性价比(训练成本、推理成本),另一方面推理能力非常强,是讲科学推理,推理能力非常强体现在编程尤其是科学问题上。这意味着人工智能技术大规模渗透,大家认为DeepSeek出现理论上会不会导致人工智能使用成本大规模下降?这是非常有意思的话题。当时DeepSeek刚开始,英伟达一天之内股价跌17%。有著名的经济学家William Stanley提出“杰文斯悖论”,19世纪煤炭的使用效率大规模发展,结果导致煤的消耗量大规模增长。所以大家认为不光是美国的英伟达,在中国GPU发展也是日新月异,一个核心逻辑在于今天本身高效低耗技术反而推动技术进一步普惠和推广。同时开源也可以解决信任问题,所以DeepSeek7天有破亿用户增长,成为人类历史上用户积累最快的App。
前面提到了模型和工程数据结合优化,人工智能在科学领域的结合非常重要,一方面是基础设施,一方面是推理能力,另一方面非常重要的是数据。原OpenAI科学家后来是特斯拉的首席科学家讲了非常著名的,不管你用扩散模型(今天在计算机视觉大量使用的模型)还是用Transformer模型,最后真正决定效果的是数据,我们讲大模型是对互联网的压缩,人人都有互联网,压缩已经大差不差了。而下一个价值在行业价值里,在不同的科学领域里,有些领域已经开放如气象,但是依赖于社区开发,很多领域的数据还是不够开放,构造一个开放生态就非常重要,因为这是一个共赢的结果,可以使高校、科研机构、龙头企业共同发展,没有这些数据是死锁在一个地方。一个砖头假如不去盖楼是没有用的,数据也一样。但数据和砖头的价值不一样,它可以来回使用,所以它是更加对数字经济非常有价值的燃料。
举个例子,AlphaFold如果没有大量基因的数据根本不可能产生,很多开源的数据促进了诺奖工作的诞生,使用开源的工具,有人工智能的发展,有领域科学家的贡献,但是做完之后又把结果开源给社区,全世界190多个国家、超过200万研究者正在使用,有一个开放社区之后有更多的新药设计、个性化医疗等一系列相关底层应用。
我们有幸在复旦大学及上海科学智能研究院构建了人工智能气象大模型,并参与了中国气象局发起的人工智能天气预报大模型示范计划。在数月的综合评比中,我们的模型在16项指标中12项单项指标长期占据榜首,且在3项综合指标上持续保持第一。因此,我们不仅使用了开源社区的数据,完成研究后也将我们的数据开源,公开了大模型的预测数据和中心气象大数据,期望促进社区的共同进步。同时,我们也有幸在气候中心展开合作,成为三大气候模型深度合作方之一,我们期望能够进一步与气象中心携手,共同推进国家气象模型的深入研发。
此图展示了伏羲模型四季节预报的结构框架。该模型于2023年气候大会上发布,引起了广泛的关注和深远的影响。它是全球首次实现四季节预报的尝试,显著提升了关键指标和MGU指标的有效时长,从30天延长至36天。尤为关键的是生态系统的构建,气象工作是我们的重要职责之一。我们与国家相关部门及企业携手合作,共同推进AI4S生态系统的建设。这一过程需要大量数据、完善的工具链、模型训练以及龙头企业的多方协作。只有汇聚各方力量,我们才有可能使解决方案更加高效、精确,并且具有更高的可解释性。
在当今的人工智能时代,工作底座的建设显得尤为重要。我曾有幸参与阿里巴巴蚂蚁金服构建的阿里平台和蚂蚁金服平台的搭建工作,并在复旦大学建立了中国高校中首个且规模最大的智能计算平台。我们期望该平台能够进一步增强科研机构和企业的能力,使他们能够利用人工智能技术解决现实世界中的各种问题,而不仅仅是局限于文本生成和视频生成等应用。
在生态里第一个最重要的是语料。首先是裸数据,我们已经收集非常多科学领域的数据,除了互联网数据,这些数据也非常重要,我们收集了260多个数据学科、三大科学领域(气象、生命科学、物质科学),产生非常有特色的科学语料库。裸数据本身对人工智能并不能使用,而人工智能的价值产生是数据价值体现最好的路径,很多领域需要人工智能的赋能比如金融反欺诈、气象预报利用人工智能模型预测、保险产品等,不仅需要数据加工,这样就打造数据加工平台和系统,保证99%的准确率,如果数据错了就是大模型幻觉,但是幻觉本身是大模型底层的缺陷,数据进来有可能是幻觉,如果数据是错了可能发生错误的概率就大幅度提升,需要精准的数据提升能力同时保证数据的共享机制和数据溯源能力,这样就打造高质量专业化平台。去年上海世界人工智能大会提出构造一个数据生态联盟,大家一起打造这个联盟,第一期10个联盟成员。
科学价值的实现依赖于人工智能,而人工智能的发展又建立在数据、算法和计算能力的综合基础之上。尽管如此,科学领域要实现全面的自我完善尚需进一步的探索与进步。开放平台促进了更广泛人群的共同进步,因此我们致力于开发多种开源大型模型,并通过算子库、工具流等手段进行培训,以支持更多的教育工作者。例如,在复旦大学,我们一年内进行了2000多次培训,支持了150多篇论文的撰写,这些论文均使用了我们提供的相关工具链。这正如同企业构建中台以支持借贷、基金和保险业务一样,科学领域同样需要一个底层的开放平台来支撑其发展。
平台本身并不足以满足所有需求,最终,数据和计算能力是关键,但最关键的是人才。我们期望能够吸引更多人才汇聚一堂,因为人才是最大的生产力。自2023年起,我们开始举办世界科学智能大赛。首届大赛在复旦大学举行,由五位院士和校长共同发起,吸引了来自18个国家的500个机构的参赛者,结果超出了预期。首届大赛有超过10,000名选手和来自18个国家及地区的参与者。第二届大赛则与世界人工智能大会接轨,我们邀请了诺贝尔奖得主、阿里巴巴云的创始人以及来自中东的科学家共同推动大赛的发展。第二届大赛有来自24个国家的3,000多个团队参加,同比增长了180%。今年的大赛已经启动,目标是更加年轻化、产业化和开放化。首先,我们向中学生开放,将在上海的多所顶级高中举办相关比赛,并欢迎来自福州的更多中学参与;其次,更加注重产业合作,我们与企业和产业界紧密合作;第三,更加开放,我们将开放我们的计算资源和工具链,希望人工智能AI4S不仅仅是少数人的游戏,尽管可能只有少数人能够开发出最先进的DeepSeek模型,但我们希望更多人能够参与进来,共同推动更多行业的发展。大赛涵盖了航空、安全、新能源、创新药物、材料设计和合成生物学等领域。新能源与气象气候紧密相关,风能、电能和光能的影响尤为显著。每个赛道都与一家企业合作,例如商飞和新能源行业的领军企业宁德时代,与不同的公司携手推进。
AI4S的发展最终将依赖于更加开放和合作的生态系统。我深信DeepSeek的成功是开源开放理念的胜利,这不仅仅是性价比的胜利。由于其开源特性,公众对其信任度更高,加之其卓越的性价比,使得各行各业纷纷接纳并拥抱这一技术,从而推动了整个行业的兴起。科学智能的发展需要跨学科的合作,包括气象学、生物学等领域的专家以及AI领域的学者们共同协作。这种多元和开放的合作模式具有巨大的价值。从屏幕背后的文本生成、聊天应用,到飞机设计、新药研发、合成生物学等更广阔的领域,其价值愈发显著。此外,价值的来源之一是Token的低廉成本,Token作为衡量数据的单位,其价值在于数据的交换和AI的反馈循环。随着数据成本的降低,更多人将倾向于使用这些技术,从而加速技术的普及和社会智能化的进程。我们坚信,随着开源开放生态系统的构建,人工智能将变得日益重要。
最后我想说人工智能我们一起希望服务推进千行百业的智能化升级。谢谢。
(以上内容根据嘉宾发言速记整理)
扫一扫在手机上查看当前页面
