面向AI4S的高质量科学数据资源如何构建?建设过程中面临哪些挑战?关键技术有哪些?如何实现多模态数据统一管理与分析?体系化的科学数据开放共享生态又该如何建设?
在8月11日召开的2023科学智能峰会“共建AI4S基础设施--Al4S数据库与知识库”学术峰会上,多位专家学者共同探讨AI for Science(简称:AI4S)基础设施建设——AI4S时代下的数据库与知识库的建设。
挑战与机遇并存:AI4S赋能学科应用数据效率提升
在科研场景中,科学数据和文献是支撑各学科科研工作者研究决策的知识体系与宝库。减少科研工作者花在查找、处理科学数据、文献上的时间,是科研效率提升突破的机会。在面对科研问题时, AI的加入,模型、算法能力的提升,为海量科学数据处理、文献自动整理分类等方面带来了革新,大大提升科研效率。
中国科学院成都文献情报中心研究馆员胡正银认为,科技文献中蕴含大量可信、专业、规范的领域知识与科学数据,同时,科技文献中蕴含大量的实验参数、公示、图表等科技文献数据,可以为AI4S应用提供高质量数据支撑。将科研人员从繁重的文献阅读工作中解脱出来,也可以加速知识获取和科研创新的进程。
中国农业科学院农田灌溉研究所所长、国家农业科学数据中心主任周国民表示,AI4S的核心之一是数据,作为科研活动中最基本的产出之一,科学数据目前已成为推动提升科研效率的关键性力量。从“自用”到“自证”到“他用”的生态在逐步形成,科学数据已经贯穿于科研活动全过程。
科学研究要求严谨性,需要依靠准确的知识体系作为支撑,除了科学文献,科学数据也是科研关注重点。将文献、科学数据等构建成知识库或数据库,利用大语言模型等技术,为不同领域的科研提效,也成为AI4S的重点研究方向。中国科学院计算机网络信息中心副主任/研究员周园春认为,站在新科学革命起点,在推动科学研究模式从“小作坊”到“大平台”转变过程中,需要集中力量解决共性问题,从而更好构建AI4S创新基座,推动AI4S快速发展。通过在科研领域打造大模型,能够为不同科研领域工作提质增效,让科研人员更多时间和精力解决其领域关键问题和创新思考。
持续发挥作用: AI4S促进建立开放共享的数据生态
在探讨机器学习的效果时,无法忽略的一点是高质量数据的重要性。科学数据包括观测数据,实验数据、记录数据、调查数据、模拟数据等。每种类型的数据都有其独特的应用领域和获取方式,综合利用这些数据对于科学研究有着重要的意义。
利用机器学习技术从科技文献中抽取关联数据,建立多模态数据库以综合使用是发展趋势。北京科技大学教授宿彦京谈到,对于材料领域来说,将科学数据透明化,形成便捷的数据库架构,在精准检索的同时,满足材料领域的科研需求。
中国科学院动物研究所研究员李鑫谈到,生成式模型为AI4S提供了更多机会,充分利用海量科学数据赋能大模型能够产生更大效应。不仅可能颠覆生命科学领域基础研究范式,还能促进产业转化实现加速发展。
之江实验室高级工程师王晗表示,快速射电暴爆发的持续时间仅为几个毫秒,相当于太阳在一整天内释放的能量。世界上有很多射电望远镜能观察到此现象,然而观测设备的型号参数不一样,会导致最后结果有偏差。从科研方面来讲,标准的数据库以及规范很有利于快速射电暴领域爆发源和原理的探索。
高质量数据中心建设和发展:AI4S的支撑力
在开放共享的视角下,中国科学院计算机网络信息中心研究员杜一表示,近年来国内外对科学数据的重视程度提升。去年年底,中共中央、国务院发布《关于构建数据基础制度更好发挥数据要素作用的意见》,提出坚持共享共用、强化优质供给、完善治理体系、深化开放合作等工作原则,对于科学数据的发展具有指导意义。
2019年,为落实《科学数据管理办法》和《国家科技资源共享服务平台管理办法》的要求,规范管理国家科技资源共享服务平台,完善科技资源共享服务体系,推动科技资源向社会开放共享,科技部、财政部对原有国家平台开展了优化调整工作,通过部门推荐和专家咨询,经研究共形成“国家空间科学中心”等20个国家科学数据中心。
在建设和发展这些国家科学数据中心的过程中, AI4S在其中扮演了怎样的角色?如何更好充分发挥AI4S的技术优势,从而为打造高质量国家科学中心助力?
对于国家空间科学中心的建设与发展,国家空间科学数据中心主任、中国科学院国家空间科学中心研究员邹自明谈到,AI赋能空间科学过程中,对高质量数据提出更高要求,发展AI-ready的科学数据需在数据处理、信息挖掘、知识发现和预测应用方面发力。国家空间科学数据中心针对AI for Space Science,依托日地空间天气“STAR-E”、行星科学“PSAR-E”和高能天文“HEAR-E”三个“E环境”的开放研究范式,拟进一步打造平台型、服务型、开放型、研究型的科学数据中心,支撑科学数据驱动下的人机协同研究、自主学习进化、复杂系统涌现、全域追踪预测等流程。
对于国家微生物科学数据中心的建设与发展,国家微生物科学数据中心主任、中国科学院微生物研究所研究员马俊才表示, AI4S不是单一维度的数据信息孤岛,而是领域性数据融合、数据集成,因此需要微生物资源、文献、专利、功能、组学等数据有效融合集成,为AI4S工作打好基础,让微生物全生命周期的数据发挥其真正价值。
对于国家冰川冻土沙漠科学数据中心的建设和发展,国家冰川冻土沙漠科学数据中心主任、中国科学院西北生态环境资源研究院研究员张耀南谈到,冰冻圈科学数据包括野外观测、调查考察、数值模拟、测试分析、遥感反演、统计分析等类别的数据。为更有效支持AI应用,同时构建数据集存储环境,通过原始数据和AI样本数据、AI数据集管理建立支持系统。除了数据集管理和重组之外,还要建立“AI数据集+AI算法+智能计算”应用平台开展工作。
近年来,随着科学数据的重要性得到广泛认可,数据的数量和质量都有明显提升。AI4S的发展需要数据、算法、计算资源等多方面的配合,未来在面对数据相关的挑战时,仍需要关注数据的质量与利用等问题。
8月10日-11日,2023科学智能峰会在北京举行。作为中关村论坛系列活动,2023科学智能峰会由北京科学智能研究院主办,旨在搭建AI for Science领域科研突破、技术培育、人才交流的共建共创平台。峰会设置1场主论坛和10场主题学术峰会,议题覆盖模型算法、数据库、能源材料、算力引擎等。在会上,与会院士、专家、企业代表分享先进理念与前沿见解,展示研究成果、创新技术,展望AI for Science未来发展趋势。