2025-03-31
导语:基于数据−算法−算力三元融合的智能增强发现战略以期为构建自主可控的新型材料研发范式提供系统性解决方案与技术演进框架
科学研究的主流范式先后历经实验驱动、模型驱动、计算驱动和数据驱动4种范式变革。智能驱动的研发正在成为科学研究范式的一次跨时代变革。国内顶尖学者如李国杰院士、鄂维南院士明确提出“第五范式”“科学智能”等概念,并预言在未来10~20年智能驱动将逐步成为科学研究的 主流范式。2024年,诺贝尔物理学奖和化学奖双双授予人工智能驱动的科学研究 (Artificial Intelligence for Science, AI4S),标志着这一趋势已然到来。
人工智能方法与材料研发天然契合。机器学习善于处理复杂体系、发掘高维度参数之间的隐藏关联,有望解决材料学中体系复杂、参数空间巨大、构效关系不明等关键共性难题,对于新材料发现、高效筛选、性能优化及工艺改进等具有重大现实意义。大语言模型的横空出世,第一次将人类智能与机器智能相融合,再与自动化实验结合,使得构建材料科学智能体不再是科学幻想。乐观估计,材料研发的全过程智能化将在不久的将来成为现实。
1 材料智能化研发发展态势
材料研发范式的变革始终遵循技术积累与突破的规律。数据驱动的材料研发范式诞生于实验与计算数据的指数级增长及大数据技术的突破。智能驱动的材料研发则诞生于以材料基因工程计划为代表的百万量级高质量材料数据,以及深度学习技术带来的非线性建模能力跃升。材料研发范式的变革恰逢全球数字技术战略布局的关键窗口期,各国纷纷将AI赋能的材料研发确立为科技战略制高点。全球主要经济体已进入AI+材料的战略竞速阶段。
2024年初,美国推出了国家人工智能研究资源 (National Artificial Intelligence Research Resource, NAIRR) 项目,联合 10 个联邦机构以及25家私营公司与组织,推动人工智能发现和创新,官宣打造AI帝国。2024年3月,美国国家标准与技术研究院成立人工智能制造业研究所,关注人工智能在制造工艺、新型材料及先进制造等相关方面的应用;7月,美国能源部(United States Department of Energy, DOE) 发布了科学、安全与技术领域人工智能路线图,旨在促进 DOE 及其 17个国家实验室与科学界和工业界合作,建立世界上最强大的综合科学人工智能体系,在科学和能源应用领域实现突破。2023 年 12 月,欧盟发布《AI 在科学中应用:利用 AI 的力量加速发现并促进创新》 政策文件,利用 AI 加速科研、促进创新、提升竞争力,并强调将AI融入科学发现对于增强欧盟在全球科学领域的竞争优势至重要。
2024 年 2 月,欧盟委员会在 《先进材料产业领导力通报》中提出一项全面战略,支持欧盟迈向先进材料领域的产业领导地位,以帮助研究人员和创新者在人工智能工具的支持下,在受控环境中显著加快新型先进材料的设计、开发和测试;英国国家科研与创新署建立生成式模型研究中心和人工智能化学研究中心,将研究基础人工智能方法、实验和计算化学,并开发用于工业界、科学界和政府的生成模型工具,以造福经济和社会。中国政府对人工智能驱动的科学研究 (AI for Science, AI4S)的进展高度重视。为贯彻落实国家《新一代人工智能发展规划》,2023 年 3 月 28 日,科技部发布《人工智能驱动的科学研究》,会同国家自然科学基金委启动“人工智能驱动的科学研究”专项部署工作,围绕药物研发、新材料研发等重点领域科研需求,布局“人工智能驱动的科学研究”前沿科技研发体系。
2023 年 4 月,国家自然科学基金委员会发布下一代人工智能方法重大研究计划项目指南,指出“挖掘机器学习的基本原理,发展可解释、可通用的下一代人工智能方法,并推动人工智能方法在科学领域的创新应用”。中国各重点大学、科研院所也积极加快人工智能的布局。2024 年 6 月,上海交通大学、中国科学技术大学、哈尔滨工业大学先后成立人工智能学院,其中材料智能研发等AI4S领域均为重点布局方向。
当前,全球人工智能驱动的材料学研究 (AI for Materials Science,AI4MS) 竞争呈现显著的马太效应,中国、美国凭借技术−资本−数据的正向循环逐渐形成双极格局。中国凭借海量工业数据、完整产业链配套和新型举国体制,在应用场景落地方面优势突出;美国依托硅谷创新生态与联邦研发体系,在基础算法和高端芯片领域保持领先。相比之下,欧盟受限于成员国资源分散,难以形成统一算力平台;日本、韩国受市场规模制约,商业化进程迟滞;俄罗斯则面临技术封锁下的生态断层。中美的双极竞争已超越单纯的技术博弈,正演变为技术标准、数字基础设施乃至国际供应链的重构过程。
2 全球材料智能研发发展现状
当前学界对AI4S的核心要素已形成基本共识,主要涵盖三大支柱:数据资源、算法模型与应用场景。鄂为南院士提出的“四梁 N 柱”框架对此进行了系统诠释。“四梁”包括:基本原理与数据驱动的算法模型和软件系统,高效率、高精度的实验表征系统,替代文献的数据库与知识库系统和高度整合的算力平台系统;“N柱”为AI4S落地于各个学科和交叉学科领域的垂直应用体系。该理论框架与美国能源部2024年“科学、安全与技术领域人工智能前沿”(Fronties in Artificial Intelligence for Science, Security and Technology, FASST)计划提出的四大行动方向——“构建人工智能数据库”“创建先进的人工智能计算基础设施和平台”“开发安全、可靠和值得信赖的人工智能模型和系统”“实现人工智能多元应用”相互呼应。
智能驱动的材料研发作为AI4S的一个重要分支,在继承AI4S通用技术框架的同时,具备针对材料科学领域的独特性。AI4MS应涵盖智能计算、智能实验、大数据及大模型等基础架构,并通过这些关键基础设施,针对特定战略性材料构建高效的应用场景和技术出口,以推动材料研发的落地与应用。
面向材料的数字化智能化研发、构筑新型研发模式的需求,国际上,材料智能计算、材料智能实验、材料大数据及材料大模型等平台发展迅速,正在系统性重构材料研发流程,推动传统“试错法”向智能范式转型。
2.1 材料智能计算
国际上,美国国家标准技术局建设开源材料数据库,在材料基因组计划中起到引领作用。美国劳伦斯伯克利国家实验室开发了集成高通量计算、人工智能、数据标准和检索技术应用的Materials Project 数据与计算平台,利用高通量计算方法加速新材料的发现。美国Mat3ra是一个云原生的可访问和协作平台,用于原子尺度的材料建模。韩国MatSQ(Materials Square)是一个基于网络的材料模拟平台,旨在通过直观的界面和云计算环境降低材料科学研究的门槛。
在国内,中国科学院物理研究所陈立泉院士团队开发和编制了自动化高通量计算方法及软件平台,建立了电解质与电极材料的数据库。北京迈高材云科技有限公司开发了高通量材料集成计算平台 MatCloud,并提供图形化建模工具,支持复杂计算流程设计。吉林大学张立军开发了人工智能辅助、数据驱动的材料设计集成软件包JAMIP。北京创腾科技有限公司研发了分子模拟和人工智能平台 MaxFlow,适用于药物和材料的设计与研发。鸿之微科技 (上海) 股份有限公司开发了高通量材料模拟设计智能化平台,并在多个企业内部署使用。
在使用人数上,由于国外以 Materials Project为代表的高通量计算平台占据了先发优势,已经形成了完善的应用生态,使用人数远超国内平台。在功能性上,国外计算平台已打通数据生产−存储−使用全流程,平台使用者能便捷地上传计算数据,经审核后即可对外发布。国内高通量计算平台更多聚焦于实现数据的高效生产,以兼容更多计算软件、实现更多性质计算为目标,对计算结果的处理和利用尚无较好的解决方案。
2.2 材料智能实验
近年来,国际顶尖材料研究机构在以智能实验为核心的智能研发平台取得一系列突破。在一系列政策的影响下,美国国家实验室、高校和科技型龙头企业基于人工智能和自动化技术产出了众多有影响力的成果,在这一领域处于领先地位。英国早在2014年就对智能实验领域进行了布局并投入了大量的资金,以利物浦大学的机器人化学家平台、材料创新工厂,以及格拉斯哥大学开发的可编程化学自动化语言为代表,致力于打造通用场景下的智能实验技术,在世界范围内引领了技术潮流。加拿大也在智能实验领域进行了具有全球影响力的布局。在加拿大政府的资助下,由多伦多大学著名的材料科学、人工智能与量子计算交叉领域专家 Alán Aspuru-Guzik 主导成立加速联盟 (The Acceleration Consortium, AC),开发与人工智能结合的高通量自驱动智能实验室 (Selfdriving Labs, SDLs),通过开发智能实验技术,包括统一硬件标准、软件协议、数据共享等共同推动智能实验技术在全球范围内的普及和在更多场景下的应用。
在各国政府的积极推动下,智能实验领域取得了众多标志性的成果,尤其在 2022 年 ChatGPT所引领的大模型技术飞速发展以来,智能实验的重要性极大提高,颠覆性的成果不断涌现,科研范式的变革路径正在逐渐清晰。2023 年,DeepMind公司与美国劳伦斯伯克利国家实验室联合开发了A-Lab智能平台,系统链接大语言模型和自动化合成技术,17 d从58个目标中分离合成出41种全新化合物。2023年底,卡内梅基隆大学研究团队发布了首个基于GPT-4的智能实验系统Coscientist。Coscientist 在 4 min 内复现了 2010 年诺贝尔化学奖得主研究的反应,并在多种其他类型的反应中表现出了巨大的应用潜力。2024年1月,荷兰阿姆斯特丹大学Timothy Noël团队开发了基于RoboChem机器人的连续流光催化反应平台,在经过58 h的60次自动化闭环实验后,成功将目标产品的收率从此前报道的最高37%提高到了77%。智能实验技术的核心是面向特定研发工艺的,对高端仪器、高阶自动化技术及先进人工智能技术的高级整合和定制化集成,其发展整体依赖上述技术的积累。在这一领域,中国目前已取得了一些成果,但整体仍呈追赶态势。中国具备的技术优势在于长期积累的非标自动化技术和供应链,以长三角、珠三角地区为代表的产业集群多年来在计算机、通信、消费电子和汽车行业积累了丰富的非标技术落地经验,为智能实验的发展提供了良好的基础。同时,近年来高通量自动化应用在生物医疗和医学检测等领域大规模落地,为结合人工智能的材料研发提供了技术保障,具备快速发展和技术突破的条件。
在全流程智能实验方面,中国科研院所和企业也取得众多瞩目的成果。2021年,中国科学技术大学罗毅和江俊团队报道了首个融合“化学大脑”的数据智能驱动的机器人化学家平台,集成了 2 个移动机器人和 19 个智能化学工作站,在数十万参数空间中建立了预测模型并实现了自主优化迭代和自动合成。2022 年,浙江大学杭州科创中心发布了iChemFoundry自动化分子智造科学装置,实现功能导向的分子材料精准创制。厦门大学、嘉庚创新实验室的洪文晶团队实现了实验系统全链条软硬件的国产化自主可控。中国科学院深圳先进技术研究院先进材料科学与工程研究所赵海涛和喻学峰团队报道了构建机器人辅助胶体纳米晶数字制造平台的工作。该平台将科研人员从传统试错实验、劳动密集型表征中解放,实现胶体纳米晶数字化制备。
在产业界,中国在智能实验这一领域也取得了一些阶段性的成果。深圳晶泰科技有限公司于2020年布局研发和建设高通量智能实验室,目前在上海和深圳建设有两个智能实验基地,在超过100台自动化工作站间实施调度,在包括小分子药物、催化过程等多场景实现了无人化研发和产品交付。北京镁伽机器人科技有限公司于2021年宣布镁伽鲲鹏实验室 (MEGALAB) 落成,是聚焦多个领域的自动化智能化实验,目前迭代到MEGALAB 3.0,以更大的通量和更多AI技术的加持,面向生物医药、先进材料、合成生物学等众多领域,提供智能研发的技术、设备和交付服务。智能实验技术依赖高端仪器、高阶自动化技术以及人工智能技术的积累。目前中国在智能实验领域与国外的差距主要体现在:
①高端仪器。中国目前高端分析仪器的进口率仍在 80% 以上,进口设备的控制端口往往无法对国内开放,自动化程度受限,无法完全融合智能实验的工作流中。
②自动化控制系统长期被西门子、倍福等国外品牌垄断。目前,国内深圳市汇川技术股份有限公司、台达电子工业股份有限公司等的控制器基本可以完成对日本三菱电机株式会社等品牌的替代,但相比西门子等品牌,还存在一定差距。
③机械手及高精度传动模块。相比国外技术,存在一定差距,主要体现在控制软件的易用性,以及长时间工作的稳定性上。
2.3 材料大数据
从20世纪七八十年代起,欧盟、美国、日本、韩国等发达国家和地区先后开始发展材料数据库。早期的材料数据库由研究机构或组织进行离线收集、存储、研究,存在数据规模小、用户局限性高、商业化程度不高等问题。随着网络技术的普及和快速发展,材料科学数据库开始以在线方式进行管理和服务,强化了对用户的服务模式,使得材料数据库更易推广和数据共享。通过将数据库商品化为外部机构提供有偿服务,间接推动了数据库的应用和全面快速发展,形成了一批国际知名的商业化材料在线数据库。具体地,如美国的 MatWeb 和 ASM International、瑞士的 Total Materria、日本的 NIMS、德国的 Key to Steel 等,涵盖了黑色金属、有色金属、高温材料、复合材料、陶瓷材料、橡胶、核工业材料、功能材料等各种材料的成分、相图、晶体结构及性能参数等数据。
2011年6月,美国宣布启动“面向全球竞争力的材料基因组计划”(Materials Genome Initiative for Global Competitiveness,简称“材料基因组计划”),重点建设材料高通量计算、高通量实验和材料大数据等基础设施和平台。通过搭建一个包含各种硬件、软件和专用数据传输标准的数据共享平台,为加速材料的智能设计提供技术支撑。材料基因工程计划形成了材料数据库的新发展方向,世界各国也相继启动了类似的研究计划,如欧盟的“加速冶金学”“2012—2022年欧洲冶金复兴计划”“地平线 2020”“石墨烯旗舰”等计划;德国的“材料研究 (1984—1993 年) ”“材料技术”“为工业和社会而进行材料创新”“关于实施工业4.0战略的建议白皮书”“数字战略 2025”等计划,以鼓励各种社会力量参与新材料研发;日本的“元素战略研究(2007年)”“元素战略研究基地(2012年)”“创新实验室构筑支援事业之信息统合型物质材料开发(2015年)”“信息集成型物质和材料研发计划”“2015年版制造白皮书”等计划。
中国材料数据库的研发从 20 世纪 80 年代开始,由科研院所、企业自主建立了大量不同规模、分散独立的材料数据库,如钢铁研究总院的合金钢数据库、中国航发北京航空材料研究院的航空材料数据库、北京有色金属研究总院的有色金属数据库、清华大学的新材料数据库、西北工业大学的复合材料数据库、北京机电研究所有限公司的材料热处理数据库等上百个专业材料的数据库。20世纪90年代开始,中国材料数据库的商业化发展也随着移动互联网的兴起得到极大提速。以钢研·新材道、材易通、欧冶知钢为代表的一批在线数据库服务平台先后出现。
中国于2016年正式启动“材料基因工程关键技术与支撑平台”重点专项,构建支撑中国材料基因工程研究和协同创新发展的高通量计算、高通量合成与表征和专用数据库等三大示范平台,材料大数据在材料创新研发中的地位被进一步明确。
与世界发达国家的材料大数据进展相比,中国材料数据科学的总体实力较弱,缺少有影响力的材料数据库,存在材料数据管理与分析应用水平不高、有效积累不足、对外合作较少、共享机制不完善和不健全、材料数据领域的专业化人才缺乏等问题。
材料大数据技术及数据库产品的落后,制约着材料研发和AI4MS的发展,是中国材料领域科学研究的“卡脖子”问题。当前,中国材料领域的科研工作者,比较依赖美国、欧盟等国家和地区的数据库,这些数据库已经有几十年的积累,数据质量较高,标准化程度较高,在科研活动中发挥着潜移默化的影响力。随着国际形势的变化,国外材料数据库的开放程度日益降低,部分数据库对中国的更新速度明显降低,必须正视中国在材料数据与发达国家之间的差距,重视材料大数据建设,增强在材料研发领域的核心竞争力。
2.4 材料大模型
1)大语言模型
近年来,以 ChatGPT 为代表的大语言模型(Large Language Model, LLM) 飞速发展,展现出越来越强的知识存储与推理分析等能力,使许多曾经难以完成的任务变成了可能。在材料科学领域,LLM将不再局限于数据处理、加速计算、构建有效关系等应用,还可以用于材料的虚拟筛选、性质预测、理性合成等方向。基于LLM,科研人员能够在更复杂的场景中进行探索,结合数据更准确地反推物理规律。LLM正在催化一场新的科研范式变革,其将成为研发领域全新的生产工具和基础设施。
面对 ChatGPT 的强势崛起,全球科技巨头纷纷响应,加大在人工智能领域的投入与研发力度。微软、谷歌、Meta、百度、阿里及华为等巨头相继推出各自的巨型语言模型。
2024 年底面世的 DeepSeek-R1 模型通过强化学习驱动架构带来新的技术突破。该模型摒弃传统监督微调范式,采用群体相对策略优化 (GroupRelative Policy Optimization, GRPO) 强化学习算法,并通过混合专家 (Mixture of Experts, MoE)架构 (仅激活5.5%参数) 使训练成本和推理成本仅为 OpenAI O1 的 2%、3.65%,为材料大模型的普惠化应用提供了新范式。
在特定领域的基础大模型研发方面,Meta公司(Meta Platforms, Inc.)的聊天机器人Meta AI开发了一个能够存储、组合和推理科学知识的大语言模型——Galactica,展示了大模型作为科学研究新界面的潜力。微软研究院于2022年10月发布了针对生物领域的BioGPT模型,该模型基于大规模的生物医学文献数据,为生物医学研究提供了强有力的支持。
尽管各领域的基础大模型层出不穷,但由于缺少面向大模型的材料领域高质量数据,针对材料科学这一关键领域的专业基础大模型仅有少量尝试,GreenDynamics Pty.Ltd 主导发布的DARWIN模型使用了少量的材料或化学科学领域的专业知识对模型进行了进一步的自监督微调。
英矽智能科技(上海)有限公司与英伟达(NVIDIA)合作开发的nach0,尝试解决化学和生物领域的常见任务,如生物医学问题回答、命名实体识别、分子生成、分子合成、属性预测等。在材料化学领域,出现以上海人工智能实验室的ChemLLM为代表的通用化学模型。化学领域大模型通常从公开资料中收集整理出大量化学数据,以增强大模型的化学能力。化学数据具有多样性,包括但不限于化学问答、分子描述、分子性质预测等细分任务。通过覆盖多种任务,可以提升化学大模型的泛化能力,并使其能够进一步应用到各个下游任务中。此外,还有将大模型应 用 到 具 体 特 定 任 务 上 的 ICMA、 MolecularGPT等专业模型。这类模型将特定任务的知识引入大模型中,使得在这类任务上,专业模型的性能显著优于通用大模型或通用领域大模型。然而,这一类专业模型在自然语言处理、领域泛化性能上通常弱于通用领域大模型。
苏州实验室研究团队构建了首个针对化学科学的百亿级专业化大模型ChemDFM。在第三方评测中,ChemDFM在各类常规化学任务中成绩远超 LLaMa、Galactica 等百亿规模的开源大模型,表 现 逼 近 GPT-4o、 Gemini l. 5-Pro 等 103 亿 甚 至104亿参数的通用大模型,达到国际先进水平;进一步构建了多模态材料大模型,首次实现了多模态材料通用智能系统,能够理解不同类型的材料专业数据,包括文本、SMILES及5种非文本形式,支持10种以上材料与化学任务。该模型突破了大模型理解多模态材料数据的关键技术,在性能上远超只利用单一模态的大模型。2025年初,松山湖材料实验室推出了名为MatChat AI智能体的创新工具。MatChat AI 智能体基于大语言模型和增强搜索技术,为材料科学研究提供精准、可靠的知识支持。
总体来看,在通用大语言模型和领域大语言模型的研发上,国内外展现出并驾齐驱的发展态势。
2)大原子模型
材料研发的一个难点在于尺度和维度的问题。为进一步高效求解大尺度体系的问题,研究者开发出从头算分子动力学模拟,然而受限于计算复杂度及计算成本,使其仅限于数百个原子和时间尺度为约10 ps的应用。随着近年来人工智能的迅猛发展,基于AI的势能模型已被研究者成功应用于大规模和长时间的模拟,其准确率达到了从头计算电子结构方法的水平。使得模拟计算能够克服维数灾难、表示与逼近高维函数、处理大规模数据,从而大大降低了大尺度体系模拟的难度。2022年11月,美国加州大学圣地亚哥分校的Ong团队开发了基于图形神经网络 (M3GNet) 的材 料通用相互作用势 (Interatomic Potential,IAP)。M3GNet 结合了传统 IAP 的多体特征和图形神经网络的灵活性,为周期表中的89个元素训练了低误差的IAP。2023年9月,加州大学伯克利分校Ceder课题组提出基于图神经网络机器学习的预训练通用原子力场模型的晶体哈密顿图神经网络 (Crystal Hamiltonian Graph Neural Network,CHGNet)。
CHGNet 在机器学习势的基准测试中表现出色,在Matbench Discovery新材料研发任务上以0.58的F1 score超过所有先前模型,是迄今为止最优秀的预训练势函数之一。2023 年 11 月,美国 DeepMind 公司开发的 GNoME 模型能以高效率和高精度预测无机晶体的结构,发现了超过220 万个新结构,最终筛选得到 38 万个新材料的稳定晶体结构。
2023年12月,北京智能科学研究院与深度势能科技 (深圳) 有限公司合作开发了全新的通用大原子模型架构DPA-2。构建了大原子模型与自动化工作流程相关的全面流程,包括模型预训练、微调、蒸馏和应用。DPA-2可以使用涵盖广泛应用领域的数据集进行预训练。例如,合金、半导体、电池材料和药物分子等。由于其创新的架构设计和利用18个数据集涵盖73种化学元素的多任务训练方法,其在下游任务中表现出较高的泛化能力。
AI的预训练通用模型已经陆续显露,但其仍处于发展的初步阶段,尚未得到充分开发,发展的路线尚不明确。特别是应对某种特定的体系,开发出计算精度高、迁移能力强且计算效率合理的预训练模型仍然存在困难,限制了预训练模型在真实应用场景的实际应用。
大语言模型与大原子模型分别代表了材料科学领域两种核心能力的突破:前者以自然语言交互和知识推理见长,后者专注于原子尺度的高精度物理模拟。然而,二者在应用场景中存在显著壁垒——大语言模型对物理规则的理解不足,而大原子模型的复杂操作流程阻碍了其应用。为此,构建科学大模型成为可行的发展方向,其核心目标是通过跨模态架构设计与知识融合机制,实现两类模型的优势互补,形成兼具物理规律把控自然语言交互能力的下一代科研基础设施。
当前,材料智能研发呈现共性技术突破显著、全流程应用滞后的阶段性特征。核心共性技术(如大模型、智能计算/实验平台)已实现跨越式发展,但尚未形成贯穿设计−模拟−实验−验证全链条的成熟解决方案。共性技术的持续迭代正为应用场景的规模化落地奠定基础。大语言模型的语义理解能力与大原子模型的物理规律推演能力互补,结合智能计算/实验平台的高通量验证,有望打通材料研发的全流程链路,使材料研发从离散的工具辅助升级为自主演化的智能闭环。
3 发展趋势及挑战
3.1 发展趋势
从技术发展的宏观趋势上看,材料智能研发的发展呈现出以下显著特征:第一是多技术、跨学科、全链条交叉融合的大趋势,包括计算−实验−数据的交叉融合、跨学科融合和产学研融合。第二是从高通量、自动化向自主化、智能化演进的趋势。第三是规模化趋势,从特定小数据、专业小模型、小团队作坊模式向大数据、大模型、大平台发展的大趋势。这些对科学研究的传统思维模式和组织模式都提出了全新的挑战。
材料智能研发的首要趋势是多技术、跨学科、全链条融合发展,具体包括以下 3 个方面。
①计算−实验−数据−人工智能的交叉融合:计算−实验−数据的融合最早由美国2011年材料基因工程计划提出,它被视为该计划的核心理念。随着人工智能技术的发展,人工智能全面赋能计算、实验、数据技术,包括加速材料计算与模拟、赋能实验自动化与智能化,大幅提高大数据分析与应用能力,使得此4类技术融合为不可分割的整体。
②跨学科融合:材料智能研发依赖于材料、物理、化学、工程、数学、计算机等多学科领域的知识和技术。需要强调的是,材料智能研发并非以上专业领域知识的简单叠加,而是在全新的前沿交叉领域的创新与拓展。如材料结构的数字化、谱学的智能分析等,均需要跨越传统学科分类的解决方案。发展材料智能研发技术,必须建立深度交叉融合的跨学科团队,提供新视角、发展新思路、拓展新边界,以解决复杂材料学问题。
③产学研融合:材料从研发到应用具有全生命周期的长链条,智能化需要逐步渗透至每个环节,包括材料基础研究、技术开发和产业应用。全链条智能研发需要学术界、企业界、政府的共同努力,加速新材料的研发和应用的同时,促进材料创新和产业升级。
材料智能研发的另一大趋势是从高通量、自动化向自主化、智能化方向发展,具体包括3个重要阶段。
①高通量、自动化阶段:此阶段以高通量计算与自动化仪器为特征。同时,计算能力与资源的大幅提升,使得高通量、大规模计算与模拟成为可能。高通量、自动化的计算与实验在提升科研工作效率的同时,产生了大量数据,极大地推进了数据驱动范式的应用。
②自主化阶段:此阶段以强调数据闭环与结果迭代优化。AI算法加持的高通量自动化机器人技术,使得针对某一预设目标的自主优化迭代成为可能。
③智能化阶段:以机器智能为核心,以全流程智能化为特征。以GPT为代表的大型人工智能模型涌现出了前所未有的通用智能潜能。利用大模型对材料研发过程进行智能决策,结合高通量计算、自主化实验技术进行迭代优化验证,正在成为材料智能研发的最新趋势和未来方向。
目前材料领域的机器智能仅仅是其初级表现形式,其巨大潜力将随着机器智能的发展涌现出更多颠覆性成果,这是一个既未知又确定且不可阻挡的发展趋势。
规模化是材料智能研发的重要趋势。大数据、大模型、大平台的支持越来越关键。
①大数据。借助多样高效数据收集技术,可用于材料研发的数据规模越来越大,这使得建立大型化综合性多模态材料数据库,并利用人工智能和大数据技术挖掘复杂隐蔽的材料构效关系成为可能。
②大模型。未来材料智能研发将全面进入超大参数跨尺度多模态的大模型时代。模型的大型化将推动材料领域涌现出更多超越时代的认知,并基于此产生更高等级的机器智能,颠覆现有的材料研发技术和规则。
③大平台:虽然传统基座大模型的训练高度依赖超大规模算力支撑 (如Grok-3基础模型参数量达 1.8×104亿,单次训练需消耗 20 万颗H100芯片),且先进模型的开源程度长期受限,但DeepSeek系列模型的突破性进展正在改变这一范式。DeepSeek在保持顶尖性能的同时,实现了推理成本降低 96% (单次预测成本从 0.58 美元降至0.02 美元),并通过完全开源策略打破技术壁垒。尽管模型微调仍需一定规模的算力平台支持,但再训练成本的大幅降低,使得材料、制造等传统行业能以相对较低的门槛拥抱大模型技术红利。因此,整合并高效调度人力算力等资源,建立大型共性平台,是支撑未来材料智能设计的关键要素。
3.2 问题挑战
智能驱动的材料研发融合了前四代研发范式的核心要素——实验、计算、大数据,并在此基础上引入了人工智能带来的技术创新。此外,AI4MS 还将通过自适应机器学习模型、自动化实验平台,以及跨学科的集成方法,推动材料科学中的基础研究、应用研究和产品开发的深度融合与创新。智能驱动的材料研发虽展现出颠覆传统范式的潜力,但其发展仍面临多维度挑战。挑战既存在于技术层面,也涉及基础设施和人才体系等支撑环节,构成制约领域发展的复合型瓶颈。
1)数据困境:标准化壁垒与质量失衡
材料数据的有效利用是智能研发的基础,然而当前数据生态呈现高质量数据稀缺、实验标准化不足及跨领域数据融合困难的矛盾。传统“试错法”实验因流程复杂 (如多变量耦合、手工操作依赖) 导致数据产出效率低、可重复性差,而实验数据的手工记录与分散处理进一步加剧了数据标准化缺失,不同机构的数据格式、标注方式差异形成信息孤岛。尽管全球范围内部分国家和研究机构已经着手推进材料数据标准的制定,但现有规范在兼容性和覆盖面方面仍存在不足,难以满足复杂材料体系的可靠性需求,也使得数据的共享和复用变得更加困难。
2)算法瓶颈:物理约束与尺度鸿沟
人工智能算法在材料研发中的应用正面临“精度−效率−可解释性”的三重考验。传统物理模型 (如密度泛函理论) 的计算效率难以满足大规模体系需求,而现有机器学习势函数在非晶态材料、界面体系等复杂场景中的预测精度仍有待提升;跨尺度建模技术尚未突破关键理论障碍,微观原子行为与宏观性能之间的关联预测仍存在显著偏差。算法黑箱特性导致的决策逻辑缺乏物理解释性,这限制了业界对AI驱动研发方案的接受度,成为制约技术落地的重要障碍。
3)算力桎梏:硬件依赖与生态断链
在人工智能迈向大模型时代的进程中,算力已超越传统的生产力要素,成为国家科技竞争的战略性资源。算力即国力,是数字经济时代的新质生产力,动辄千亿参数大模型,亟需更大的AI算力集群训练。然而,中国算力体系建设面临三重困境:一是高端计算芯片自主供给能力薄弱,用于AI训练的高端图像处理器 (Graphics Processing Unit, GPU)国产化率不足,关键技术仍受制于人;二是异构计算生态尚未完善,国产算力平台在混合精度训练、分布式优化等关键技术的软件适配度远低于国际标杆,硬件性能严重折损;三是算力资源配置失衡问题突出,头部机构智算中心的峰值利用率不足,而中小型研发团队却普遍面临“算力饥饿”困境。这种结构性矛盾亟待通过顶层设计破解。
4) 人才断层:学科壁垒与代际失衡
人才储备的结构性矛盾正成为制约领域发展的隐性瓶颈。对于人工智能驱动的新材料研发从业人员,面临着跨学科知识融合的挑战。当下新材料研发是一个高度复杂和跨学科的领域,涉及物理、化学、工程、计算机、电子信息等多个学科,形成了交叉点即创新源的逻辑。研究人员通常专注于某一细分领域的深度研究,知识结构断层在具体研发中表现为“懂材料的不擅模型优化,精算法的不明物理机理”的协同困境。
4 对策建议
为突破上述瓶颈,需要构建涵盖基础设施、关键技术、组织模式和人才体系的系统化解决方案,形成“技术突破−生态建设−应用落地”的良性循环。
1)构建材料智能新基建,筑牢发展基石
基础设施的现代化建设是智能研发的先行条件。建议实施“三横三纵”基建工程:横向构建覆盖全国的分布式材料数据中心网络,整合现有分散材料数据库,建立统一的数据湖架构;纵向打造“计算−实验−决策”三位一体的智能平台,重点开发支持百万原子级模拟的计算引擎和多模态材料大模型。设立国家材料智能研发专项计划,投入百亿元专项资金,其中 40%用于自主可控智算网络建设,30% 支持高通量实验平台升级。同时,在长三角、粤港澳等创新高地建设3~5个国家级智能材料中试基地,缩短“实验室−生产线”的技术转化链条。
2)突破关键使能技术,攻克核心瓶颈
在技术攻关层面,需聚焦两大方向:数据技术方面,研制材料专用数据标准,融合设备接口标准,大语言模型与视觉语言模型的结合,为全流程智能化实验提供全新的解决方案,建立从数据采集、标注到应用的全程标准化体系;算法创新方面,机器学习化学势有望成为智能计算的关键突破口,通过物理化学原理与机器学习深度融合增强模型可解释性,为材料研发带来全新变革。构建融合图神经网络、Transformer 等先进架构的材料大模型,更精准地捕捉材料复杂体系中的内在关联。通过多模态数据融合技术,构建统一的数据表征空间,实现文本、图像、光谱等数据的无缝对接,为材料性能预测、工艺优化提供全方位信息支撑。此外,通过模型推理过程透明化(如标注思考步骤),有助于科研人员验证模型结论的合理性,避免黑箱风险。
在算力瓶颈方面,实施“算力扩张”与“算法优化”并举形式突破瓶颈。持续投入建设算力新基建,开发自主高端芯片,抵御国际市场波动风险;持续投入新算法开发,针对国产算力特性开发专用算法框架提高模型效率。 例如,DeepSeek-R1 的 GRPO 强化学习算法和 MoE 架构创新为破解算力瓶颈提供新思路。通过政策支持和企业共建推动算力−算法协同创新,以“软硬一体”模式突破算力天花板。同时,建立材料算法开源社区,鼓励高校、科研院所、企业共享优化后的轻量化模型。
3)创新研发组织范式,激活创新生态
传统线性研发模式已难以适应智能时代需求,亟需构建三角协同新范式。推动科研机构聚焦基础模型开发,借鉴Meta模式建设大模型开源社区,定期发布预训练模型基准 (如LLaMa、DeepSeekR1);引导龙头企业建立材料AI共性技术研究院,开展场景驱动的技术迭代;建立成果转化双向通道,建议国家科研项目的部分预算用于企业联合开发,并试点材料研发去中心化自治组织模式,在保障数据安全的前提下激活知识产权等要素流通。
4)完善人才培养体系,积蓄发展动能
人才梯队的结构性改革是破局关键。建议实施高级复合型人才培养计划:在双一流高校设立材料智能交叉学科,构建“材料本体 (30%) +AI算法 (40%) +工程实践 (30%) ”的课程体系,培养兼具专业深度与学科广度的复合型人才;推行产学研双导师制,建议企业首席技术官担任研究生联合导师,并将解决产业实际问题纳入学位论文评价指标;建立材料 AI 工程师认证体系,5年内培养数万名通过认证的专业人才。
5 结束语
当前全球材料创新格局的深度调整为中国实现技术跃迁提供了战略窗口。通过顶层设计的系统性响应——构建智能研发体系、突破自主技术体系、培育开放创新生态,将推动三重战略转型:从效率提升到原始创新,从被动适配到主动引领,从局部突破到系统赋能。这种转型既是应对复杂挑战的必然路径,更是把握智能时代材料科学主导权的关键抉择。
智能驱动的材料研发正引发科研范式的深层变革,其本质上是一场人类认知边界的革命性突破。当机器学习模型开始揭示超越经验直觉的材料规律,当自动化实验平台自主探索未知的组分空间,材料科学正经历着从人类经验外推向机器智能涌现的范式跃迁。面向未来,随着多模态认知与大科学装置的深度融合,材料研发有望进入智能增强发现的新纪元,而能否在这场变革中培育出引领性创新成果,将取决于对技术本质的深刻理解、对创新规律的精准把握,以及构建新型科研范式的远见与勇气。
作者:苏州国家实验室 温李阳 姚明佳 陈忻
暂无评论,等你抢沙发