2023版科学智能(AI4S)全球发展观察与展望报告.pdf287页下载-19泥地

1.1什么是Al for Science (Al4S)

2023年这个夏天，全球遭受前所未有热浪、野火和洪水的极端天气攻击。面对这些挑战，英伟达采用A技术，构建名为地球2号的数字地球模型”，以更精确地预测这些极端事件。地球2号依赖于FourCastNet Al 模型，利用了数十TB的地球系统数据，能以数千倍速度提高预测准确性，预测未来两周的天气状况。与一般只能生成大约50种未来一周预测的天气预测系统相比，FourCastNet 能预测出成千上万种可能性，准确捕捉罕见而致命的灾难风险，从而给弱势群体争取宝贵的准备和疏散时间。

事实上，气象科学仅是受益于A发展的众多科学学科之一。A的出现正在带动科学研究的激动人心的转变，并且影响正在扩散到实验室之外，深入到我们所有人的生活中。如果我们能明智地采取行动，制定合适的监管措施，并适当支持A在解决科学最紧迫问题方面的创新应用，A就有可能彻底改变科学过程。

这样的愿景，我们称之为Al for Science 。我们期待一个由A驱动的未来，在这个未来，A工具可以解放我们从繁琐乏味和耗时的劳动中，同时引导我们进行创新性的发明和发现，促使本应需要几十年的突破提前实现。

近期，A的讨论几乎等同于大型语言模型(LLM)的讨论。随着GPT在各行各业的爆发，“是否能将LLM用于科研场景成为了一个水到渠成的问题。当ChatGPT 超越大部分人类在高考、SAT、美国法考、医考等领域取得令人咋舌的高分后，人们对于LLM驱动科研的兴趣愈发高涨。一方面，LLMs使得知识的提取和综合变得高效、便捷。通过解密和呈现复杂的科学信息，LLM大大降低了学者进入新领域的门槛，推动交叉学科的发展。另一方面，LLMs可以加速并改进知识贡献的过程。利用LLMs进行多步推理和决策的能力，研究人员可以在科学文献的迷宫般的广度中找到最相关的论文。同时，LLMs能提供语言方面的帮助，帮助构建逻辑叙述并确保连贯性，使得研究人能更从容的驾驭复杂的观点表述，从而促进世界范围科学的异步交流效率和规模。

然而，对Al for Science 的讨论远不止步于LLM在科学领域的应用。究其根本，LLM面向的是一维的字符串数据结构，而科学领域的数据类型纷繁多样，即有一维的基因序列，也有二维的分子图、三维的分子坐标、N维的波函数。因此，在具体的科学领域中，使用专门的模型架构很可能比使用基于LLM的迁移模型更为直接有效。在过去的十年中，科学领域的大部分进步都源自于针对特定问题的模型。最近，人们开始使用融合专业领域知识和深度学习预训练策略来构建更强大的领域专用模型。举例来说，McMaster 和MIT的科学家利用A模型成功识别出了一种抗生素，该抗生素能够对抗世界卫生组织认为是对住院患者最危险的抗生素耐药细菌之一的致病菌。谷歌DeepMing 的一个模型成功控制了核聚变反应中的等离子体，为清洁能源革命的到来更近一步。在医疗保健领域，美国FDA已经批准了523种使用A的设备，其中75%用于放射学。[1]

这些令人兴奋的研究，并不是无源之水，更不是“拿着锤子找钉子的A万能论。首先，将复杂的科学问题表述为0101的计算机语言本身就是极难的任务，需要能融合“基本原理与数据驱动的算法模型和软件系统。

不严谨的比喻一下，就是

我们有了打开科学大门的钥匙，却没有力气去把门推开”

而”推不动”的原因，就是”维度灾难”

“维度灾难是指在某些问题的求解中，随着维数的增加，计算代价会呈指数增长[2]。例如使用密度泛函理论(Density functional theory ,DFT)求解势函数的计算代价会随着体系规模的增加而指数增长[3]。因此密度泛函理论的方法虽然准确，但难以应用到大规模体系的问题求解中。

Pau Dira Picture credit: AIP Emilo Serae visua Archives

物理学中的基本原理不仅广泛适用，而且简洁优雅。

薛定谔方程就是一个很好的例子。不幸的是，正如前面所指出的那样，使用这些模型来解决实际问题是一项极其困难的任务。因此，寻求简化模型一直是物理学乃至所有科学领域的一个永恒的主题。然而，正如我们在湍流模型中所经历的那样，如果不采取经验近似，我们通常很难提出这样的简化模型。

机器学习即将大大提高我们开发这种物理模型的能力。这其实已经以三种不同的方式发生了。第一，它提供了可以帮助我们把多尺度建模的梦想变为现实的工具。这个工具正是以前缺乏的。第二，它提供了直接从数据开发模型的框架。第三，顺着数据同化的思路，它将提供一个整合物理模型与观察数据的非常强大的工具。

然而，拟合数据是一回事，构建可解释且真正可靠的物理模型则是另外一回事。让我们首先讨论可解释性的问题。众所周知，机器学习模型有着黑箱子的名声，这为使用机器学习来帮助开发物理模型带来了心理障碍。为克服这一障碍，首先我们需要注意到可解释性并不是绝对的。以空气动力学中的欧拉方程为例。这些方程本身具有很清晰的解释，因为它们仅代表质量，动量和能量的守恒。但是，能否解释状态方程的细节则是另外一回事。事实上，复杂气体的状态方程可能是由一些实验数据经样条插值得到的，它以一个子程序的形式呈现。我们并不真正关心这些样条函数的系数是否可解释。相同的原则应当也适用于基于机器学习的模型。我们的目标应该是：这些模型的基本出发点和基本结构是可解释的，这些模型中代表本构关系的一些函数的具体形式未必都得可解释。

现在来谈谈可靠性问题。理想情况下，我们希望基于机器学习的模型和普通物理模型(如纳维-斯托克斯方程)一样可靠。要做到这一点，有两点至关重要。第一点是基于机器学习的模型必须满足所有物理约束，例如来自对称性和守恒律的约束。第二点是，我们用于训练模型的数据必须能充分代表实际中遇到的所有物理状态。由于对数据进行标记几乎总是非常昂贵的，因此选择一个既尽可能地小又具有充分代表性的优质数据集是此类模型开发过程中的一个非常重要的组成部分。我们将在下一节中对此做更多阐述。