在前面的章节中, 我们看到了一些使用物理残差作为软约束的重构示例, 采用的是变体 2 (PINN)的形式, 以及采用不同 iable 物理 (DP)求解器的重构。虽然两种方法都可以为类似的逆问题找到最小化方案, 但获得的解决方案差异很大, 从每个公式得到的非线性优化问题的行为也有很大不同。在下面, 我们更详细地讨论这些差异, 并将从{doc} physicalloss-code 和{doc} diffphys-code-burgers 的博格方程案例的行为中得出的结论与来自外部研究论文{cite} holl2019pdecontrol 的观察结合起来。

在前一节中,我们已经看到了使用物理残差作为软约束(变体2(PINNs)的形式)的重构示例,并使用了可微分物理(DP)求解器的重建。虽然这两种方法都能为类似的逆问题找到最小值,但得到的解却大相径庭,我们从每种表述中得到的非线性优化问题的行为也不尽相同。接下来,我们将更详细地讨论这些差异,并将结合从Burgers案例的行为中得出的结论Burgers Optimization with a Physics-Informed NNBurgers Optimization with a Differentiable Physics Gradient,以及来自外部研究论文的观察结果 [HKT19]。

9.1 与现有数值方法的兼容性

很明显,PINN 的实现非常简单,这是一个积极的方面,但与此同时,它与 典型的离散化和求解方法有很大不同,后者通常用于求解Burgers方程等 PDE。其导数是通过神经网络计算的,因此依赖于相当精确的解的表示,从而为优化问题提供一个良好的方向。

另一方面,DP 版本本质上依赖于与学习过程联系在一起的数值求解器。因此,它需要将要处理的问题离散化,并通过这种离散化采用现有的、潜在的强大数值技术。这意味着解法和导数可以以已知和可控的精度进行评估,而且评估效率很高。

9.2 离散化

对于适当离散化的依赖需要对所考虑的问题有一定的理解和知识。次优的离散化可能会阻碍学习过程,甚至最糟糕的情况是导致训练过程发散。然而,鉴于大量理论和实际稳定求解器在各种物理问题上的实现,这通常并不是一个无法克服的障碍。

另一方面,PINN方法不需要事先选择离散化,因此看起来是“无离散化”的。然而,这只是表面上的一个优势。由于它们在计算机中求解,它们自然必须对问题进行离散化。它们通过训练过程中的非线性优化来构建这种离散化,这个过程受到底层优化的限制,并且很难从外部进行控制。因此,结果的准确性取决于训练过程如何能够合理地估计问题的复杂性,并且训练数据如何逼近解的未知区域。

例如,正如在Burgers示例中所示,PINN解通常在时间上反向传播信息时存在显着困难。这与该方法的效率密切相关。

9.3 效率

PINN方法通常执行局部采样和解的修正,这意味着以权重更新的形式进行的修正通常也是局部的。在空间和时间上满足边界条件可能会相应地变慢,导致实际训练时间较长。

良好选择的DP方法离散化可以纠正这种行为,并提供改进的梯度信息流。同时,依赖计算网格意味着可以非常快速地获得解。给定一个插值格式或一组基函数,可以在计算网格的一个非常局部的邻域内的任何时空点采样解。最坏情况下,这可能导致轻微的内存开销,例如,通过重复存储解的大部分常数值。

另一方面,对于使用全连接网络的PINN表示,我们需要对整个网络中可能的大量值进行完整遍历,以获得单个点的解样本。网络实际上需要对完整的高维解进行编码,其大小也决定了导数计算的效率。

9.4 持续的效率

也就是说,由于DP方法可以涵盖更大的解空间,因此这些解空间的结构通常也难以学习。例如,当训练一个具有较多迭代次数(即对未来进行长期展望)的网络时,这通常代表着一个比短期展望更难学习的信号。

因此,这些训练过程不仅需要更多的计算资源来进行每个神经网络迭代,而且通常需要更长的时间才能收敛。关于资源,每次正向计算可能需要大量的仿真步骤,并且通常需要相似数量的资源用于反向传播步骤。因此,虽然它们在某些时候可能看起来代价高昂且收敛速度慢,但这通常是由需要学习的更复杂信号所引起的。

9.5 总结

下表总结了物理信息 (PI)和可微分物理 (DP)方法的这些优缺点:

方法✅ 优点❌ 缺点
PI通过反向传播解析导数。评估神经网络非常昂贵, 导数计算代价极其高昂。
实现简单。与现有数值方法不兼容。
对离散化过程无法控制。
DP利用现有数值方法。实现较复杂。
求解模拟和导数计算效率高。需要对问题有一定了解以选择合适的离散化格式。

总之,这两种方法都非常有趣,并且具有很大的潜力。有许多更复杂的扩展和算法修改可以改变和改进我们讨论过的两种方面的缺点。

然而,就目前而言,基于物理的方法在性能和与现有数值方法的兼容性方面存在明显的局限性。因此,当我们了解所处理问题的知识时,通常情况下我们会选择一个适当的偏微分方程模型来约束学习过程,采用可微分的物理求解器可以显著改善训练过程以及获得的解的质量。因此,在接下来的内容中,我们将重点关注不同DP求解器的变体,并在下一章中用更复杂的场景来说明它们的能力。首先,我们将考虑一种非常高效地计算瞬态流体模拟的时空梯度的情况。