想知道哪些RL技术用在了增材制造中，不妨看下这篇文章

机器之心分析师络

0 引言

我们在这篇文章中讨论一个加工制造领域的问题：增材制造（Additive Manufacturing，AM）。增材制造（Additive Manufacturing，AM）俗称 3D 打印（3D Printing），是一种融合了计算机辅助设计（Computer-aided design，CAD）、材料加工与成型技术，以数字模型文件为基础，通过软件与数控系统将专用的金属材料、非金属材料以及医用生物材料，按照挤压、烧结、熔融、光固化、喷射等方式逐层堆积，制造出实体物品的制造技术[1]。相对于传统的减材制造（Subtractive Manufacturing）技术，增材制造是现代工业范式的一种有效的数字方法，已经在全世界范围内得到了广泛的关注。增材制造通过离散 – 堆积使材料逐点逐层累积叠加形成三维实体，具有快速成形、任意成型等特点。

通过利用 3D 计算机辅助设计模型逐层累积叠加制造物体，增材制造具有以下优点[2]：（1）它能创造出具有复杂形状的产品，例如拓扑优化结构，这些产品利用传统的铸造或锻造工艺是很难实现的；（2）它可以用于生成材料的新特性，如位错络（dislocation networks）[2]，这对于学术研究人员来说是非常有意义的；（3）它能够减少材料浪费，能够为工业生成节省成本。不过增材制造本身还存在一些问题，与传统的通过减材制造技术生成的铸造和锻造零件中出现的缺陷不同，AM 零件中存在的缺陷包括：由于缺乏融合和气体夹带而产生的孔隙，相对于印刷方向的垂直和平行方向的严重各向异性的微观结构，以及由于高冷却速度和大温度梯度的巨大残余应力而导致产生的变形等。因此，更好地理解粉末的冶金参数、印刷工艺以及 AM 零件的微观结构和机械性能之间的复杂关系至关重要，也是推广应用增材制造技术的关键。

增材制造涵盖了多种成形方式，有激光增材制造（Laser Additive Manufacturing，LAM ）、电子束增材制造（Electron beam additive manufacturing，EBM）以及电弧增材制造（Wire Arc Additive Manufacture，WAAM）等粉末床熔成型（Powder Bed Fusion ，PBF）方法，还有黏合剂喷射（Binder jetting，BJ）、熔融沉积式 （Fused Deposition Modeling，FDM）材料挤出成型方法等。其中，LAM 是目前应用比较多的工艺，已经应用于一些结构复杂、尺寸较小、表面精度高的零部件打印中。但是，一些定制大尺寸、强度高的零部件不适于用 LAM 成形。针对这些更大型、性能要求更高的零部件，WAAM 则是首选。作为示例，具体的粉末床熔成型 AM 技术路线分类图如图 1 所示[4]。

图 1. AM 技术分类[4]

我们在这篇文章中，并不具体探讨 AM 技术中存在的问题与改进方式，而是聚焦于强化学习（Reinforcement Learning）在 AM 中的应用。近年来，强化学习已经成为解决相对高维空间中复杂控制场景的一种有效方法，并应用于不同的场景中。其中，深度强化学习（Deep RL，DRL）是一种深度学习方法，它通过收集模拟环境中的经验和反馈，反复改进最初的随机控制策略。强化学习算法在解决未知工艺参数和动态变化的条件方面显示出巨大的优势，因为它们能够利用更丰富的信息来告知决策过程。在增材制造领域中，RL 也可用于构建复杂的控制策略以解决缺陷形成问题，以及多材料复合过程的过程质量监控、学习 – 纠偏、多设备调度等问题。

我们根据三篇近期发表的论文一起来了解增材制造中的强化学习。其中，第一篇文章针对原位工艺学习和控制问题，提出了一种基于模型的强化学习与矫正框架。该框架可以应用于机器人电弧增材制造的过程控制，以使得打印零件具有更好的表面光洁度和更多的近净形状（near-net-shape）的输出[5]。第二篇文章提出了一种提高激光粉末熔床产品质量的深度强化学习方法。通过迭代优化策略络以最大化熔化过程中的预期奖励，可通过近端策略优化（Proximal Policy Optimization，PPO）算法生成能够减少缺陷形成的控制策略[6]。第三篇文章主要是使用光纤布拉格光栅（fiber Bragg grating，FBG）作为声学传感器对 AM 过程进行现场和实时监测，并使用强化学习（RL）进行数据处理，是 RL 在 AM 现场监测中的应用[7]。

1 基于模型的强化学习与校正框架在机器人电弧增材制造过程控制中的应用[5]

1.1 背景介绍

为了解决 MLMB 打印的单道模型不准确性问题，研究人员引入了基于视觉的复杂控制方法，通过实时调节工艺参数和沉积，以提高打印输出的质量。然而，实施这样的反馈控制需要开发一个复杂的在线监测系统，由于存在高强度焊接电弧，该系统容易出现噪声和不准确的情况。此外，还可以通过层间铣削（inter-layer milling）来达到所需的表面平整度。但是这种混合制造方法由于混入了传统的减材制造工艺，会造成时间和材料的浪费，从而影响了 WAAM 制造工艺本身的成本效益和优势。

1.2 基于模型的强化学习方法介绍

根据强化学习理论，时间步骤 t 内的 agent 状态为 s_t，采取某些动作 a_t 后，会得到奖励 r_t=r(s_t,a_t)，并根据未知的动态函数 f:SxA→S 转换到下一个状态 s_t+1。强化学习的目标是在每个时间步骤中学习一个策略，该策略能够使 agent 采取使未来奖励总和最大化的动作。上述方法可以在已知和未知环境动态模型的情况下实现，分别称为基于模型（model-based）和无模型（model free）的 RL，每一种方法都有自己的优点和缺点。

在基于模型的 RL 中，使用系统动态模型来进行预测，随后使用该模型进行动作选择。令 ^f_θ表征学习到的离散时间动态函数。通过解决优化问题，可以确定未来 H 个时间步骤的动作：

动态函数 ^f_θ可以通过交替收集 N 个新的数据点和使用汇总的数据重新训练模型来迭代学习，以减弱噪声，从而提高模型的预测性能。

1.3 综合学习校正框架介绍

1.3.1 第一次迭代初始化

1.3.2 学习动态函数

其中，n_t 表示每个时间步骤（层）t 的 agents 的数目。agent 可以在每个时间步骤中进入和离开（即被更新），以适应打印复杂几何形状的层间打印路径的变化。

GPR 模型是根据观察到的输入 – 反应对 (X, Y) 构建的。该模型根据输入空间中的评价点的定位，预测未评价的输入 X 的反应 Y。假定观察到的和未观察到的反应（Y 和 Y），都具有有限维的高斯分布。基于贝叶斯定理，高斯分布 P 表示为

其中，平均值的集合，μ，可以用多项式回归模型βH 表示，H 是一组设计参数的基础函数，可以采取任何顺序，β是相应的系数向量，其先验为高斯β~GP(b,B)。最优预测为：

预测方差为：

基于 Kriging 模型，我们可以学习一个动态函数，预测在动作 a_t 下 agent 的状态 s_t 的变化，即：

其中，学习过程使用的是累积的训练数据集 D_T。

1.3.3 目标描述

其中，l 表征打印下一层后的预期打印高度增量。

1.3.4 奖励函数和策略

奖励函数是这样制定的：如果 agent 选择了预计会导致偏离预期目标状态的动作时，就会受到惩罚。agent 得到的奖励是来自所学动态函数的预测σ_θ的预测标准偏差的加权 k 值，以鼓励 agent 进行小范围内的探索，特别是在最初的学习迭代过程中。每个 agent i 的奖励函数定义为：

此外，在奖励函数中也纳入 agent 当前的高度状态(s^z)_i,t，因此鼓励每个 agent 选择实现下一个目标状态的动作，同时纠正自己当前与上一个目标状态的偏差。根据奖励函数，每个 agent i 会根据贪婪策略选择奖励最大化的行动，即

Algorithm 1 总结了用于 WAAM 的现场工艺研究和控制的基于模型的并行强化学习方法。在打印一个全新的零件但继续学习的情况下，第 1 行和第 2 行可以省略。

1.4 实验环境设置

图 4. 新加坡科技设计大学（SUTD）开发的机器人 WAAM 系统

1.5 实验结果分析

图 6. 单道研究的照片，与分析的点云叠加以提取数据

1.5.1 青铜材料

图 7. 基于 agent 的本地状态选择的动作示例

1.5.2 不锈钢材料

图 9. 打印输出不锈钢扭锁销的零件

1.5.3 定量分析

为了进一步定量比较打印零件的表面均匀性，利用表面扫描输出计算每个打印层的表面高度的标准偏差（STD），青铜材料的数值见图 10，不锈钢打印品的数值见图 11。从图中可以看出，使用推荐的单道参数打印的层的表面高度的标准偏差随着两种材料的打印高度的垂直发展而有增加的趋势。

图 10. 使用学习校正框架打印的青铜材料层表面光洁度的标准偏差（STD）与单道研究的推荐参数之间的比较

图 11. 使用学习校正框架打印的不锈钢层表面光洁度的标准偏差（STD）与单道工艺推荐参数之间的比较

2 基于深度强化学习的激光粉末床熔的热控制方法[6]

2.1 工艺背景介绍

在传统的应用中，通常通过引入经典的优化方法制定控制策略以减少机械缺陷的发生。然而，这些方法要求模型的阶数较小，并且考虑到计算费用，它们能够处理的数据量也受到限制。此外，一些统计方法也被用来优化 AM 工艺，如方差分析（analysis of variance）和响应面方法（response surface methodology）等，这些数据驱动的方法由于缺乏对物理环境的感知而受限。当然，陆续已有一些更高级的分析、优化方法不断引入 LPBF 问题中。

2.2 方法介绍

2.2.1 仿真描述

(2.1)

其中，D 表征热扩散性，Θ根据密度和热容量对热源 Q 归一化。该过程相关参数列于表 1。当公式（2.1）使用无限介质中热传导的 Green 函数进行求解时，生成公式（2.2），公式（2.2）具体描述了温度场 T(x, t)。进一步，公式（2.2）可以被分解为对温度解决方案的两个独立贡献，第一项代表热源的作用，第二项代表热扩散过程：

(2.2)

热源的作用可以用 Eagar-Tsai 的传导解决方案来模拟，使用图像法来实现边界条件：

(2.3)

应用如下 Green 函数：

(2.4)

热源可以被参数化为一个在板块表面移动的高斯分布：

(2.5)

其中，A 是材料的吸收率，P 是激光的功率，V 是激光的速度，σ是激光的直径。由此得到瞬态热传导的 Eagar-Tsai 模型（公式（2.4）），表征在 X 方向速度为 V 的某个Δt 的移动热源所引起的温度分布：

(2.6)

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

想知道哪些RL技术用在了增材制造中，不妨看下这篇文章

相关推荐