商简智能学术成果|基于深度强化学习的联想电脑制造调度（Lenovo Schedules Laptop Manufacturing Using Deep Reinforcement Learning）

这篇具有很好参考价值的文章主要介绍了商简智能学术成果|基于深度强化学习的联想电脑制造调度（Lenovo Schedules Laptop Manufacturing Using Deep Reinforcement Learning）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

获取更多资讯，赶快关注上面的公众号吧！

本篇论文作为商简智能的最新研究成果，发表于运筹学顶刊《INFORMS JOURNAL ON APPLIED ANALYTICS》，首次将深度强化学习落地于大规模制造调度场景，该先进排程项目入围国际运筹学权威机构INFORMS运筹学应用最高奖——Franz Edelman Award，并作为制造业企业技术转型典型案例被人民日报等多家媒体广泛报道。

商简智能学术成果|基于深度强化学习的联想电脑制造调度（Lenovo Schedules Laptop Manufacturing Using Deep Reinforcement Learning）

第一作者梁翼，商简智能CEO兼CTO，人工智能、运筹优化算法专家，取得浙大竺可桢学院物理学学士、McMaster理论物理硕士、University of Alberta高能物理学博士，为中国科学院大学博士后。在高能物理、人工智能等领域发表论文十余篇，平均引用率>15。曾任联想研究院AI lab首席算法研究员，专注于人工智能在制造业的应用。

商简智能学术成果|基于深度强化学习的联想电脑制造调度（Lenovo Schedules Laptop Manufacturing Using Deep Reinforcement Learning）

摘要

联想研究院与联想最大电脑制造工厂联宝科技LCFC的运营组成员合作，采用基于深度强化学习架构的决策支持平台替代传统的手动生产调度。该系统可以调度工厂内所有43条装配制造线的生产订单，均衡产量、换型成本和订单交付率的相对优先级，利用深度强化学习模型求解多目标调度问题。该方法将高计算效率与一种新的掩码机制相结合以保证运行约束，从而避免机器学习模型将时间浪费在探索不可行解。通过使用该新模型，改变了原有的生产管理流程，使得生产订单积压减少了20%，交付率提升了23%。还将整个调度过程从6小时缩短到30分钟，与此同时保留了多目标的灵活性，使工厂能够快速调整以适应不断变化的目标。该项研究工作在2019年和202年分别为工厂提升了19.1亿美元和26.9亿美元的收入。

背景介绍

联想合肥工厂LCFC是联想最大的电脑制造厂，其有4个制造工厂和43条装配生产线，平均每天大约接收5000个电脑订单，占据联想电脑生产的一多半和至少全球电脑的八分之一。这些电脑包含20多个产品系列和550个产品型号。在生产之前，这些订单会被分解成生产工单（MO），一个订单可包含数千台电脑，每个工单中的电脑具有相同的型号和相近的承诺发货日期。

电脑生产过程大致可以分为三个阶段：

第一阶段：主板的生产由表面装配技术车间负责。这一阶段，生产以自动执行为主，稳定性高，不需要人为干预；
组件车间完成生产的第二阶段，工人们将笔记本电脑的外壳与显示器和键盘连接起来；
第三阶段即装配阶段，组装笔记本电脑的内部部件。这一阶段最耗时和最不稳定，需要大量的人工干预，因此该阶段的效率通常是整个制造过程的瓶颈。

第三阶段，根据工单将半成品和备件分配到43条产线，在这些产线上，工人依次处理每个工单，即当前工单完成装配后下一工单才能开始。特定电脑型号的组装效率可能因分配的生产线的不同而有所不同。每小时的产出（Unit-per-hour，UPH）矩阵表达了产品与产线的对应效率。UPH很容易受员工出勤率波动、生产线的机器状态以及工具和材料的可用性影响而变化。每个工单对应一个工件，如图1所示，工单4从产线B移动到产线A，因为UPH变大，所以生产时间变短。而且，工单在每条产线上的排序会严重影响总生产时间。
商简智能学术成果|基于深度强化学习的联想电脑制造调度（Lenovo Schedules Laptop Manufacturing Using Deep Reinforcement Learning）

当产线切换生产不同的型号时，会导致换型成本，通过合理的工单分派可以提升调度性能。考虑到生产线的数量和调度订单量，优化问题在计算上很难解决。因此第三阶段的装配段管理是所有联想工厂生产管理的重点和最具挑战性的部分。

传统方法无法解决现有挑战

在联想，基于人类经验和判断的生产调度需要数小时的工作时间。由于生产资源供应的波动性，当今现代制造业企业面临着巨大的压力。因此，联想需要一个具有以下特点的生产管理系统:

能够解决大规模调度问题。对于联想这样生产越来越复杂的企业来说，一个工厂必须能够每天处理多达数万个订单；
快速反应能力。供应端的波动性要求生产调度系统快速响应组件供应的变化。联想之前的调度流程，是基于计划人员的经验和判断，无法及时、充分地应对供应端的变化；
更优的KPI绩效。可以同时优化总产量、订单交付率、换型成本等；
多标准优化目标的灵活配置能力。从机械工作中解放出来后，计划人员有更多的时间进行战略工作。他们可以通过与系统交互，积极参与决策过程;例如，他们可以配置KPI阈值和设置优化目标的相对优先级(权重)。这对于建立规划人员对系统的信任至关重要，通过该工作流程提高他们的工作满意度，并提高调度过程的效率。

传统方法很难满足这样的需求。传统方法分为精确方法和近似方法。精确方法如分支定界和割平面法，追求全局最优解，仅限于解决小规模问题。为了解决大规模问题，传统的解决方案开发人员通过基于规则或启发式的方法来寻求近似最优解。但是，有些近似方法如禁忌搜索/路径重链接在中小规模问题集上表现良好，但在解决大规模问题时往往太慢，无法满足快速响应时间的需求。其他可以在合理时间内解决大型和小规模问题的近似方法通常在KPI优化方面表现不佳。在处理多目标优化问题时，响应速度和解决方案质量之间的冲突比使用传统方法时更加明显。综上所述，传统方法的这些缺陷给联想供应链管理带来了相当大的挑战。

解决方案

为了应对这些挑战，将**生产线计划问题（production line planning problem，PLPP）**问题建模为马尔科夫决策过程（MDP）。

假设一个工厂具有 $K$ 条产线和 $N$ 个工单，该生产调度问题对应的MDP可以表示为 $\left\{\mathbf{X}_{\mathbf{t}}, \mathbf{A}, \mathbf{P}, \mathbf{R}\right\}$ 文章来源地址https://www.toymoban.com/news/detail-487268.html

到了这里，关于商简智能学术成果|基于深度强化学习的联想电脑制造调度（Lenovo Schedules Laptop Manufacturing Using Deep Reinforcement Learning）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！