基於深度强化學習的智慧調度和重構系統架構
訓練過程中目標值的下降曲線
近日,中國科學院瀋陽自動化研究所在車間智慧調度方面研究取得新進展,基於深度强化學習方法實現了動態訂單下可重構車間對動態生產調度和車間重構的實时優化和智慧決策,研究成果發表在International Journal of Production Research。
由於車間調度問題大多屬於NP難問題,傳統元啟發式演算法只能在多項式時間內求得近優解。對大規模問題,元啟發式演算法的求解時間難以滿足動態生產環境下實时決策的需求。另外,小批量定制化的生產模式,要求車間滿足動態可重構。如何對可重構車間的生產調度和車間重構進行實时優化和動態協同,是研究的難點。
科研人員基於深度强化學習方法,將生產調度和車間重構的決策過程建模為馬爾科夫決策過程,建立了調度和重構系統的深度强化學習模型,設計了獎勵函數、狀態空間和行為空間等。訓練後,決策智慧體在求解質量和求解時間上取得了比2種元啟發式演算法(反覆運算貪婪算灋和遺傳演算法)更優的結果。智慧體對單個工件的決策時間僅為1.47ms,可用於動態生產環境下可重構車間的實时優化和智慧決策。
該研究得到了國家自然科學基金和遼寧省自然科學基金專案的支持。