《基於圖像特徵深度強化學習的AUV管道循管方法》是大連海洋大學於2018年9月29日申請的專利,該專利公布號為CN109407682B,專利公布日為2021年6月15日,發明人是林遠山、王芳、於紅、常亞青、崔新忠、劉亞楠、孫聖禹、呂澤宇、宋梓奇、曹凱惠。
基本介紹
- 中文名:基於圖像特徵深度強化學習的AUV管道循管方法
- 授權公告號:CN109407682B
- 授權公告日:2021年6月15日
- 申請號:201811143861X
- 申請日:2018.09.29
- 專利權人:大連海洋大學
- 地址:116023遼寧省大連市沙河口區黑石礁街2-52
- 發明人:林遠山; 王芳; 於紅; 常亞青; 崔新忠; 劉亞楠; 孫聖禹; 呂澤宇; 宋梓奇; 曹凱惠
- Int. Cl.:G05D1/06(2006.01)I
- 專利代理機構:大連非凡專利事務所21220
- 代理人:閃紅霞
對比檔案,專利摘要,
對比檔案
CN 107748566 A,2018.03.02; CN 107102644 A,2017.08.29; CN 108594639 A,2018.09.28
李金龍.部分觀測馬爾可夫決策過程下的深海熱液自主探測研究.《中國優秀碩士學位論文全文資料庫 基礎科學輯》.中國學術期刊(光碟版)電子雜誌社,2015,(第05期),第1-88頁.; B. Mao等.A Novel Non-Supervised Deep-Learning-Based Network Traffic Control Method for Software Defined Wireless Networks.《 IEEE Wireless Communications》.IEEE,2018,第25卷(第4期),第74-81頁.; John Schulman等.Proximal Policy Optimization Algorithms.《arXiv》.arXiv,2017,第1-12頁.; Runsheng Yu等.Deep reinforcement learning based optimal trajectory tracking control of autonomous underwater vehicle.《2017 36th Chinese Control Conference (CCC)》.IEEE,2017,第4958-4965頁.
專利摘要
本發明公開一種基於圖像特徵深度強化學習的AUV管道循管方法。首先,將AUV循管控制問題建模為連續狀態、連續動作的Markov決策過程;其次,控制策略抽象為AUV觀測狀態(攝像頭獲取的圖像)到運動動作的映射,並利用深度神經網路表達;最後,利用近端策略最佳化(PPO)方法自主採集數據並訓練深度神經網路,最終獲得具有一定泛化能力的端到端的循管控制策略。仿真結果表明,本發明能夠有效控制AUV的循管動作,而且對於新的和未知的管道幾何結構具有較強的泛化能力。該方法是一種端到端(end‑to‑end)的視覺循管運動控制方法,無需知曉AUV的運動學/動力學模型,也無需人工特徵提取。