基於圖像特徵深度強化學習的AUV管道循管方法

對比檔案

CN 107748566 A,2018.03.02; CN 107102644 A,2017.08.29; CN 108594639 A,2018.09.28

李金龍.部分觀測馬爾可夫決策過程下的深海熱液自主探測研究.《中國優秀碩士學位論文全文資料庫基礎科學輯》.中國學術期刊（光碟版）電子雜誌社,2015,(第05期),第1-88頁.; B. Mao等.A Novel Non-Supervised Deep-Learning-Based Network Traffic Control Method for Software Defined Wireless Networks.《 IEEE Wireless Communications》.IEEE,2018,第25卷(第4期),第74-81頁.; John Schulman等.Proximal Policy Optimization Algorithms.《arXiv》.arXiv,2017,第1-12頁.; Runsheng Yu等.Deep reinforcement learning based optimal trajectory tracking control of autonomous underwater vehicle.《2017 36th Chinese Control Conference (CCC)》.IEEE,2017,第4958-4965頁.

專利摘要

本發明公開一種基於圖像特徵深度強化學習的AUV管道循管方法。首先，將AUV循管控制問題建模為連續狀態、連續動作的Markov決策過程；其次，控制策略抽象為AUV觀測狀態（攝像頭獲取的圖像）到運動動作的映射，並利用深度神經網路表達；最後，利用近端策略最佳化（PPO）方法自主採集數據並訓練深度神經網路，最終獲得具有一定泛化能力的端到端的循管控制策略。仿真結果表明，本發明能夠有效控制AUV的循管動作，而且對於新的和未知的管道幾何結構具有較強的泛化能力。該方法是一種端到端(end‑to‑end)的視覺循管運動控制方法，無需知曉AUV的運動學/動力學模型，也無需人工特徵提取。

基於圖像特徵深度強化學習的AUV管道循管方法

基本介紹

對比檔案

專利摘要

相關詞條

熱門詞條