節點運行模式狀態自適應的自組織型排隊網路研究

項目摘要

隨著物聯網等網路技術的快速發展和廣泛套用，自組織型排隊網路最佳化問題作為一類新型的排隊網路問題，其學術和套用價值日益重要。本項目擬研究一類節點（服務台）具有多種運行模式、顧客傳送路徑和網路結構均具有自組織特性的排隊網路控制問題。把該問題抽象為一類新型的多目標嵌套式半馬爾可夫決策過程，再基於耦合式增強學習架構構建控制決策模型，並採用結合支持向量機函式泛化器的自適應步長增強學習算法來求解，獲得集成網路節點運行模式自適應調整策略、路徑選擇策略和顧客傳送排序策略於一體的控制策略。研究的主要價值在於提出嵌套式半馬爾可夫決策過程的概念、增強學習算法的自適應學習步長調節機制，並為一類自組織型排隊網路提供同時最佳化加權平均流程時間、網路運行成本等多個目標的整體最佳化方案。通過開展本項目以期豐富自組織型排隊網路控制領域的理論方法和套用研究。

結題摘要

隨著物聯網等網路技術的快速發展和廣泛套用，自組織型排隊網路最佳化問題作為一類新型的排隊網路問題，其學術和套用價值日益重要。本項目研究一類節點具有多種運行模式、顧客傳送路徑和網路結構均具有自組織特性的排隊網路控制問題。把該問題抽象為一類新型的多目標嵌套式馬爾可夫決策過程，再基於耦合式增強學習架構構建控制決策模型，並採用結合支持結合函式泛化器的增強學習算法來求解，獲得集成網路節點運行模式自適應調整策略、路徑選擇策略和顧客傳送排序策略於一體的控制策略。本研究的主要創新和科學意義在於：（1）提出一類新型的馬爾可夫決策過程（嵌套式馬爾可夫決策過程的概念），證明其收斂性等性質並提出分解值疊代算法（DVIA）、線性規劃方法兩種求解方法，獲得比使用傳統的馬爾可夫決策過程求解方法更高的求解效率。（2）研究了轉換時間和服務時間服從一般分布的多類顧客多服務台並聯的排隊控制問題，通過理論推導分析了其狀態轉移機制，獲得狀態轉移機率和狀態逗留時間的解析公式。（3）提出面向節點模式自適應控制的自組織型排隊網路線上控制問題的平均報酬型瞬時差分算法，該算法可用於解決轉移機率未知的嵌套式馬爾可夫決策過程，為解決節點多模式的大規模自組織型排隊網路控制問題提供精細化的解決方案。DVIA算法每次疊代需要掃描比較的行為數量為所有維度的行為之和，而求解馬爾可夫決策過程的經典值疊代算法（VIA）每次疊代需要掃描比較的行為數量為所有維度的行為之積。實驗結果表明，DVIA算法的疊代次數和VIA算法差別不大，DVIA算法的狀態值函式的收斂速度比VIA算法快，DVIA算法的效率明顯高於VIA算法。實驗結果表明，面向自組織型排隊網路線上控制問題的平均報酬型瞬時差分算法隨著學習進程其平均狀態值是收斂的；當通過網路的顧客數量大於一定值時控制目標函式值處於較為穩定的狀態，該算法通過學習將綜合流程時間和成本的目標函式值減少了17.5%～32.6%；這表明增強學習系統通過學習獲得最佳化的排隊網路控制策略。

節點運行模式狀態自適應的自組織型排隊網路研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條