《受約束的連續時間馬爾可夫決策過程》是張蘭蘭著論文。
基本介紹
- 中文名:受約束的連續時間馬爾可夫決策過程
- 論文作者:張蘭蘭
- 導師:郭先平
- 學科專業:機率論與數理統計
《受約束的連續時間馬爾可夫決策過程》是張蘭蘭著論文。
受約束的連續時間馬爾可夫決策過程 《受約束的連續時間馬爾可夫決策過程》是張蘭蘭著論文。副題名 外文題名 論文作者 張蘭蘭著 導師 郭先平指導 學科專業 機率論與數理統計 學位級別 博士論文 學位授予單位 中山大學 學位授予時間 2008 關鍵字 馬爾可夫過程 隨機過程 決策 館藏號 C934 館藏目錄 2010\C934\1 ...
馬爾可夫過程(Markov process)馬爾可夫過程也被稱為連續時間馬爾可夫鏈,是馬爾可夫鏈或離散時間馬爾可夫鏈的推廣,其狀態空間是可數集,但一維指數集不再有可數集的限制,可以表示連續時間。馬爾可夫過程與馬爾可夫鏈的性質是可以類比的,其馬爾可夫性質通常有如下表示: 由於馬爾可夫過程的狀態空間是可數集,在連續時間...
連續時間決策過程 連續時間決策過程(continuous time decision process )是2016年公布的管理科學技術名詞。定義 決策時間連續的決策過程。出處 《管理科學技術名詞》第一版。
整個過程不是馬爾可夫語,即不記憶,如在連續時間馬爾可夫鏈/過程(CTMC)中發生的。 相反,這個過程只是在指定的跳躍時刻的馬爾科夫。 這就是半馬爾可夫這個名字的由來。 (另見:半馬爾可夫模型)。2.所有保持時間指數分布的半馬爾可夫過程(在上述項目符號中定義)稱為CTMC。 換句話說,如果到達之間的時間是指數分...
第1章簡介離散和連續時間馬爾可夫鏈的經典理論,突出了有限狀態的馬爾可夫鏈與矩陣理論之間的關係,介紹了一些可用於求馬爾可夫鏈平穩分布的解線性系統的經典疊代方法,然後給出隱馬爾可夫模型和馬爾可夫決策過程的基礎理論和算法.第2章討論如何用連續時間馬爾可夫鏈對排隊系統建模,以及如何利用離散時間馬爾可夫鏈計算在...
馬爾科夫過程是系統狀態隨時間連續發生變化的隨機過程,並且未來狀態僅依賴於當前狀態而與過去狀態無關。這一特性為研究系統可靠性、可信性和安全性提供了基本框架。目前有多種類型的馬爾科夫過程,其中半馬爾科夫過程中,兩種狀態轉移之間的時間問隔是一個隨機變數,隨轉移狀況的變化而變化。為了便於更好地理解MA,需要...
1921年秋天,馬爾科夫的病情開始嚴重起來,他只得離開心愛的大學。在生命的最後一年裡,他還抓緊時間修訂了《機率演算》。1922年7月20日,這位在眾多數學分支里留下足跡和為科學與民主事業奮鬥了一生的老人辭別了人世。馬爾科夫的遺體被安葬在彼得堡的米特羅方耶夫斯基公墓,他的墓碑沒有過多的修飾,就象他的文章和...
決策過程是從提出問題、確定目標開始,經過方案選優、作出決策、交付實施為止的全部過程。這一過程強調了決策的實踐意義,明確決策的目的在於執行,而執行又反過來檢查決策是否正確、環境條件是否發生重大的變化,把決策看成是“決策——實施——再決策——再實施”的整個過程。所謂再決策就是追蹤決策。即在實施過程中...
無論採用哪種方式,都是以程式為基礎、為線索,這可以提高決策的可操作性,同時也提高了決策的準確率、最佳化度。節約決策時間 時間就是效益,在當今社會已成為共識。決策者的首要任務就是決策,而決策具有很強的時效性,如何節約時間,儘快做出決策是每個決策者必須考慮的問題,在信息爆炸的時代,每一項決策都需要收集...
業務決策亦稱“日常管理決策”。日常生產經營活動中為更好地執行管理決策和提高日常業務工作效率所作的一系列決策的統稱。大多是重複發生的,具有一定確定性的程式化決策。如定額的制定,生產任務的分配,人力、物資的調度,設備維修等。業務決策往往是和作業控制結合進行的,對於短期目標,業務決策比戰策決策具有更大的...
區位決策也即決策主體(又稱區位決策單位)的區位選擇過程。在一定的經濟空間中,各區位所處的地位不同,其區位因素各異從而其市場、成本、技術、資源約束不同。為追逐最大化經濟利益,各決策主體將根據自身的需要和相應的約束條件選擇最佳的區位,這就是區位決策。簡介 企業 企業作為經濟活動的一種主體,必然要占據...
The 團體作為一個整體為決策負責,決策屬於團體。(2)使用彩色卡片 一些共同社區也使用共識決策取得了好的效果。在en:cohousing團體中,很多情況下,事務必須在時間約束下辦理。因此效率是很重要的。如果團體真誠地希望通過共識進行決策,就需要一種有效的辦法。一個開放的討論需要在一個過程的推動下進行,這個過程很快...
成本決策不僅是企業經營決策的重要組成部分,也是巨觀管理決策的重要內容。諸如生產布局、廠址選擇、產品結構最佳化等均存在巨觀成本決策問題。進行成本決策,一般需要 掌握這樣幾條原則:以提高經濟效益和社會效益為中心,劃清可控因素和不可控因素,分析方案中各種約束條件;遵守成本效益原則;做到決策及時。簡介 成本決策是指...
技術創新決策是技術與客戶需求相匹配的產物。匹配的好壞,標誌著技術創新決策的優劣,直接關係到技術創新的成敗。如日本為了搶占高清晰度電視機市場,以模擬電視技術為基礎來研究,用了20年時間,投資16億美元,結果所有的努力都付之東流,因為日本的產品與美國的全數位技術生產的高清晰度電視機相比,技術檔次和質量水準...
採用連續時間馬爾可夫過程模擬建築群落災後功能恢復過程;該模型把影響建築功能恢復過程的時間分為三部分(即建築維修前的準備時間、維修/重建時間、和基礎設施供給恢復時間)。這些時間組成本質上反映了建築維修和重建的工程實踐經驗,以及城市區域的社會經濟條件、救災資源和能力、政策規劃等客觀條件[Lin & Wang, 2017a,...
二、馬爾可夫過程和馬爾可夫鏈 三、馬爾可夫鏈的例子 四、平衡狀態和極限狀態 第二節 首次到達分析 一、吸收狀態 二、首次到達機率 三、吸收機率 四、狀態的分類 第三節 馬爾可夫鏈的套用 一、有利潤的馬爾可夫鏈 二、馬爾可夫鏈決策問題 第四節 時間連續的馬爾可夫過程 一、基本概念 二、柯爾莫哥洛夫-貝克...
Berman 和 Odoni、Berman和 LeBlanc研究了行程時間狀態隨馬爾可夫狀態轉移矩陣變化的多設施選址問題。Mirchandani研究了行程時間、供應與需求模式都是隨機變化的條件下的 P-中位問題和無容量限制固定費用的倉庫選址問題。Daskin在研究EMS車輛選址問題時,研究考慮運輸車輛繁忙機率的最大覆蓋期望問題。ReVelle 和 Hogan在集...
(二)隨機控制方法以狀態的連續統(continuum)表示不確定狀態,連續統的特徵以少量服從聯合馬爾可夫過程的狀態向量描述 。Brennan et al.分析了可以在債券、股票和現金方面投資的投資組合問題,假定有三個狀態變數影響期望資產回報的時間變化,這三個變數即短期利率(r)、長期債券利息率(l)及股票資產組合分紅收益(δ)...
馬爾可夫過程 平穩過程 鞅 布朗運動 獨立增量過程 三、數學的發展及套用 數理統計 發展簡史 統計的定義 古典機率模型:隨機樣本統計 統計推斷 統計預測 統計決策 數理統計分支學科 數理統計的套用 運籌學 數學規劃 線性規劃 非線性規劃 無約束最佳化方法 約束最佳化方法 多目標規劃 動態規劃 圖論與網路最佳化 一筆畫和郵遞...
11.4 馬爾可夫決策問題 156 11.5 無限時域問題 161 11.6 小結 162 11.7 參考資料 162 11.8 練習 163 第12章 路線規劃—B 166 12.1 線性二次型高斯問題 166 12.2 有噪聲觀測時的線性二次型高斯問題 169 12.3 部分可觀測的馬爾可夫決策問題 171 12.4 小結 173 12.5 參考資料 174 12.6 ...
4.1 連續隨機變數的熵 4.1.1連續隨機變數的離散化 4.1.2連續隨機變數的熵 4.1.3連續隨機變數差熵的性質 4.1.4連續隨機變數集的相對熵 4.2 離散時間高斯隨機變數的熵 4.2.1一維高斯隨機變數的熵 4.2.2多維獨立高斯隨機矢量的熵 4.2.3多維相關高斯隨機矢量的熵 4.2.4高斯馬爾可夫過程的熵率 4....
自1957年提出動態規劃原理及1960年出現馬爾可夫決策方法後,最佳化思想在水庫水電站調度領域大規模興起。在離散精度足夠高的前提下,動態規劃模型能夠得到最佳化調度的全局最優解。但是隨著模型中水庫個數的增加,動態規劃面臨著嚴重的“維數災”問題,給求解帶來了很大障礙。此後誕生了許多改進方法,如動態規劃逐次逼近(DPSA)...
272 10.3.1 時間 273 10.3.2 流和對象 275 10.4 精神對象和模態邏輯 275 10.5 類別的推理系統 278 10.5.1 語義網路 278 10.5.2 描述邏輯 280 10.6 用預設信息推理 281 10.6.1 限定與預設邏輯 281 10.6.2 真值維護系統 283 小結 284 參考文獻與歷史注釋 285 第 11 章 自動規劃 290 ...
11.3 馬爾可夫決策過程166 11.3.1 馬爾可夫性166 11.3.2 馬爾可夫決策過程中的機率167 11.4 值167 11.5 回到迷路的示例:利用強化學習170 11.6 sarsa和Q-learning的不同171 11.7 強化學習的用處172 拓展閱讀172 習題173 第12章 樹的學習174 12.1 使用決策樹174 12.2 構建決策樹175 12.2.1...
大型電力系統可靠性評估是確保電力市場安全運行的必需環節,報告建立一種新的蒙特卡洛模擬方法--馬爾可夫鏈蒙特卡洛方法(Markov Chain Monte Carlo,MCMC). MCMC方法是一種特殊的蒙特卡洛方法,它將隨機過程中的馬爾可夫過程引入到蒙特卡洛模擬中,實現動態蒙特卡洛模擬。該方法通過重複抽樣,建立一個平穩分布與系統機率分布...
價格過程被擬合為從馬爾可夫過程到獨立增量過程,再到(幾何)布朗運動(Brownian motion),這就使得研究由隨機因素決定的動態過程成為可能。隨著假設的進一步明確, 在數學上越來越容易獲得明確的結果。與此同時,日本數學家伊藤清(Ito K.)定義出了 在隨機分析中具有重大意義的伊藤積分(Ito integral),同列維(Levy...
8.2.2 等待時間和步進方向都隨機的布朗運動模型 . . . . . . . . . 190 8.3 分子群體動力學類似於馬爾可夫過程 . . . . . . . . . . . . . . . . . 191 8.3.1 生–滅過程描述細胞中化學物質群體數量的波動 . . . . . . . 192 8.3.2 生–滅過程在連續確定性近似中接近穩定...