基於強化學習的智慧型化決策系統標準

《基於強化學習的智慧型化決策系統標準》是2020年02月28日實施的一項行業標準。

基本介紹

  • 中文名:基於強化學習的智慧型化決策系統標準
  • 外文名:Intelligent Decision System Standard Based on Reinforcement Learning
  • 標準編號:T/JSIA 0003—2020
  • 發布日期:2020年02月28日
  • 實施日期:2020年02月28日
起草人,起草單位,技術內容,

起草人

高陽、杜宇峰、彭戈、孟凡、楊尚東、劉勇、董紹康、陳佳瑞、陳茹茹、王黎成、陳境、顧娟

起草單位

江蘇萬維艾斯網路智慧型產業創新中心有限公司

技術內容

1主要要求
1.1 環境要求
對不同的套用場景進行梳理,提供具有通用接口設計的仿真環境,允許比較不同的強化學習算法。並通過仿真環境測試實際系統。具體包括:環境的使用方式,環境對外統一的自定義接口規範等。
1.2 觀察
強化學習是典型的“智慧型體-環境”循環實現,互動時智慧型體選擇一個行動,環境返回一個觀察和獎勵值。
1.3 空間
用來描述有效的動作和觀察,是環境的屬性,智慧型體與環境互動時可以直接根據環境提供給系統的接口進行互動。
1.4 策略
策略的輸入為狀態和動作,並返回在輸入狀態的情況下採取輸入動作的機率。
2 運行設計
2.1 環境配置
環境配置主要是對初始狀態的基本環境信息進行配置,有加區分對不同狀態進行學習和挖掘,提升強化學習算法實驗的結果。
2.2 可視化展示
實時可視化展示當前場景的相關環境信息,便於開發人員觀察效果,並對算法進行相應的調優工作。
2.3 互動規範
智慧型體與環境進行互動可分為兩類:人機互動和自動互動。
(a)人機互動, 人根據系統設計相應的互動方式和系統進行互動,而機器則直接依據智慧型算法生成相應的策略進行輸出,並在界面上動態顯示。
(b)自動互動,互動雙方則均是依據機器生成相應的策略進行輸出,並在界面上動態顯示,無需人的參與。
2.4 策略生成
策略生成模組則是針對不同的套用場景均內置相應的基準策略用於和設計的算法效果進行對比。
2.5 資料庫存儲
資料庫操作模組的主要功能是對系統中的參數配置信息和數據檔案進行存儲,為策略生成模型的模型訓練提供可靠數據。
3 使用性能要求
3.1 安全性
3.1.1 系統的安全分析、安全設計、安全使用、安全管理等,應該遵循下列的原則要求:
(a)有限授權原則系統應能控制用戶的使用許可權,規定必要的最小授權範圍,應能控制操作者的使用許可權和使用等級,防止對系統信息的越權使用、修改和調閱;
(b)全面確認原則系統應能對採集數據的合法性、輸人數據的有效性、信息處理的正確性、傳輸數據的安全性等進行確認;
(c)安全跟蹤原則對系統的信息處理過程應設定完善的跟蹤目標,具有安全的跟蹤力,隨不規範的操作可以自動記錄並提示;
(d)既要充分有效地把系統可能造成的危害減少到能承受的最小程度,又要避免付出與其效果不相稱的過高的投資代價或系統資源代價,從而取得綜合性的、最佳的安全。
3.1.2 系統應能對重要信息資料能夠給予相應的操作許可權,以防重要數據、檔案等被破壞。
3.1.3 系統應具有防範計算機病毒產生、侵人和傳播的能力。系統內的重要部位應有防病毒措施,重要程式和檔案應設定禁防寫。
3.1.4 系統的電氣安全、環境安全等要求應符合G881、G1295中的有關規定。
3.2 保密性
3.2.1 系統不能因用戶有意或無意的不正當操作而破壞。
3.2.2 系統處在不保密環境時,應有嚴密的保護措施,確保系統內指揮信息、文電、情報
數據等在嚴格安全保密條件下傳遞、處理和使用。
3.2.3 系統對重要信息應採用加密技術進行保護。
3.2.4 系統加密軟體本身應具有防拷貝、防改、防靜態分析等自我保護措施。
3.3 可靠性
3.3.1 系統及分系統應規定定性要求和驗收準則。可用故障模式與影響分析等方法,發現薄弱環節,採用工程保證,生產質量保證等措施,降低致命性故障發生的概早,保證系統的可靠性。
3.3.2 系統應採用冗餘設計,必要時關鍵模組應採用雙機備份,保證系統具備一定程度的容錯性。

相關詞條

熱門詞條

聯絡我們