人工智慧深度學習算法評估規範

適用範圍

本標準提出了人工智慧深度學習算法的評估指標體系、評估流程，以及需求階段評估、設計階段評估、實現階段評估和運行階段評估等內容。本標準適用於指導深度學習算法開發方、用戶方以及第三方等相關組織對深度學習算法的可靠性開展評估工作。

起草單位

中國電子技術標準化研究院、中國科學院軟體研究所、上海計算機軟體技術開發中心、北京航空航天大學、華東師範大學、中國科學院計算技術研究所、軍事科學院國防科技創新研究院、國防科技大學、卡索(北京)科技有限公司、北京百度網訊科技有限公司、浙江螞蟻小微金融服務集團有限公司、深圳前海微眾銀行股份有限公司、順豐科技有限公司、深圳市優必選科技有限公司、北京京東尚科信息技術有限公司、深圳賽西信息技術有限公司、數據地平線（廣州）科技有限公司。

起草人

薛雲志、孟令中、崔靜、張明英、張璨、周平、武斌、郭崎、劉暢、吳濤、李海峰、肖良、張超、於泉傑、宋俊典、戴炳榮、王長波、孫仕亮、陳美、李剛、潘欣、程思、劉志欣、劉新凱、王太峰、巢林林、袁傑、曹安然、尹思遙。

主要技術

本標準的主要借鑑國際標準DO-178C-2011 Software Consideration in Airborne Systems and Equipment Certification 的思想，針對算法的不同階段定義了多個不同的目標來滿足不同的等級，同時實現了面向深度學習算法可靠性指標體系的前向和後向追蹤的理念，使得對算法研發過程的驗證與評估變得更容易，從而達到評估可靠性的目標。

本標準結合人工智慧深度學習算法的特點及傳統的可靠性評估的體系及流程，制定了標準的內容，主要包括以下方面：

算法可靠性評估指標體系

基於深度學習算法可靠性的內外部影響考慮，結合用戶實際的套用場景，本標準提出了一套深度學習算法的可靠性評估指標體系。指標體系包含7個一級指標和20個二級指標。

算法可靠性評估流程

依據深度學習算法可靠性評估指標體系，對深度學習算法開展可靠性評估工作。可靠性評估流程包括確定可靠性目標、選擇評估指標、需求階段的評估、設計階段的評估、實現階段的評估、運行的階段評估及得出評估結論這七個階段。

算法需求、設計、實現和運行階段的前提條件、輸入、關鍵活動及輸出的內容

面向深度學習算法需求階段的評估工作，指運用可靠性分析方法，通過對算法功能實現的正確性和軟硬體平台依賴的影響等進行評估，以確定算法的需求滿足可靠性目標要求。面向深度學習算法設計階段的可靠性評估工作，指運用分析或評審等方法，對算法功能實現的正確性、訓練數據集的影響及目標函式等進行評估，以確定算法設計滿足可靠性目標要求。面向深度學習算法實現階段的可靠性評估工作，指運用分析和測試等方法，對算法功能實現的正確性、代碼實現的正確性、目標函式的影響及對抗性樣本的影響等進行評估，以確定算法的實現滿足可靠性目標要求。面向深度學習算法運行階段的可靠性評估工作，指針對實際運行環境使用數據進行分析，對算法的正確性、軟硬體平台的依賴影響和環境數據的影響等進行評估，以確定算法的運行滿足可靠性目標要求。

人工智慧深度學習算法評估規範

基本介紹

適用範圍

起草單位

起草人

主要技術

相關詞條

熱門詞條