智慧型螢幕語義理解技術(Intelligence Screen Semantics Understanding Techonology,簡稱ISSUT)是一項用於檢測、識別電腦螢幕畫面,並準確理解畫面上各個圖示和區塊的含義的人工智慧技術。
基本介紹
- 中文名:智慧型螢幕語義理解技術
- 外文名:ISSUT
發展歷程,技術原理,場景舉例,
發展歷程
該項國產自研,行業首發的新技術,是由AI+RPA廠商浙江實在智慧型科技有限公司提出。其實現正是得益於ISSUT技術,主要套用在機器人流程自動化領域中,用於輔助自動化流程的設計工具,使其能夠更加精準、更加高效地識別螢幕,進而開發出更簡潔、更高效、更穩定的自動化流程。套用於實在智慧型所發布的RPA行業新模式,沉浸式搭建超自動化流程的IPA模式當中。
技術原理
智慧型螢幕語義理解技術主要結合了人工智慧領域的計算機視覺、數字圖像處理、自然語言處理和統計機器學習等技術;其基本原理是先進行螢幕圖示和區域的檢測、定位,在此基礎上合併小的區域組成大的區域,而後對得到的目標對象進行識別和分析,最終得到每個部分都表示的含義。
計算機視覺:又稱為機器視覺技術,主要用於螢幕目標對象的檢測和定位,通過把螢幕目標對象的拾取問題轉化為目標檢測或實例分割問題,從而能夠對遠程桌面、視頻畫面這類場景也能實現精準的檢測和定位;
數字圖像處理:在智慧型螢幕語義理解中,需要針對各種複雜的圖像情況進行識別,需要用到數字圖像處理中的去噪、拼接、增強等技術來提高模型的泛化能力,實現真正產品可用的模型能力;
自然語言處理:螢幕上除了各種圖形之外,還包含大量的文字信息,在智慧型螢幕語義理解技術中,套用自然語言處理技術對文字信息進行識別和理解,能夠實現更精準的螢幕元素分析;
統計機器學習:基於統計理論的機器學習模型被廣泛套用在對結構化數據的建模上,同樣,在智慧型螢幕語義理解技術中,統計機器學習模型將用於結構化數據的分類和抽取等任務中。
場景舉例
場景一:在某些以特定框架開發的軟體,特別是一些IM軟體中,原生拾取只能獲取到軟體界面的整個框體,而無法進一步分析、判斷出哪些區域是聊天列表、哪些區域是內容輸入框等,因此以往的自動化流程只能通過滑鼠的偏移、點擊等動作實現對這類軟體的操作。基於智慧型螢幕語義理解技術,整個軟體框體將被劃分為具體的功能區域,在每個功能區域中又可以定位、識別到每個圖示及其所表示的含義,因此在RPA流程開發時能夠直接根據功能區域的不同選用不同的操作,比如直接在對話輸入框中進行文本輸入,直接統計聊天列表等;
場景二:遠程桌面的螢幕畫面一般是以整張圖片的形態被RPA工具獲取到,在沒有智慧型螢幕語義理解技術前,往往是通過滑鼠的偏移和點擊,以及鍵盤的按鍵組合來實現對遠程桌面對象的操作。通過結合智慧型螢幕語義理解技術,能夠對傳輸過來的遠程桌面螢幕畫面進行實時分析,從而實現本地電腦桌面一樣的操作。