《面向移動閱讀的複雜文檔圖像理解方法研究》是依託北京大學,由王勇濤擔任負責人的青年科學基金項目。
基本介紹
- 中文名:面向移動閱讀的複雜文檔圖像理解方法研究
- 項目負責人:王勇濤
- 項目類別:青年科學基金項目
- 依託單位:北京大學
項目摘要,結題摘要,
項目摘要
如何自動地將漫畫書、文娛和體育類報刊等複雜版面出版物製作成適合於移動閱讀的數字內容,是目前移動閱讀發展所面臨的瓶頸問題。複雜文檔圖像理解的目的,是實現這類出版物頁面圖像各構成對象的自動提取以及它們的閱讀先後順序的自動辨識,從而解決該瓶頸問題。現有的文檔圖像理解方法通常針對以文字為主體的文檔圖像,孤立地使用某個圖像分析處理算法,局限性較大,無法處理這類包含大量的圖形圖像而且排版布局相對複雜的文檔圖像。本項目擬借鑑當前自然圖像理解方法,使用能量最小化模型,研究一種更為通用有效的複雜文檔圖像理解方法。具體地,本項目將通過設計新的能量最小化函式及相應的最佳化算法,充分地使用相關先驗知識,完成複雜文檔圖像理解中的多種構成對象提取任務以及不同構成對象聯合識別任務。本項目研究成果將彌補現有文檔圖像理解方法的缺陷,為移動閱讀內容製作提供關鍵技術支持,促進國內外移動閱讀發展,因此本項目具有十分重要的研究意義。
結題摘要
本項目結合移動閱讀內容製作和展示等需求,對漫畫、報刊、立體幾何教材等複雜文檔圖像理解問題開展了相關研究,主要完成了四個方面的工作:(1)實驗數據收集、標記與評價方法研究,(2)複雜文檔圖像構成對象識別算法研究,(3)複雜文檔圖像構成對象的聯合識別算法研究,(4)閱讀順序辨識方法研究。 在複雜文檔構成對象提取方面,我們首先研究提出了高效魯棒的邊緣鏈、直線段、多邊形、圓/圓弧、橢圓/橢圓弧幾種底層視覺模式的提取算法,可適用於複雜文檔圖像和自然圖像。在此基礎上,結合條件隨機場和深度學習等機器學習算法,我們研究提出了複雜文檔圖像構成對象的識別算法。特別地,針對漫畫分鏡分割問題,提出了基於樹狀條件隨機場融合多種特徵的分鏡分割方法以及基於深度學習的分鏡分割算法,在大規模數據測試集上取得了非常好的實驗結果。我們還研究提出了基於單幅立體幾何教材插圖圖像的立體幾何對象識別與重建算法,在魯棒和實用性方面均優於現有方法。 在前述的各類構成對象識別算法基礎上,我們還研究了不同對象之間的聯合識別算法。針對漫畫圖像,我們利用分鏡和對白的關聯關係建立樹狀層級、構建特殊的能量函式,通過求解能量函式,得到分鏡四邊形和對白包圍框的標記結果,從而識別出漫畫頁面中的分鏡和對白。實驗結果表明,該方法對分鏡、氣泡的識別效果有明顯的提高。針對報刊、雜誌、教材等頁面圖像,我們還研究提出了基於條件隨機場模型利用上下文關係聯合識別標題、正文、插圖、插圖示題的方法,有效地提升了識別效果。針對立體幾何對象識別與三維重建問題,我們還提出了融合插圖信息與插圖關聯的題乾文字信息的方法,顯著提高了識別和重建效果。 我們提出了一種基於鏡之間相對幾何位置關係的分鏡閱讀順序辨識方法,能夠非常有效地得到分鏡閱讀順序。 我們在 Pattern Recognition等國際SCI期刊上、MM、JCDL等國際學術會議上發表了論文11篇,申請發明專利2項、獲批軟體著作權1項,說明本項目研究成果具有較高的套用價值和學術價值。