本書論述了視皮層中簡單細胞的建模及其在圖像理解中的幾點套用,包含了人工智慧、神經科學及認知科學等領域的內容,屬於交叉學科的研究成果總結。本書在給簡單細胞的方向選擇性現象建立數學模型後,逐步將其用於圖像的方向檢測與表征、高層語義的識別與理解、場景的三維信息獲取以及幾何視錯覺的成因分析。
基本介紹
- 書名:方向選擇性模型及其在圖像處理中的套用
- 作者:任遠
- ISBN:9787302373292
- 定價:25元
- 出版社:清華大學出版社
- 出版時間:2015-3-19
- 裝幀:平裝
圖書簡介,前 言,目 錄,
圖書簡介
本書論述了視皮層中簡單細胞的建模及其在圖像理解中的幾點套用,包含了人工智慧、神經科學及認知科學等領域的內容,屬於交叉學科的研究成果總結。本書在給簡單細胞的方向選擇性現象建立數學模型後,逐步將其用於圖像的方向檢測與表征、高層語義的識別與理解、場景的三維信息獲取以及幾何視錯覺的成因分析。書中除了用嚴格的數學理論證明模型的正確性外,還用大量的數值仿真實驗、真實圖像實驗以及統計實驗驗證算法的可行性。
本書為計算機視覺、神經視覺及認知科學的跨學科研究提供了一個新的視角,具有一定的學術性,可以為人工智慧及認知科學研究者提供參考。
前 言
圖像理解是計算機視覺領域中的一個核心問題。對圖像理解而言,關鍵的一步是提取圖像中構成場景語義結構的特徵並將其表征為高層任務容易利用的形式。一種傳統的特徵提取方法為先尋找邊緣,然後形成直線或組合輪廓線。這些特徵為圖像高層語義的理解提供了基礎。
傳統的特徵提取方法在一定程度上取得了很大進展,目前有大量針對邊緣檢測、直線檢測以及輪廓檢測的算法。然而,由於這些算法本質上都是依賴邊緣檢測的,所以都存在一些顯著的問題,如對邊緣檢測的結果依賴性過高及需要人工設定的參數過多等。一般來說,這些算法都是單純從計算的角度嘗試定義問題,而往往忽略問題的本質,即生物視覺系統如何完成邊緣―直線―輪廓檢測的生理機制,所以難以從根本上解決這些問題,更難以解決基於這些結果的更高層的圖像理解任務。
對人眼而言,視覺場景中最顯著的特徵就是不同顏色形成的邊緣,以及邊緣形成的直線、曲線和更複雜的形狀。本質上,我們看到的直線及曲線都可以看作相同或不同方向的短直線的分段組合。
因而,本書將方向(短直線)看作對圖像理解最有意義的一種特徵。顯然,方向這一初級特徵高於像素顏色、灰度等底層特徵,又低於輪廓等高層語義特徵。作為基於神經科學的人工智慧和認知科學的跨學科研究,本書嘗試利用生物視覺系統檢測方向的神經機制,設計一個仿生學的方法,從根源上實現特徵提取及表征這一基本問題的解決,進而為更複雜的任務提供生理基礎。
在視覺神經科學中,簡單細胞的方向選擇性一直是一個熱點問題。諾貝爾生理學獎獲得者David Hubel 和Torsten Wiesel 提出過一個簡單細胞的感受野模型(以下簡稱Hubel-Wiesel 神經模型),該模型用幾何形式的約束解釋了簡單細胞對條形刺激的方向選擇性。一方面,該模型具有簡單樸素的形式;另一方面,該模型也有不少的缺陷,因而受到了許多挑戰。儘管如此,目前沒有嚴格的證據直接支持或者否定這個經典的模型。
本書在Hubel-Wiesel 神經模型的基礎上,提出一個方向計算的雙層網路模型(以下簡稱本書模型)。與Hubel-Wiesel 神經模型相比,本書模型對底層神經元的限制更少,對刺激形式的要求更低,且實現了每一層計算的細節,因而靈活度更高。數值仿真實驗表明,本書模型能夠很好地模擬簡單細胞的方向選擇性。
利用方向計算模型,本書進一步提出一個圖像的方向檢測算法(以下簡稱本書算法)。在合成圖像及自然圖像上得到的實驗數據表明,該算法能夠從複雜圖像中提取滿意的方向圖。與傳統算法得到的邊緣圖、直線圖等相比,方向圖突出顯著語義特徵而抑制瑣碎干擾信息,更接近物體的真實輪廓圖,因而促進了分割及識別等高層任務更好更快地完成。此外,本書算法對參數調節的依賴更低、可並行計算程度高。
作為模型的套用之一,本書巧妙地將方向檢測算法用於解釋幾種著名的幾何視錯覺。本書用定性計算的方法從局部探索錯覺的產生機制,生成了與人眼觀察理解相似的錯覺現象,並將這種方法推廣到一系列錯覺的解釋。作為更深層次的套用,本書最後嘗試利用單幅圖像的方向圖,恢復其中場景的部分三維信息,也取得了一定的成果。
本書正文部分安排如下:第1章介紹相關研究的現狀與本研究的主要內容及特點;第2章介紹本書模型建立的生理基礎與依據;第3章介紹模型的底層設計,討論外側膝狀體細胞對刺激的回響函式;第4章介紹模型的頂層設計,討論簡單細胞利用傳入外側膝狀體對刺激的回響確定邊緣方位的幾種計算方法;第5章用數值實驗證明模型的正確性與可行性,確定模型中參數的最佳化取值,並使用仿真實驗模擬形成簡單細胞具有方向選擇性的感受野;第6章介紹基於方向選擇性模型的方向檢測算法在圖像表征、分割及匹配等方面的套用;第7章將方向檢測用於解釋一系列幾何視錯覺;第8章利用單幅圖像的方向圖部分恢復場景的三維信息;總結部分總結全書並展望後續研究課題。
作為我的第一本學術著作,本書包含了2007s2013年我在復旦大學攻讀研究生期間的主要研究成果,也是我的博士學位論文的主要部分。許多人對本書的完成提供了不可或缺的幫助和啟發。首先要感謝父母對我的養育之恩;感謝王曉梅師姐為本書第2章的寫作提供了大量參考資料,感謝肖錦文師弟為本書第6章6.4.2節提供了實驗數據;最要感謝我的導師危輝教授,從課題選擇、數學建模、算法設計到實驗分析等各環節都凝聚著危老師的辛勤指導,是他的精心培養才使我順利完成了學業。
本書既然是對之前研究成果的總結,自然不是終結,而是後續工作的起點。本書中懸而未決的問題與不盡理想的結果都是我正在研究的重要課題,也是我未來的研究方向。作為一名追求科學的年輕學者,這是我第一次撰寫學術論著,書中難免包含不嚴謹之處甚至錯誤,敬請學界前輩與同仁不吝賜教。
目 錄
第1章緒論 1
1.1 研究動機 1
1.2 相關研究 3
1.3 關於本書 4
1.4 符號說明 7
第2章模型的生理基礎 9
2.1 初級視覺通路 9
2.2 神經節及外膝體細胞的感受野 12
2.3 簡單細胞的感受野 16
2.3.1 簡單細胞的方向選擇性 16
2.3.2 簡單細胞感受野的經典模型 17
2.3.3 經典模型的問題及相關模型 18
第3章外膝體對刺激的回響 22
3.1 與對比度無關的回響 22
3.2 回響函式及其性質 27
3.3 回響曲線 31
第4章簡單細胞的方向選擇性 34
4.1 基本最小二乘模型 34
4.2 非線性最佳化模型 37
4.2.1 底層神經元:基於回響的有向距離估計 37
4.2.2 頂層神經元:基於最最佳化決策的方向判定 38
4.3 模型求解及解的性質 40
4.3.1 帶二次約束的最小二乘法 40
4.3.2 解的性質 41
4.3.3 數值解 43
4.4 誤差分析 44
4.5 改進的非線性加權模型 46
4.6 經典模型的方向歧義性 47
第5章實驗及分析 51
5.1 方向檢測方法 51
5.2 模型的選擇 53
5.3 參數的確定 54
5.3.1 覆蓋率的選擇 54
5.3.2 神經元密度 56
5.4 簡單細胞感受野的模擬 57
5.5 刺激複雜度與計算誤差 60
第6章套用一:圖像方向檢測 62
6.1 檢測方法 62
6.1.1 算法描述 62
6.1.2 並行最佳化 65
6.2 形狀圖像 65
6.3 自然圖像 67
6.3.1 與邊緣檢測算法比較 68
6.3.2 與全局直線檢測算法比較 69
6.3.3 與邊緣檢測及局部直線檢測算法比較 72
6.3.4 與局部直線檢測及輪廓檢測算法比較 75
6.3.5 由粗到細的表征 78
6.4 對更高層處理的增強 80
6.4.1 分割效果的提升 80
6.4.2 匹配效果的提升 81
第7章套用二:視錯覺的解釋 85
7.1 干擾導致的計算偏差 85
7.2 錯覺的解釋 86
7.2.1 Z¨ollner 錯覺 87
7.2.2 Orbison 錯覺 89
7.2.3 Caf′e Wall 錯覺 90
7.2.4 Poggendorff 錯覺 92
7.2.5 Hering 錯覺 93
7.2.6 其他相關錯覺 94
第8章套用三:三維場景理解 98
8.1 圖像的三維信息獲取 98
8.2 成像模型 101
8.2.1 坐標系的設定 101
8.2.2 坐標系的變換 102
8.3 基本圖形的三維信息 104
8.3.1 矩形 105
8.3.2 圓形 107
8.3.3 特殊三角形 111
8.4 場景綜合特徵分析 113
8.5 實驗 116
8.5.1 特徵提取 116
8.5.2 朝向計算實驗 116
8.5.3 三維構建實驗 120
總結 123
參考文獻 128
任遠