基本概念
機器視覺
機器視覺產生於工業自動化。在現代工業自動化生產中,涉及到各種各樣的檢查、測量和零件識別套用,例如汽車零配件尺寸檢查和自動裝配的完整性檢查,
電子裝配線的元件自動定位,飲料瓶蓋的印刷質量檢查,產品包裝上的條碼和字元識別等。這類套用的共同特點是連續大批量生產、對外觀質量的要求非常高。通常這種帶有高度重複性和智慧型性的工作只能靠人工檢測來完成,我們經常在一些工廠的現代化流水線後面看到數以百計甚至逾千的檢測工人來執行這道工序,在給工廠增加巨大的人工成本和管理成本的同時,仍然不能保證100%的檢驗合格率,而當今企業之間的競爭,己經不允許哪怕是0.1%的缺陷存在。有些時候,如微小尺寸的精確快速測量,形狀匹配,顏色辨識等,用人眼根本無法連續穩定地進行,其它物理量感測器也難有用武之地。這時,人們開始考慮把計算機的快速性、可靠性、結果的可重複性,與人類視覺的高度智慧型化和抽象能力相結合,由此逐漸形成了一門新學科—機器視覺。
機器視覺是研究用計算機來模擬生物巨觀視覺功能的科學和技術。通俗地說,就是用機器代替人眼來做測量和判斷。首先採用CCD照相機將被攝取目標轉換成圖像信號,傳送給專用的圖像處理系統,根據像素分布和亮度、顏色等信息,轉變成數位化信號;圖像系統對這些信號進行各種運算來抽取目標的特徵,如:面積、長度、數量、位置等:最後,根據預設的容許度和其他條件輸出結果,如:尺寸、角度、偏移量、個數、合格/不合格、有/無等。機器視覺的特點是自動化、客觀和非接觸,與一般意義上的圖像處理系統相比,機器視覺強調的是識別和判斷,以及工業現場環境下的可靠性。
機器視覺是一個相當新且發展十分迅速的研究領域。人們從20世紀50年代開始研究二維圖像的統計模式識別,60年代Roberts開始進行三維機器視覺的研究,70年代中,MIT人工智慧實驗室正式開設“機器視覺”課程,80年代開始了全球性的研究熱潮,機器視覺獲得了蓬勃發展,新概念、新理論不斷湧現。現在,機器視覺仍然是一個非常活躍的研究領域,與之相關的學科涉及:圖像處理、計算機圖形學、模式識別、人工智慧、人工神經元網路等。
計算機視覺的產生與發展
計算機視覺開始於在20世紀50年代的統計模式識別,當時的工作主要集中在二維圖象分析、識別和理解上,如
光學字元識別、工件表面、顯微圖片和航空照片的分析和解釋等。20世紀60年代,Roberts將環境限制在所謂的“積木世界”,即周圍的物體都是由多面體組成的,需要識別的物體可以用簡單的點,直線,平面的組合表示。通過電腦程式從數字圖象中提取出諸如立方體、楔形體、稜柱體等多面體的三維結構,並對物體形狀及物體的空間關係進行描述。Roberts的研究工作開創了以理解三維場景為目的的三維機器視覺的研究。到70年代,己經出現了一些視覺套用系統。 70年代中後期,電視攝像技術的成熟與計算機的發展為研究計算機視覺提供了先進的技術手段期,這一時期
麻省理工學院(MIT)人工智慧(AI實驗室創立了計算機視覺研究小組,並開設了“機器視覺”(Machine Vision)課程,這吸引了許多知名學者參與機器視覺的理論、算法、系統設計的研究。1977年,Marr提出了不同於“積木世界”分析方法的計算機視覺理論(Computational Vision),該理論在20世紀80年代成為計算機視覺研究領域中的一個十分重要的理論框架。Marr提出,對於視覺信息處理過程的研究應分為三個層次,即計算理論層,表示算法層,硬體實現層。三者分別回答了信息處理過程中的輸入和輸出及兩者之間的約束,輸入和輸出的表示和相應的算法,以及在物理上如何實現這種表示和算法。這一框架雖然在細節上甚至在主導思想上還存在不完備的方面,許多方面還有很多爭議,但至今仍是目前計算機視覺研究的基本框架。Marr理論為我們提供了研究機器視覺許多珍貴的哲學思想和研究方法,同時也給計算機視覺研究領域創造了許多研究起點。
80年代以後,計算機視覺獲得了蓬勃發展,新概念、新方法、新理論不斷湧現,越來越多的計算機視覺研究者對傳統的基於Marr框架的通用視覺提出挑戰,最具代表性的是出現了以
美國馬里蘭大學計算機視覺研究實驗室的Aloimonos Y為首的目的(Purposive)視覺學派;
美國賓夕法尼亞大學計算機系Bajcsy的主動(Active)視覺學派;
羅切斯特大學Ballade和Brown的活躍(Animate)視覺學派等。目的視覺、主動視覺,是近年來計算機視覺的研究熱點。與基於Marr的通用視覺理論不同,主動視覺強調兩點,一是認為視覺系統應具有主動感知的能力;二是認為視覺系統應基於一定的任務(Task Directed)或目的(Purposive Directed)。同時,主動視覺認為不基於任何目的視覺的過程是毫無意義的,必須將視覺系統與具體的目的(如導航、識別、操作等)相聯繫,從而形成感知/作用環(Perception/Action Cycle)。目的視覺認為視覺都有目的,目的就是行為。針對具體的對象和套用場合,目的視覺己經廣泛套用於工農業及其他各行各業。通用視覺的研究更偏重於基礎理論,目的視覺更面向套用。通用視覺的研究應借鑑於目的視覺中的主動感知、反饋控制等成果,目的視覺的研究為通用視覺的研究尋求新的生長點。
研究現狀
控制現狀
機器人視覺控制是指機器人通過視覺系統接收和處理圖像,並通過視覺系統的反饋信息進行相應的操作。機器人按構型一般分為直角平面構型、SCARA平面關節構型、球坐標構型、圓柱坐標構型和鏈式構型等幾種。其中SCARA即選擇順應性裝配機器人於1978年由
日本山梨大學牧野洋發明,目前己成為世界上套用數量最多的裝配機器人,廣泛套用於精密產品的裝配和搬運。美國AdeptTechnology研製的Python直角坐標構型裝配機器人由三個線性關節構成,具有結構簡單、操作簡便、編程簡易等特點,套用於零部件的移送、插入和旋擰操作。德國Kuka和美國FANUC Robotics公司研製的鏈式坐標構型重型負載視覺機器人,能舉起上千公斤的重量,己在大型裝配製造業得到套用。隨著技術的不斷進步,各種新型裝配機器人層出不窮,並且隨著
電子顯微技術的發展,微裝配機器人將工作領域擴展到微米甚至納米空間,如John等研製的微裝配機器人,通過遙操作可以實現50-100微米大小的零件的抓取、移動和釋放操作。丁漢等研製的多感測信息協調的微裝配機器人,結合多感測信息進行多任務操作,具有速度快和精度高的特點。除此之外適用於大型裝配任務多機協調、雙臂協調以及人機協調技術亦是裝配機器人未來的研究方向之一,而隨著新材料的不斷出現,裝配機器人也向著高強度和輕量化的趨勢發展。
視覺控制可分為基於位置、圖像和混合視覺控制三類。基於位置的視覺控制利用標定得到的攝像機內外參數對目標位姿進行三維重建,進而可以通過軌跡規劃求得機器人末端執行器下一周期的期望位姿,再根據機器人逆運動學求出的各關節量通過控制器對關節進行控制,按重建坐標的作用進一步可分為位置給定型和反饋型兩類[fill。在立體視覺系統中,可以通過多條光路對目標位姿進行三維重建,Bradley等研製的插孔裝配機器人採用全局與局部觀測,共四條光路,其中一條光路用於粗定位,其餘幾條光路用於精定位,張秀峰等研製的光纖對接機器人採用兩條正交光路分別獲取垂直和水平平面的圖像,其中一條光路專門獲取深度信息,但這些方法均使用多台攝像機故需要對圖像進行特徵匹配,另外也增加了系統成本。而在單目視覺系統中深度估計是最為重要的問題,許多學者提出了不同的深度估計方法,Grossmana}20〕提出的經典的變焦深度法利用目標清晰時的相對深度作為其深度信息,Guiseppe等提出以投影的像素數量作為依據求取深度,因此該方法需要較高解析度的攝像機,以及馮精武等使用梯度能量法作為圖像清晰度函式,利用函式極大值估計深度,但這些方法都只能確定是否在同一水平面而無法獲得具體的深度。而隨著多信息融合技術的發展,藉助其它類型感測器如超音波、雷射和紅外等手段獲取深度信息,王敏等在智慧型抓取機器人中結合使用攝像機和超音波兩種感測器,利用超音波的發射和接受來探測深度信息,另外還有雷射和紅外測距等,但需要對多感測信息進行融合,而最新的ToF(Time-of-Flight)深度攝像機的出現也提供了一種新的解決方法向目標連續傳送光脈衝後用接收器接收從目標反射的光脈衝,通過計算光脈衝的往返時間獲得目標的距離,該方法能對整幅圖像進行鋇」距,但精度還需進一步提局。
基於圖像的視覺控制則直接利用目標和末端執行器在圖像上的期望投影與實際投影進行操作,利用反映機器人運動與圖像對應信息變換之間關係的圖像
雅克比矩陣計算關節量,無需計算其在世界坐標系中的坐標,因此無需事先標定攝像機,但圖像雅克比矩陣的計算量較大,Kim等提出使用無需估計深度的反饋方法求圖像雅克比矩陣。Piepmeier等針對圖像雅克比矩陣展開了一系列研究,提出在圖像雅克比矩陣中引入攝像機參數再進行基於圖像的視覺控制方法,從而極大地減少了計算量。為了克服基於位置和圖像視覺控制的缺點,混合視覺控制結合了兩者的優點,如Chaumette等提出的2D 1/2視覺伺服,分別使用基於圖像和位置的視覺伺服控制位置和姿態,由於結合了兩種伺服方式因此計算過程極其複雜。
套用現狀
機器視覺自起步發展到現在,已有很長一段的發展歷史了。應該說機器視覺作為一種套用系統,其功能特點是隨著工業自動化的發展而逐漸完善和發展的。
目前全球整個視覺市場總量大概在60^-70億美元,是按照每年8.8%的增長速度增長的。而在中國,這個數字目前看來似乎有些龐大,但是隨著
加工製造業的發展,中國對於機器視覺的需求將呈上升趨勢。
機器視覺是計算機視覺的產業化部分,這兩者之間存在的微妙區別就在於前者假設計算機是能夠模擬視覺的,而後者只是認為人類視覺的處理機制可以用機器來模擬的。機器視覺既是工程領域,也是科學領域中的一個富有挑戰性的重要研究領域。它是一門綜合性的學科,已經吸引了來自各個學科的研究者參加到對它的研究之中。其中包括計算機科學和工程、信號處理、物理學、套用數學和統計學,神經生理學和認知科學等。視覺是各個套用領域,如製造業、檢驗、文檔分析、醫療診斷和軍事等領域中各種智慧型、自主系統中不可分割的一部分。由於它的重要性,一些先進國家,例如美國把對機器視覺的研究列為對經濟和科學有廣泛影響的科學和工程中的重大基本問題,即所謂的重大挑戰(grand challenge)。機器視覺的挑戰是要為計算機和機器人開發具有與人類水平相當的視覺能力。
在國外,機器視覺的套用普及主要體現在半導體及電子行業,其中大概40%-50%都集中在半導體行業。另外
機器視覺系統還在質量檢測的各個方面也已經得到了廣泛的套用,並且其產品在套用中占據著舉足輕重的地位。除此之外,機器視覺還用於其他各個領域。
而在國內,以上行業本身就屬於新興的領域,再加之機器視覺產品技術的普及不夠,導致以上各行業的套用很少,即便是有,也只是低端方面的套用。目前在我國隨著配套基礎建設的完善,技術、資金的積累,各行各業對採用圖像和
機器視覺技術的工業自動化、智慧型化需求開始廣泛出現。國內有關大專院校、研究所和企業近兩年在圖像和機器視覺技術領域進行了積極思索和大膽的嘗試,逐步開始了工業現場的套用。這些套用大多集中在如藥品檢測分裝、印刷色彩檢測等低端方面的套用,而真正高端的套用還很少。因此,以上相關行業的套用空間還比較大。當然,其他領域如指紋檢測等等領域也有著很好的發展空間。
在機器視覺賴以普及發展的諸多因素中,有技術層面的,也有商業層面的,但製造業的需求是決定性的。製造業的發展,帶來了對機器視覺需求的提升;也決定了機器視覺將由過去單純的採集、分析、傳遞數據,判斷動作,逐漸朝著開放性的方向發展,這一趨勢也預示著機器視覺將與自動化更進一步的融合。
構成和分類
典型的機器視覺控制系統一般包括如下部分:光源,鏡頭,CCD照相機,圖像處理單元(或圖像採集卡),圖像處理軟體,監視器,通訊/輸入輸出單元等。視覺系統的輸出並非圖像視頻信號,而是經過運算處理之後的檢測結果,如尺寸數據或者判斷分類。上位機如PC和PLC實時獲得檢測結果後,指揮運動系統或I/0系統執行相應的控制動作,如定位和分選。其基本組成模組如圖1所示。
根據運行環境的不同,目前
機器視覺系統可分為PC-BASED系統和PLC-BASED系統。基於PC的系統利用了其開放性,高度的編程靈活性和良好的Windows界面。系統內含高性能
圖像採集卡,一般可接多個鏡頭。配套軟體方面,從低到高有幾個層次,如Windows95/98/NT環境下C/C一編程用DLL,可視化控制項ActiveX提供VB和VC一下的圖形化編程環境,甚至Windows下的面向對象的機器視覺組態軟體,用戶可用它快速開發複雜高級的套用。在基於PLC的系統中,機器視覺的作用更像一個智慧型化的感測器,圖像處理單元獨立於系統,通過串列匯流排和I/O與PLC交換數據。系統硬體一般利用高速專用ASIC或
嵌入式計算機進行圖像處理,系統軟體保存在圖像處理器中。基於PLC的系統體現了可靠性高、集成化,小型化、高速化的特點。
研究內容
視覺控制涉及的研究內容比較廣泛,主要包括攝像機標定、圖像處理、特徵提取、視覺測量和控制算法等以下幾方面:
攝像機標定
對攝像機的內部參數和外部參數進行求取的過程。視覺系統從攝像機獲取的圖像信息出發,計算三維環境中物體的位置、形狀等幾何信息,並由此重建三維物體。圖像上每一點的位置與空間物體表面相應點的幾何位置有關。這些位置的相互關係,由攝像機成像幾何模型所決定,幾何模型的參數稱為攝像機參數,主要包括內參數和外參數。其中內參數主要包括光軸中心點的圖像坐標、成像平面坐標到圖像坐標的放大係數、鏡頭畸變係數等。外參數是
攝像機坐標系在參考坐標系中的表示。攝像機標定提供了非測量攝像機與
專業攝像機之間的聯繫。而所謂非測量攝像機是指這樣一類攝像機,其內部參數完全未知,部分未知或者原則上不確定。攝像機標定就是通過標定實驗獲得攝像機的內、外參數。
視覺測量
根據攝像機獲得的視覺信息對目標的位置和姿態進行的測量。視覺測量主要研究從二維圖像信息到三維笛卡爾空間信息的映射以及視覺測量系統的構成。圖像上每一點的亮度反映了空間物體表面某點反射光的強度,而該點在圖像上的位置和空間物體表面相應點的幾何位置有關,視覺測量的研究主要在於測量速度和精度等。
視覺控制的結構與算法
機器人視覺控制本質上是利用攝像機採集到的二維圖像信息對機器人的運動進行控制,對視覺信息的不同利用會得到不同的控制效果。在笛卡兒空間構成的
閉環控制系統,只能保證視覺測量出的目標在笛卡兒空間的位置和姿態達到期望值,由於攝像機的模型誤差以及特徵點的匹配誤差,導致視覺測量本身具有較大誤差,再加上機器人的模型誤差,所以目標在笛卡兒空間的實際位置和姿態與期望值之間有時候會有較大的誤差,控制精度較低。在圖像空間構成閉環系統,雖然可以提高精度但是控制的穩定性難以保證。