生物多樣性信息學

生物多樣性信息學指利用信息技術, 對生物有機體基礎數據的管理和算法的探究、分析和解釋,尤其是在物種水平上的套用。它涉及到對信息的收集、存儲、提交、檢索和分析,主要關注單個有機體、居群和分類群以及它們的相互關係,其內容覆蓋了系統學進化生物學、居群生物學、行為科學,以及從傳粉生物學到寄生病學和植物群落學等領域。

基本介紹

  • 中文名:生物多樣性信息學
  • 外文名:biodiversity informatics
生物多樣性信息學簡述,生物多樣性信息學發展歷程,生物多樣性信息學研究內容,基礎信息的數位化,物種信息,標本信息,圖像和文獻信息,野外生物多樣性實體信息,信息化工具,信息標準,模型工具,全球、地區和國家生物多樣性網路,展望,

生物多樣性信息學簡述

作為信息學的一個分支,生物多樣性信息學依賴計算機技術和信息學的普遍原則和技巧來處理異質性基礎數據,同時也需新創一些方法來解決特殊性問題。例如:如何在信息系統中建立物種名稱與分類群概念間的聯繫,從而完整記錄分類學家多年來對某個物種認識的歷史和變化過程;如何對早期的標本米集信息進行地標化(Georeferencing),從而可以在大的空間尺度上進行有效地空間分析和比較;如何為不同的數據和信息對象如物種、標本、圖像和文獻信息建立全球信息唯 一標識符,從而實現信息間的流暢共享和管理;如何能有效促進人群間的互動合作,促進人類對生物多樣性的認知與針對性的活動,擴大生物多樣性信息獲取的源頭等。
生物多樣性信息學和生物信息學(Bioinformatics)相互聯繫但又有區別。前者主要關注物種到生態系統水平(Sarkar, 2007, 2009; Paton, 2009)的生命現象,而後者主要關注分子水平上的問題。也有研究者認為生物多樣性信息學是生物信息學的一個研究方向(鐘揚和張亮,2000)。不管怎樣,理解生物多樣性信息學研究及其與相關領域關係的問題在於:隨著數位化編目、數位化標本館、數位化植物園等大量研究活動的湧現,我們需要一個整體的知識框架來融合生物學家和技術專家的知識,規範相關的研究活動,一起來討論、規劃這一領域未來的發展藍圖。
目 前,生物多樣性信息學最重要的研究目標就是為生物多樣性信息的管理和一些重要議題如全球變化研究提供一個堅實的下層建築(Infrastructure)。 下層建築在這裡是一個寬泛的概念,它不僅指全球、地區或國家性生物多樣性信息系統的建立,分散式共享網路體系的構建,相關軟體和工具的研製,信息共享標準、協定和政策的制定;也包括研究組織、機構和人才隊伍的建設,對生物多樣性信息可持續增長、維持與利用的技術與平台提供支持。

生物多樣性信息學發展歷程

生物多樣性信息學相關的實踐活動可以追溯到20世紀70年代早期第一個計算機分類學資料庫的建立。最早有文獻記錄的分類學資料庫可能是美國維吉尼亞海洋科學研究所開發的Biota of Chesapeake Bay 資料庫和澳大利亞聯邦科學與工業研究組織(Commonwealth Scientific and Industrial Research Organisation,簡稱 CSIRO)開發的 DELTA(Description Language for Taxonomy)系統(Dallwitz,1974)。澳大利亞是生物多樣性信息學研究的先行者之一,70年代中期開始了標本館標本的數位化工作;1989年又發起了 Environmental Resources Information Network(ERIN), 來積累不同地理區域的環境數據。同時他們也發布了最早的標本館數據共享協定和標準HISPID(Herbarium Information Standardsand Protocols for Interchange of Data) (http ://plantnet。rbgsyd.nsw.gov.au/HISCOM/HISPID/HISPID3/hispidright.html)。到了80-90年代,一些大型生物信息網路系統和資料庫建立,例如墨西哥的CONA-BIO(1992年)、哥斯大黎加的INBio(1989年)、生物多樣性信息標準TDWG (Biodiversity InformationStandards: TDWG,簡稱 TDWG) (1985 年)、整合分類學信息系統(Integrated Taxonomic Information System,簡稱ITIS)(1996年),以及後來的物種2000項目(1996年)。進入21世紀,生物學資料庫和信息系統出現爆發式增長。根據生物多樣性信息學標準(TDWG)網站上的統計就有超過600多個生物多樣性信息學研究項目(http://www.tdwg.org/biodiv-pro-jects/projects-database/)(截至2010年3月)。數據和信息服務的內容也從單一的分類學信息轉向覆蓋分類學、系統學、生態學、進化生物學和生物地理學等生物多樣性相關的研究領域。
2000年以後,“生物多樣性信息學”這個詞語及其涉及的相關研究活動開始更為正式地出現 在科學研究群體。這一方面得益於科學家通過一些世界頂級學術刊物的專題欄目、增刊或者是學術會議專輯等連續報導。例如:science在2000年289卷的一個專欄中以生物多樣性的數位化、分類學的復興、網路上的化石資料庫、安靜的革命一生物多樣性信息學、網際網路與生物多樣性資料庫的互操作性一生物多樣性信息在我們的計算機桌面等5篇文章討論了這個領域的相關問題(鐘揚和張亮,2000)。Philosophical Transactions of the Royal Society of London, Series B: Biological Sciences 在2004年的“21世紀的分類學”專題中用19篇文章討論了與生物多樣性信息學相關的議題。BMC: Bioinformatics則於2009年專門在“生物多樣性信息學”專題下組織了10篇文章,特別是DNA條碼技術及其相關的研究進展豐富了生物多樣性信息學的內容。另一方面,近年來發展和運作非常成功的一些全球性生物多樣性信息學研究項目也讓科學家們看到了這一領域發展的廣闊前景。
2009年6月在英國舉行的世界生物多樣性信息學國際會議 e-Biosphere’09(http://www.e-biosph-ere09.org/)則是生物多樣性信息學領域的第一次國際性盛會。有來自69個國家的500多名代表參加,齊聚了世界生物多樣性信息學領域最著名的機構和科學家,比如:美國伍茲霍爾海洋生物學實驗室(Marine Laboratory Woods Hole, USA)和美國斯密森研究院(Smithsonian Institution)。除了在一些主流的生物學或計算機刊物上介紹和探討該領域的相關活動,科學家們還創立了一些線上電子刊物,例如:Biodiversity information(2004年創刊),來專門刊載這個領域的重要進展。
我國植物科學工作者在20世紀80年代初期,敏銳地捕捉到國際植物自然科技資源領域數位化研究趨勢,並開始與國際同步進行生物物種和標本信息數位化的工作。代表性的工作包括:(1)中國科學院生物多樣性信息系統(Chinese Biodiversity Information System, CBIS)(http://cbis.brim.ac.cn/), 由動物學、植物學、微生物學、內陸水體生物學和海洋生物學五個分部構成,涉及各主要生物類群的物種編目、分類代碼、名稱、志書文獻、瀕危等級評估與保護策略等方面的信息;(2)中國動物信息網(http://www.animal.net.cn/),主要包含動物分類系統、物種名稱與編目、標本查詢等資料;(3)中國微生物與病毒主題資料庫(http://www.micro.csdb.cn/),主要包括微生物與病毒編目、圖像、菌種保藏等方面的信息;(4)在中國科技部平台項目“國家標本資源共享平台”的支持下,近年相繼建立了中國數字植物標本館(Chinese Virtual Herbarium,簡稱 CVH)、國家數字動物博物館(http://museum.ioz.ac.cn/)、教學標本標準化整合與資源共享平台(http://mnh.scu.edu.cn/)、中國自然保護區資源平台(http://www.papc.cn/)、國家岩礦化石標本資源信息網(http://www.nimrf.net.cn/)、極地標本資源共享平台(http://birds.chinare.org.cn/)等6個全國性的多樣性信息平台。
此外,中科院植物研究所還初步建成了中國植物圖像庫(Plant Photo Bank of China,簡稱 PPBC)、中國自然標本館(Chinese Field Herbarium:簡稱CFH)、物種2000-中國節點高等植物信息系統(Catalogue of Life: Higher Plants in China,簡稱CNPC)和中國數字植物園(Chinese Virtual BotanicalGarden,簡稱CVBG)等一批覆蓋全國植物標本、圖像、物種和引種植物的信息系統,相關研究力量也通過“中國科學院植物研究所生物多樣性信息學重點實驗室”的組織形式加以整合,形成當前國內規模最大的生物多樣性信息學研究團隊。

生物多樣性信息學研究內容

如同生物多樣性研究一樣,生物多樣性信息學涉及到的內容寬廣而複雜。從信息學角度說,它覆蓋了從基礎數據的採集、存儲、整合、管理、發布和分析等多個環節,還涉及到各種數據共享政策和標準的制定。從傳統研究領域說,它涉及到分類學、系統學、進化生物學、生態學、保護生物學和生物地理學等多個學科和研究領域。綜合信息學的原則和所涉及生物學科的特點,我們將從基礎信息的數位化、信息化工具、標準和協定、模型工具以及國家和地區性生物多樣性網路這5個方面來介紹生物多樣性信息學的主要內容。它們分別代表了從基礎數據的收集整理、輔助性研究工具支持、信息交換和共享到數據挖掘和知識發現等信息化研究的幾個重要環節,也是生物多樣性信息學研究最值得關注的幾個方面。

基礎信息的數位化

全球植物保護戰略(Global Strategy for Plant Conservation,簡稱GSPC)包括16個全球植物保護目標。為了有效地執行和實現這些目標,需要獲得從小地區到全球空間尺度,涉及個體、居群、生態系統、遺傳和有機體各個層次的信息和數據。Paton(2009)結合這些目標列舉了潛在和已有的各種信息化資源,指出要實現這些目標需要的信息不僅數量巨大而廣泛,並且需要這些信息相互聯繫,從而可以對它們進行綜合分析和評估。
因此對基礎信息的數位化我們需要優先考涉及生物多樣性基本問題最關鍵的信息成分,例如物種及其地理分布。這兩個方面的信息對回答如中國有多少植物物種、它們的地理分布格局如何、國家或地區尺度上應該採取什麼樣的保護策略等問題是非常關鍵的,也是保護生物學研究經常涉及的問題,是我們認知生物多樣性最基本的信息元素(Sarkar, 2007)。這兩方面的數據經常被國外學者稱為生物多樣性基礎數據(primary data)(Soberon & Peterson, 2004;Chapman, 2005b;Chavan & Ingwersen, 2009)。此外,我們認為生物多樣性基礎數據還應該包括圖像和文獻信息。因此,物種、標本、圖像和文獻基本上構成了生物多樣性信息學研究中最主要的信息組分。

物種信息

生命科學中最基本的科學問題是物種問題,生物物種的研究決定著從巨觀的全球生態系統至微觀的生命DNA分子構造等全部內容,更與國家目標中的農業、能源、信息、環境、人口與健康以及可持續發展等問題的研究和解決直接相關。物種信息這裡使用較為寬泛的概念,包括用來描述物種的學名、異名、俗名、形態特徵、地理分布、珍稀瀕危狀況、經濟利用價值、保護利用情況等基本信息。
物種信息中最為關鍵的是編目,它是物種其他描述信息集的基礎。據科學家們粗略估計,地球上的37萬多種高等植物大概涉及到90萬個名稱,如果使用一些過時的分類學信息可能會引起混亂。例如:以前所認定的不少珍稀瀕危物種是狹域分布,後來發現,它們實際上和一些原來的廣布種是同種。IUCN在1997年的紅皮書中曾列舉了胡桃科的22個珍稀瀕危物種,其中9個已經確認實際上是一些廣布種的異名。在科學文獻中,只有不到5%的植物學名在使用時給出了明確的分類學定義的引證和來源。因此,不僅需要把套用到同一個物種的不同名字(同物異名)關聯起來,而且要把相同名字套用到不同植物(異物同名)的情況區別出來。如果我們不對引用物種名字的分類學含義給出明確的依據和來源,會給信息檢索、整合和分析造成極大的困難。據估計,異物同名的情況在植物中占據了大約4°%。
全球植物保護戰略的目標之一就是提供一個當前得到廣泛 認可的物種名錄,並將異名關聯起來,向那些套用了不同分類處理的信息源提供一個參考標準,從而促進不同來源信息的整合。當前公認的世界植物物種名錄已經完成了大約60%,到2010 年可能達到85%(Paton et al , 2008)。物種 2000是當前套用最為廣泛的物種接受名和異名的信息來源,已經成為檢索物種信息的一個基本的索引框架。雖然當前已經建立了如上所述的全球性、地區性和類群為主的編目資料庫,但是《生物多樣性公約》締約方大會認為還應該在國家水平上增強這方面的投入,加強分類學隊伍建設。生物分類學倡議及其履行進展在這方面起到了重要作用(http://www.cbd.int)。
物種編目信息的數位化有非常悠久的歷史,從早期的邱園索引(Index Kewensis)到由許多國際組織聯合建立的國際植物學名索引(International PlantName Index, IPNI)、整合分類學信息系統(IntegratedTaxonomic Information System, ITIS)、美國密蘇里植物園的TROPICOS、全球生物物種名錄-物種2000(Catalogue of Life-Species 2000)等全球性電子名錄,以及以類群為主的國際豆科植物信息系統(Inter-national Legume Database & Information Service, 簡稱ILDIS)、全球菊科植物名錄(Global CompositaeChecklist)、世界茄屬植物資源(World Solanum Resource)、 魚類資料庫 (FishBase)和以地區為主的非洲植物名錄資料庫項目(African Plant Checklist and Database Project, APCD)(Klopper et al.,2007)、澳大利亞植物名稱索引(Australia Plant Names Index,APNI)、北美植物志整合系統(Synth- esis of theNorth American Flora, SNAF)等。
生物物種編目—物種2000項目是物種編目信息最有影響力的系統,它由國際生物科學聯盟(The International Union of Biological Sciences, IUBS)發起,並聯合科學技術數據委員會(The Committee on Data for Science and Technology, CODATA)、國際微生物聯盟(The International Union of Microbiological Societies, IUMS)於1994年9月共同建立。它是一個與用戶、分類學家和贊助單位保持緊密合作的聯邦式資料庫系統(Federal Database)。成立的目的是建立一個包含全球主要生物類群的物種工作名錄(working list),並通過網際網路和光碟向全世界發布,提供免費下載和使用。當前該數據系統已有77個加盟的專家資料庫,包括了 1257735個生物物種(http://www.sp2000.org/)。ITIS和世界生物多樣性資料庫(ETI-WBD)都是物種2000的重要合作夥伴。它還向全球生物多樣性信息網路(GBIF)和網路生命大百科(EOL)等全球重要的生物多樣性信息機構提供核心的物種名錄數據。物種2000項目的具體目標是:針對當前已知生物物種,提供一個具有一致性、經認可且可成為實際使用工具的名錄索引。
最近,由世界生物多樣性信息學最為成功的GBIF發起了 Global Name Architecture, GNA)(http://www.gbif.org/informatics/name-services/global-names-architecture/)項目,目的是要建立一個多層次的名稱數據體系,為將來更為廣泛的生物學信息整合奠定基礎。

標本信息

標本館標本是表明某個物種在某個時間和地點存在的第一手證據,它提供的不僅僅是某個物種已知的分布信息,而且包括了大量歷史性信息(Chapman & Busby, 1994)。它不僅是分類學家進行物種修訂的憑據,也是開展生物多樣性研究的原始材料(Canhos et al., 2004; Graham et al., 2004a;Soberon & Peterson, 2004;Chapman, 2005a)。據粗略估計,保藏在世界各大標本館和研究機構的標本達25-30億份(Duckworth, 1993; Soberon, 1999),估計有5-10%已被數位化(Soberon, 1999)。網際網路的發展,使大量數位化的標本信息可以被訪問(Krishtalka & Humphrey, 2000;Causey et al., 2004;Graham et al, 2004a)。
數位化使這些標本得到了更加廣泛的套用,如傳統分類學修訂,名錄和鑑定手冊的編輯,動、植物志的編篆,地理分布圖的繪製,物種多樣性空間格局和動態的分析,生活史和物候學的研究,珍稀瀕危物種的保護生物學,外來入侵物種的管理等等(Funk & Richarson, 2002; Chapman, 2005b)。數位化標本信息潛在價值的挖掘要歸功於地理信息系統(GIS)技術、空間分析手段和大量免費獲取的電子化環境數據的組合套用(Hijmans et al.,2005; Swenson, 2008)。一方面,通過給大量歷史標本進行地標化處理,可以實現點對點地繪製物種分布的詳細信息圖,相對於傳統手工繪製點圖和輪廓圖方式來說,提高了製圖的準確性。基於這種GIS化的分布圖,還可以在統一的地理空間分析框架下展開大空間尺度上的比較生物地理學研究。另一方面,還可以利用這些地標化的標本信息,結合環境數據、氣候變化、土地利用、植被變化等信息對物種的潛在地理分布進行預測,從而對入侵物種和珍稀瀕危物種的管理,特別是在全球氣候變化情景下的管理,作出更為科學的決策。
要實現植物物種分布的空間分析和預測,首先需要對這些歷史標本進行地標化,也就是給它們的採集地點配上經緯度坐標。對於歷史採集信息,由於很多地點描述不規範,甚至信息完全缺失,以及早期的很多地名已經發生了變化等原因,使地標化成為一項非常複雜和艱巨的任務。多數情況下需要手工逐條核查並更正。現 在已有一些工具來幫助處理地標化問題,例如BioGeomancer。
儘管我們已經有大量數位化的標本信息可以利用,但是由於有些標本在地理空間上的代表性不夠,有些標本缺乏權 威和準確的鑑定,再加上地標化的坐標信息不精確甚至錯誤,以及標本鑑定信息沒有及時更新等原因,極大地限制了數位化標本信息的套用。GBIF是當前世界上最大的生物標本信息門戶,自2002年建立以來,已經有50多個國家,40多個國際組織參與建設,有超過1.7億份標本信息,其中有經緯度記錄的有花植物標本信息達2700萬份。紀力強等(2005)對GBIF作過詳細的介紹。

圖像和文獻信息

圖像信息在生物多樣性信息學研究中有著非常特殊的價值。它不僅包括野外調查和採集過程中拍攝的活生物的數碼圖像,也包括歷史標本的後期影像處理,以及數位化植物志書等資料中的科學繪畫等內容。現代信息技術和數碼攝像手段的發展已經賦予了生物圖片新的內涵。它不僅可以展示生物物種在自然環境中的整體外貌,還能夠不受存儲空間限制詳盡地記錄物種形態特徵的各個細節信息,例如:物種器官的顏色、質地,以及棲息地和行為等。這些信息經常是形態學描述、標本和科學繪畫無法表現的。
國際上對圖像信息非常重視,比如DiscoveryLife(http://www.discoverlife.org)收集了超過 100 萬種生物的圖片,幫助讀者辨識物種。康奈爾大學的鳥類學實驗室(http://www.macaulaylibrary.org)收集了12萬條脊椎動物(主要是鳥類)的音頻和4萬條視頻數據,供科學研究和科學普及使用。牛津大學的The Virtual Field Herbarium 項目(http://herbaria.plants.ox.ac.uk/vfh/about/)提供了萬餘張植物關鍵鑑定特徵的圖像。The Linnaeus’ Collections (http://www.linnean-online.org/)項目專門致力於 Linnean早期研究的模式標本、手稿、通信等信息的圖像採集,當前已經包括了 1.4萬餘種植物,168種魚類,3198種昆蟲,以及3000多條信件和手稿的圖像信息。近年來,中國植物圖像庫(Plant Photo Bank of China, PPBC)在中國植物圖像信息的收集和整理方面也取得了可喜的進展。當前已經收錄了植物圖片41萬餘幅,初步鑑定的有24萬餘張,分屬301科2523屬,總計11000多種(截至2010年1月)。
當然,我們也不應該忽視早期的許多植物科學繪畫的價值。植物科學繪畫是在科學研究的範疇之內,運用繪畫技法,科學、客觀、藝術、真實地表達科學內容的創作過程,它是表現植物、認識植物的一個重要手段(孫英寶等,2008)。植物科學繪畫承載了大量早期植物學研究歷史的信息,是科學研究歷史中非常有意義的文化遺產。對於不少物種來說,已經很少有機會在野外找到它們的蹤跡,而經常是通過文獻記錄中的科學繪畫來認知。綜合了野外活植物和科學繪畫等多種圖片載體的影像信息集將來或許能夠成為記錄物種多樣性圖像博物館。
大量生物多樣性研究的基礎信息還深藏在各種文獻之中。近年來,已有不少相關的文獻信息得到數位化(Davidson , 1997)。當前與生物多樣性信息學研究最為密切的是生物多樣性遺產圖書館(BHL)(http://www.biodiversityl- ibrary.org/)項目。該項目最初由 American Museum of Natural History、The Field Museum、Harvard University Botany Libraries、 Missouri Botanical Garden、The New York Botanical Garden、 Royal Botanic Gardens和Smith-sonian Institution等10家單位共同發起。 BHL項目的開始階段主要將那些不涉及著作權的老文獻數位化。隨著時間推移,不涉及著作權的文獻會逐步增加,即所謂的牆體移動策略(moving wall strategy)。通過與Internet Archive(http://www.archive.org/ )的合作,BHL當前已經數位化了71000多冊書,並建立了方便的學名、關鍵字、頁碼檢索方式。這些早期的每一篇歷史文獻都可能包括著一個甚至多個生物有機體相關的信息。將這些信息與當前最新的分類學研究結果建立關聯,我們就有可能完整記錄和追溯特定研究對象的歷史研究過程和動態。

野外生物多樣性實體信息

傳統上保存於標本、圖像、文獻等實物信息媒介中的生物多樣性基礎信息,需要進行數位化、地標化之後才能在各種生物多樣性信息系統加以利用,生物多樣性採集與利用效率受到很大限制。相對於這個藍色星球上現存的各層次的生物多樣性,人類已經採集的生物多樣性基礎信息僅是滄海一粟,有更多自然生存著的生物多樣性有待被記錄與發現。
相對於林耐與達爾文時代,當今發達的交通系統、成熟的全球定位系統、多媒體信息採集技術以及以資料庫與網際網路為代表的信息技術,使人們可以將整個地球看作活的生物多樣性博物館,直接將野外個體、居群、群落等各種水平的生物實體及其變化過程作為研究對象,將它們的形態、生態信息與地理分布坐標數位化,形成數字標本。數字標本以數碼照片為主體,同時包含GPS坐標、調查路線的GPS軌跡、採集與鑑定相關信息、其他信息的錄音記錄,是綜合的數據集,具有信息量大、效率高的特點。通過廣泛的公民科學協作,可以發動大量志願者通過採集數字標本的方式參與到生物多樣性的調查與監測之中,極大提高生物多樣性信息的採集與加工效率,將人類的認知活動與野外生物多樣性直接關聯,同時滿足人們的科普教育、科研基礎數據採集、保育活動的前期調研與成效評估等多方面的需求。作為這些理念的實踐,中國自然標本館(Chinese Field Herbarium, CFH)受到了用戶的歡迎,在兩年時間積累了大量的資料,包括86.5萬張數碼照片,其中約30萬張具有精確的GPS坐標,已鑑定植物種類超過1.2萬種。自2009年6月份以來,CFH日均新增照片2000多張,新增鑑定物種30多種,成為中國增長最快的生物多樣性原始數據源。

信息化工具

傳統上我們對物種的鑑定主要依賴標本館標本、圖像和植物志書上的檢索表或請專家諮詢。科學家們也開發出一些電子化的檢索工具,它們早期都被稱為“專家系統”。過去40多年來,已有許多這樣的工具被開發出來。DELTA可能是最早和套用最為廣泛的電子檢索工具(Dallwitz, 1993;李健均,1996;陳翔和陳訓,2008;張明理,2009), Lu-cid是後來形成的一個商業化產品,主要在昆蟲學上有比較多的套用。由於早期計算機技術的限制,這些工具都採用一些專有的數據存儲格式,並且只能在個人計算機上使用。後來的研究者開始開發一些能夠在網際網路上使用,便於不同系統交換數據的工具。比如eFlora的互動式檢索表(Brach & Song,2006)。這些工具很多都採用了 TDWG推薦的結構化描述性數據(Structured Descriptive Data, SDD)標準,並且能夠和早期的DELTA數據兼容。
物種鑑定的本質是人們對物種實體資料的準確認知。除了將檢索表做成各種類型的鑑定工具外,建立信息化的互動平台實現物種調查與認知能力的共享具有重大現實意義,通過參與者們在資源調查與物種鑑定上擁有的不同能力的互補合作,能更好地滿足好奇心、提高認知水平、促進新物種資料的採集與整理鑑定。仿照傳統標本館的鑑定流程實現的網上互動合作,將是物種鑑定的重要形式。近年來,網路信息技術的發展使我們不僅僅是開發一些這樣的輔助性工具,而是更多地考慮如何將研究實踐的各個環節都納入信息化管理。尤其是對分類學這樣一個面臨大量基礎數據積累並不斷需要更新信息的研究來說更是如此。因此,研究人員開始考慮信息環境下分類學信息化能力建設的問題, 並開展了不少實踐活動。例如:由英國自然環境研究委員會(Natural Environment Research Council, NERC)資助,大英自然歷史博物館(The Natural History-Museum, London)、 牛津大學(University of Oxford)和邱園(Royal Botanic Gardens Kew)聯合發起的CATE (Creating a Taxonomic E-Science, http://www.ate-project.org/)項目、世界茄科植物資料庫(http://www.nhm.ac.uk/research-curation/research/projects/solanaceaesource/)項目、世界禾草資料庫 GrassBase(http://www。kew。org/data/grasses-db.Ht- ml)項目和歐洲分類學研究中心(European Distributed Institute ofTaxonomy, EDIT)等。
在這些項目的實踐中也產生了一些專門為分類學家提供服務的信息整合和管理工具,比較著名並得到廣泛套用的是EDIT開發的Scratchpad(Smithet al, 2009)(http://scratchpads.eu/scratchpad-taxono-my)和 EOL 支持開發的 LifeDesk(http://www.Lifed-esks.org/)。這兩個工具都是基於開源的Drupal內容管理系統進行的改造。CATE項目也正致力於開發出一個所有分類學家都可以使用的網路線上分類學修訂管理系統的模板。這些工具與早期鑑定工具的不同在於,它們從一體化分類學研究的工作程式出發,在工具的設計和使用上充分考慮到分類學家對名錄、文獻、標本、圖像等基礎數據資源的利用方式,及研究成果的線上發布。應該說這些為專家們量身定做的工具已經為我們進入電子分類學研究時代奠定了技術基礎。
除這些鑑定和專家使用的分類學數據整合工具之外,生物多樣性信息遍及人類生產、生活的諸多方面,由人們在各種野外調查探索與研究認知等各種互動合作性的活動過程中產生。如果將這個過程通過信息學解決方案讓野外數據採集、物種鑑定、數據組織等相關的活動儘量實現信息化,則使數據能更快地積累,更好地組織和有效地利用,以便更好地服務於相關知識的普及以及分類、進化、生態、保育、馴化等學科的研究,讓喜歡、研究與利用生物多樣性的人都能從高效率的信息化工作流程,有效積累和組織的資料庫,以及互惠共享的交流氛圍中獲益。因此,覆蓋生物多樣性信息野外採集、自動化組織、互動合作整理等以生物多樣性信息業務流程信息化為目標的技術體系與支撐系統,是建立更高效率獲取與利用生物多樣性信息的必然要求。中國自然標本館(CFH)採用包含數位化地標化野外生物多樣性信息採集技術體系、網上互動鑑定、自動化數據組織與用戶互動空間等內容的信息化平台,展示了廣闊的發展與套用前景。

信息標準

與其他信息學相關的學科一樣,生物多樣性信息學也需要採用相關的數據和共享協定標準,實現資料庫間數據傳輸和信息的互操作,加速信息交換和共享。這個過程中一般涉及到三類標準:一是數據標準(data
standards),它處理的問題是我們需要共享什麼樣的數據;二是協定(protocols),即這些信息如何進行共享;三是兀數據標準(metadata standards), 即向用戶提供一個信息摘要,告知用戶信息系統存儲的是什麼樣的信息,可以提供哪些信息。數據標準是首要和最基礎的,它是實現協定和元數據標準的前提。
TDWG在這方面做出了非常卓 越的貢獻。這個組織早期主要致力於分類學資料庫的標準建設,隨著生物多樣性數位化的發展,也開始研究生物多樣性信息方面的標準。這個組織到當前已經發布了涉及標本米集信息的達爾文核心標準(Darwin Core,DwC) 和 ABCD(Access to Biological CollectionData),涉及植物學名和描述信息的TCS (Taxonomic Concept Transfer Schema) 和 SDD, 涉及植物地理分布記錄的 WGSRPD(World GeographicalScheme for Recording Plant Distributions)標準,已經整合數據和協定的SPM(Species Profile Model)、DiGIR、TAPIR等多個標準。
近年來,科學家越來越重視相關標準的實踐問題。國內已經成立了專門處理生物學信息化標準的組織,即全國生物信息標準化技術委員會,由國家標準化管理委員會領導和管理,來幫助相關項目和研究人員處理生物學信息標準及其相關的問題,以促進和加強生物信息資源跨國界、跨部門的整合、共享、服務和套用為目的。為了使信息化數據在不同套用環境和研究領域發揮最大的價值,數據提供者、管理者和使用者都需要考慮採用統一的語言來描述基礎信息和數據。

模型工具

一般來說,現存的生物多樣性基礎數據本身並不能直接為生物多樣性資源的管理和評估提供有效的決策依據。我們還需要經過篩選、統計、分析、建模以及相應的推理步驟才能變為有用的信息,從而為我們評估現存生物多樣性知識的缺失,制定將來的研究計畫,評估保護的優先性等提供參考。物種地理分布的生態位模型(Ecological Niche Model,EMs或ENM)是一個在生態學和生物多樣性信息學中快速成長的研究方向。
生態位模型的基本原理是利用地標化的標本分布信息,結合這些物種已知分布點的環境變數信息,來模擬物種的生態需求(生態位)。儘管生態位模型方法還處在發展的過程中,但科學家們對模型方法的不斷改善和廣泛套用,已經向我們展示了它在研究全球氣候變化對陸地和海洋生物多樣性影響,外來入侵物種的管理,物種的界定,新物種的發現,以及進化生物學等諸多研究方向上的巨大潛力。
生態位模型有許多可以利用的算法和技巧,比如 BIOCLIM(Nix, 1986), GLM (Generalized linear
models)(Austin et a/。, 1994), GAM(Generalizedadditive models) (Yee & Mitchell, 1991), CART(Regression and classification tree analyses), Genetic algorithms (Stockwell & Peters,1999)和 ANN (Artificial neural networks)(Olden &Jackson, 2002)。針對不同的數據類型和算法,不少開發人員也設計了許多工具。我們還需要設計出可以方便使用不同模型,並且對不同模型結果進行比較分析的界面,從而使研究人員能夠更多關注對結果的分析和解釋。未來的發展是將數據輸入和投影圖層的生成放在一個連續的工作流程和框架下實現,並且可以通過遠程分散式計算和格線技術加快大量數據的處理。

全球、地區和國家生物多樣性網路

在歐洲委員會的支持下,歐洲建立了幾個比較大的生物多樣性網路。CETAF(Consortium of European Taxonomic Facilities) (http://www.cetaf.org/)是聯合了歐洲自然歷史博物館、植物園和其他生物學採集保藏機構的最大分類信息平台。它包括大量動物、植物、古生物和地質學採集,向多學科的研究人員提供服務。它致力於建立歐洲動物志的語義網路體系,有400多位動物學專家參與。歐洲動物志包括了 115,000種非海洋動物物種及其地理分布等信息。這些信息和 ERMS(European Register of Marine Species) 相互補充,完善了歐洲動物物種的基礎信息。植物方面是歐洲植物志及歐洲-地中海植物多樣性資料庫(European Flora and the Euro+MedPlant Database)。歐洲自然歷史標本信息網路ENHSIN(European Natural History Specimen Infor-mation Network)項目的目標則是在歐洲研究機構間建立起標本信息共享、互操作的信息基。BioCASE(Biological Collection Access Service forEurope)(http://www.biocase.org/)聯合了歐洲 30 個國家的35個研究機構通過網路提供生物學採集信息的服務。歐洲生物多樣性信息網路ENBI (EuropeanNetwork for Biodiversity Information)(http://www.enbi.info/forums/enbi/index。php)項目發起於2003年,由歐盟給予經費支持,通過3年的工作完成語義網路建設項目。它實際上也是GBIF在歐洲最大的數據提供者。當前ENBI已經包括了歐洲24個國家的66個機構成員,其中包括GBIF國家節點成員。
美洲各國間生物多樣性信息網路IABIN (Inter-American Biodiversity Information Network(http://www.iabin.net/)是由世界銀行和全球環境基金等多個機構和組織資助的覆蓋西半球的生物多樣性基礎數據信息網路。REMIB(World BiodiversityInformation Network) (http://www.conabio.gob.mx/remib_ingles/doctos/acerca_remib_ing.html)是一個覆蓋墨西哥的生物米集信息網路,當前已覆蓋140多個國家,擁有超過600萬條的生物標本信息。澳大利亞虛擬標本館 AVH (Australian Virtual Herbarium)(http://www.anbg.gov.au/avh/)是澳大利亞植物學研究群體組成的線上網路標本館體系。除了通過GIS應用程式已向用戶提供650萬份植物標本信息外,它的最終目標是形成一個電子化的植物區系研究網路,向政府、公眾提供決策和信息服務。AVH是一個真正意義上的分散式系統,在這個平台上查詢的標本數據實際上都由各自標本館來管理和發布。在國家科技部、環保部、中國科學院等多個部門的組織和支持下,經過多年努力,也建立了動植物生物多樣性信息節點(http://www.biodiv.gov.cn/)、中國生物多樣性信息系統(http://cbis.brim.ac.cn/)、中國森林生物多樣性監測網路(http://www.cfbiodiv.org/)、中國生態系統研究網路(http://www.cem.ac.cn/0index/index。asp)、中國自然保護區(http://www.nre.cn/)、中國數字植物標本館(Chinese VirtualHerbarium, CVH)、中國植物圖像庫、中國自然標本館、中國高等植物信息系統和中國數字植物園(Chinese Virtual Botanical Garden, CVBG)、中國植物物種信息網(http://www.plants.csdb.cn/)等一大批生物多樣性基礎信息系統。
但是我們應該看到在全球、地區和國家水平上的生物多樣性網路體系所面臨的一些挑戰。為了有效地執行各種生物多樣性保護行動計畫,研究人員需要獲得從小地區到全球空間尺度,包含時間序列,涉及個體、居群、生態系統、遺傳和有機體各個層次的信息和數據,並且需要對多個來源不同層次的數據進行評估和分析。在全球範圍來看,這些信息當前還沒有被有效地組織起來發揮它們應有的作用(Paton, 2009)。首先我們需要建立有效的數據共享機制和標準來容納來自不同研究領域和學科以及不同研究層次和異質性的數據源;其次要建立高效率的工作平台與技術體系去更好地獲取最新的基礎信息;最後我們還需要開發出一些普遍適用的工具和系統。這對生物學家和計算機人員都是一個巨大的挑戰。
近年來,由世界40多個機構和組織共同合作和參與的網路生命大百科全書(EOL)項目向我們展示一個可以在全球、地區和國家水平上使用統一的工具、標準來整合分散的生物多樣性基礎信息的機會。EOL項目的發起來自有生物多樣性研究之父之稱的Wilson(2003)的一個簡潔而明確的想法。那就是為地球上已知的每一個生物物種建立一個網頁,這個網頁將展現該物種從分類、形態、地理分布、生態、進化等巨觀研究,到DNA條形碼、分子、遺傳等微觀研究,以及利用和保護等百科全書式的信息集合,並且通過文本、圖像、多媒體、GIS等多種技術手段來展現豐富的信息。除了專業研究領域,一個不容忽視的群體是社會公眾。公眾通過公民科學的形式參加生物多樣性信息的採集已經有幾百年的歷史。世界各國社會公眾關注與參與生物多樣性調查的熱情逐漸提高,已形成巨大的生物多樣性信息採集與加工的潛在力量,專門為公民科學提供的野外調查工具與網路數據積累平台也逐漸出現。在兼顧專業研究和公眾參與方面,EOL是值得肯定的。它是一個專家監管和公眾參與的開放式系統。通過有效的專家體系保證數據的科學性和可靠性,同時也為對生物多樣性保護和利用有熱情的公眾和愛好者敞開了參與經院式研究的大門。
無論是從巨觀上還是微觀上研究生物有機體,最根本的總是與具體的研究對象相聯繫,這個具體對象就是生物物種。對於浩瀚的生物多樣性信息來說,物種是聯繫所有信息的一個紐帶。因此,EOL項目找到了一條整合多個學科、研究領域、研究層次和不同來源信息的機制和方法。而且EOL及其相關的軟體工具都是採用開源形式,它所移植的分散式共享技術、Web2.0元素、MVC (Model-View-Controller)開發模式等使它成為一個靈活、可擴展的門戶系統。儘管EOL項目當前還在發展的初始階段,但它在研究思路和技術條件上的優越性向我們展示了一個在全球範圍使用統一的標準和協定共享生物多樣性信息的美好前景。

展望

信息技術的發展給我們很多新的方法來共享生物多樣性的基礎知識。一些世界性的研究項目,比如網路生命大百科全書(EOL)、生物條形碼協會(CBOL/BOL)、全球生物物種名錄(COL)、生命之樹(TOL)、全球生物多樣性網路(GBIF)在數位化生物多樣性信息基礎方面已經建立了比較好的框架。這些項目在世界範圍的廣泛成功展示出信息化時代生物多樣性信息採集、共享和利用的新藍圖,並且將對科學研究群體和社會有深遠的影響。這些影響包括了新物種的發現、珍稀瀕危物種保護策略的制定、新藥用植物的研發、人類在複雜生命網路體系中的重要角色的認識等等。
生物多樣性信息學是一個快速生長的領域。它把信息科學和相關的技術帶到了生物學領域,促進了基礎生物多樣性知識更廣泛套用。我們將看到一個史無前例的,在全球範圍通過廣泛的合作實現對自然生物多樣性的信息採集、調查與監測,自由獲取生物在基因、有機體、物種、居群、生態過程、生態系統以及人類在生物多樣性系統中的作用等廣泛的信息的局面。
然而,我們也要認識到生物多樣性信息學研究是一個長期而艱巨的任務,還有許多未知問題值得我們去探究和解決。例如:我們需要建立一種長期機制,保證從個人和公共資料庫定期收集和更新數據;通過同行評議(peer review)和自動校驗方式來實現對數據質量的控制,建立對新增加信息的索引、連結和自動提交的處理流程,向用戶提供不僅是數據瀏覽和查詢,而且還包括深層次的數據操作和分析的界面等。
我們這一代比較完整地理解了我們所面臨的生物多樣性危機。同時,我們也可能是最後有機會去探究和記錄我們這個星球上物種多樣性的一代。我們這一時代最大的挑戰之一是用數位化的方法和手段來記錄我們所棲居星球的生物多樣性及其相關的知識遺廣。

相關詞條

熱門詞條

聯絡我們