基本介紹
基因地理工程概念,基因地理工程核心目標,基因地理工程研究課題,基因地理工程合作夥伴,基因地理工程面臨的問題,遠程安全性,標準自由度,靈活性與性能的較量,公眾參與,人類的足跡,
基因地理工程概念
基因地理工程(Genographic Project)。
基因地理工程核心目標
雖然每個人的DNA 指紋是獨一無二的,但是我們的DNA 中有一些被稱作“遺傳標記(genetic marker)” 的部分,它們一代接一代原封不動地遺傳下來,很少有突變。基因地理工程項目重點研究兩種遺傳物質中的標記:一種是線粒體DNA,由母親傳給孩子;另一種是Y 染色體,由父親傳給兒子。科學家正在使用先進的數據挖掘技術和算法來跟蹤世界各地人體中的這些遺傳標記,以便創建一棵 “家族樹”,從而跟蹤人類的完整歷史。
基因地理工程研究課題
我們是誰?
我們來自何方?我們從哪裡來?
我們怎么來到這裡的?
大多數科學家都同意,人類很可能是在50,000 年前始於非洲的。然而對於第二個問題,回答就遠沒有那么肯定了。最初在中心位置的數千人,是如何發展成遍布全球的65 億人的?
基因地理工程合作夥伴
“最偉大的歷史書就藏在我們的DNA 當中”,項目帶頭人Spencer Wells 博士如是說。
在項目早期,國家地理學會的科學家就意識到,他們需要一個技術夥伴。在他們的科學家和核心參與小組的建議下,國家地理學會找到了IBM。
研究人員最初只是期望IBM為項目的技術性挑戰提供解決方案。然而,當兩個小組之間舉行了幾次會議之後,大家發現除了用於項目的硬體和軟體之外,IBM 還可以做出遠遠超出預期的貢獻。“在這個項目中,IBM 是真正的合作夥伴而不僅僅是一個贊助商,” 國家地理的項目主任Alex Moen 解釋道。“他們在項目的每一個方面都有人參與,包括科學方面。”
實際上,Ajay Royyuru博士和他在IBM 生物計算中心(紐約約克鎮T. J. Watson 研究中心的一部分)的小組正在幫忙創建使整個項目可行的算法和分析技術。“誠然,對於一家公司研究機構中的科學家,不應該每天都要求他們參與一個尋求跟蹤數萬年前人類遷移模式的項目,”Royyuru說道。“幸運的是,這家公司在巨大的挑戰面前沒有退縮,所以我們才得以抓住這難得的機遇。”
基因地理工程面臨的問題
雖然基因地理工程本身是一項獨一無二的任務,但該項目的IT小組所面臨的問題與各地的系統設計人員面臨的問題是類似的:即保證敏感數據的安全,建立標準,在資料庫性能與靈活性之間取得平衡,以及處理巨大的工作負載。
遠程安全性
住在地球最偏遠地區的當地人特別值得注意,因為他們的遺傳與其他人群是相互隔離的。為了獲得這些重要的樣本,野外研究人員已經完成了對寮國、查德和俄羅斯的考察,並正在計畫更多的旅行。
然而,與偏遠地區的隔離人群打交道需要面臨一些特有的安全方面的挑戰。研究人員需要在荒蕪地帶仍可維持的移動計算電力,還需要在小偷猖獗或者對遺傳信息有嚴格法律保護的地區能保護成員隱私的健壯的基礎設施。
為了滿足這些需求,由 11 名首席調查員帶領的野外研究人員小組裝備了強大的IBM ThinkPad 手提電腦,這些手提電腦使用生物鑑定掃描器來驗證用戶的身份。這些ThinkPad 配有定製的數據採集應用程式DB2 UDB Personal Edition V8,以及用於存儲和傳輸採集到的數據的WebSphere 軟體,此外還有用於與同伴協作的wiki 和IM 軟體。為提高安全性,存儲在科學家手提電腦中的所有敏感數據都經過加密。
IT小組還採取特殊的預防措施,確保科學研究不受黑客的攻擊。在進入野外之前,研究人員為即將到來的考察預訂一批預先生成的ID 號碼,即GPID。由於每個ID 都與特定的考察和首席調查員相關聯,因此任何人都不可能通過猜測GPID 將虛假數據輸入到系統中。
在野外,研究人員為每個參與者分配一個GPID,並使用一個特別設計的應用程式記錄表格化數據;即每個人的語言、種族、地點、身體特徵等。
完成初始的數據採集之後,當記錄還處在草稿模式下時,科學家可以在ThinkPad 上的DB2 資料庫中更正數據錯誤和拼寫錯誤。一旦記錄被保存為提交模式,它們會通過一個虛擬專用網(VPN)被自動傳輸到一個本地數據分析庫(DAR)中。之後,本地數據又被傳輸到華盛頓的中央 DAR,這個項目的所有科學家可以在那裡訪問這些數據。
位於澳大利亞、巴西、中國、法國、印度、黎巴嫩、俄羅斯、南非、西班牙和美國的十個地區實驗室對 DNA 進行提取和排序。樣本保留在地區實驗室,而結果則通過 VPN 被安全地傳輸到 DAR。
IBM 將中央 DAR 構建在運行基於Linux 的DB2 實例和WebSphere MQ 的刀片伺服器上。目前,DAR 有一萬億位元組的存儲空間,但是小組計畫在年前增加更多的存儲。“由於安全性的考慮,我們把[基因地理工程系統]構建得就像銀行系統,” IBM 傑出工程師、IT 基礎設施設計小組帶頭人Peter Rodriguez 解釋道。每條記錄都保存為一個事務,系統使用多階段提交,以便在傳輸過程中發生意外時,科學家可以在本地恢復他們的數據。
標準自由度
除了解決安全性方面的挑戰外,IBM 小組還必須解決做研究的科學家們獨特的要求。“最大的一個挑戰就是建立尚不存在的標準,同時滿足已存在的標準,” Rodriguez 說道。
每個科學家都有做事的獨門方法,他們都希望在記錄數據時擁有很大的靈活性。例如,科學家只想要格式自由的欄位,而不是為他們的條目預設的列表。由於他們可能遇到之前不認識的語言和種族,因此需要能夠創建新的條目。
然而,從信息管理的角度來看,所有這些格式自由的數據都可能帶來問題。拼寫上的細微差別都可能使最終的數據分析毫無意義。
作為妥協,Rodriguez 和他的小組為數據採集軟體設定了預定義的列表,但是也允許科學家創建格式自由的條目。“自由度對於科學家來說非常重要,” Rodriguez 笑道。“即使他們不用,我們也要確保他們有這個自由度。”不過,為了鼓勵科學家使用預定義的列表,當科學家輸入一兩個字母之後,電子表格就會自動填充欄位中剩下的部分。
靈活性與性能的較量
這個項目的另一個關鍵挑戰在於DAR 資料庫的設計。“在每一個信息管理場景中,都存在性能與靈活性之間的劇烈衝突,” Rodriguez 說道,“我們通過使用兩個不同的資料庫來解決這個問題,如果算上備份,實際上是四個資料庫。”
主DB2 UDB for Linux 資料庫包含Rodriguez 所說的 “神聖的財寶”:整個項目的主記錄。為了取得最大的靈活性,表被設計成可以針對一個地方更改數據模型,而不會影響其他地方的數據。例如,在印度的研究人員可能想記錄關於種姓的數據,但是那些信息對於在澳大利亞工作的研究人員來說毫無意義。主資料庫接受用於印度記錄的種姓數據,但是不為澳大利亞的參與者添加該欄位。
不幸的是,以這種方式存儲的數據具有異構性,當科學家分析數據時,性能要受到影響。由於這個原因,小組只使用主資料庫來存儲信息,絕不對它進行分析。為了便於分析,小組使用WebSphere MQ 來填充另一個DB2 資料庫,即GenoSci,這個資料庫執行查詢非常快。
公眾參與
除了對本土人的研究外,基因地理工程還從大眾當中採集DNA。只需支付大約100 美元,任何人都可以從基因地理工程網站(見參考資料)購買一個參與工具包。在執行完一次無痛的面頰擦洗之後,再將完成的工具包發回基因地理工程。德克薩斯州休斯頓的Family Tree DNA 將處理這些工具包,然後將加了條形碼編碼的樣本傳送到亞利桑那大學進行提取和排序。結果被送回Family Tree,後者對數據進行編碼,並將其傳送到DAR。
公眾參與者可以跟蹤他們樣本的處理進度,並通過在Genographic 網站輸入他們的GPID 查看分析結果。結果並沒有提供典型的基因地理信息,例如個人的出身或種族關係。相反,它識別每個人的類群(具有相同遺傳標記的一群人),並從60,000 年前開始遷出非洲的我們共同的祖先開始,粗略地描繪類群的遷移。
“在這裡,您有機會成為實時發生的研究項目的參與者,” 國家地理學會的Moen 說道。“如果公眾參與者繼續在網站上查看他們的GPID,那么他們可能看到結果更加精確了。”
雖然國家地理學會沒有向公眾真正開放參與工具包的市場,但熱情的回響還是勢不可擋。“最初,我們計畫五年期間賣出100,000 個公共參與工具包,” Moen 報告說,“但我們到第一年就賣出超過100,000 個參與工具包。” 幸運的是,小組已經能夠擴大工具包的生產和處理,以滿足需求。
迄今為止,大約有來自125 個國家的160,000 人購買了工具包,其中大約有140,000 人返回了他們的工具包。通過野外研究人員的齊心協力,還有上萬個其他樣本也被收集到。
這個項目 “使人們的眼睛突然一亮,” Rodriguez 總結到。“我們都是同一個家族的成員。它拉近了人們之間的距離。”
人類的足跡
60,000 年前,當人類第一次走出非洲時,他們留下的遺傳足跡至今可見。將現代人體中遺傳標記的出現和頻率畫出來,就可以弄清楚古人何時出現遷移,移到了什麼地方。
200,000 年前
人類的開端:“1924 年,南方古猿(Australopithecus)” 的發現受到了歡呼,因為它是猿和人類之間缺失的環節,因其種類中最著名的成員露西而聞名於世。