Google Genomics是谷歌在去年3月推出的一項雲端服務,該項目皆在幫助大學實驗室和醫院將患者或科研對象的生物基因儲存到雲端上,服務的目標是“探討遺傳變異互動”,意味著科研專家能夠訪問數百萬的生物基因組數據,並能輕鬆簡單的進行對比和分析。
正在推進工作
Google Genomics是谷歌在去年3月推出的一項雲端服務,但隨後由於沒有進行大規模的推廣而並未引起人們的注意,該項目皆在幫助大學實驗室和醫院將患者或科研對象的生物基因儲存到雲端上,服務的目標是“探討遺傳變異互動”,意味著科研專家能夠訪問數百萬的生物基因組數據,並能輕鬆簡單的進行對比和分析。除了谷歌之外,人類基因組數據的存儲目前還已經引起了亞馬遜、IBM和微軟等科技巨頭的注意。
谷歌自Google Genomics項目啟動以來,已經與多位科學家進行了面談並專門為此開放了一個API接口,方便這些科學家將DNA數據轉移到谷歌的伺服器群上,而科學家則可以使用這個囊括了數十億網際網路用戶和網頁索引的資料庫進行實驗。
“生物學家們可以通過我們的服務來從對一個基因組的研究升級到對數百萬個基因組進行研究,”主管Google Genomics項目研發的軟體工程師大衛·格雷澤(David Glazer)說道,“我們希望通過我們的數據技術來幫助他們實現質的突破。”
儘管有些科學家認為谷歌的服務對於複雜的基因組數據來說不過是杯水車薪,但還是有不少科學家對此進行了肯定,比如史丹福大學的教授阿圖爾·巴特(Atul Butte)在今年對谷歌的這一計畫進行詳細了解之後,就表示“這感覺就像是傳統旅行社在看到Expedia(全球最大的線上旅遊公司)一樣”。
科學家們目前在使用新型設備在對DNA進行解碼時所獲得的數據越來越多,速度也越來越快,如劍橋伯德研究所(Broad Institute in Cambridge)的有關負責人就介紹稱,在今年10月的實驗中,他們每解碼一個人類基因組需要32分鐘,所產生的原始數據高達200TB。
雖然這種量級的數據流與大型網際網路公司所處理的數據相去甚遠(伯德研究所兩個月所產生的數據與YouTube上一天的數據上傳量相仿),但卻遠遠超過了任何一位生物學家的處理能力。就目前情況而言,此類數據的存儲和訪問通常通過大型的商業數據中心來實現。美國國家癌症研究所在上月曾表示將耗資1900萬美元將大小為2.6PB的癌症基因組圖譜數據的副本存儲到雲端,這些涉及數千名癌症患者的數據的副本未來也將會存儲到谷歌Google Genomics項目和亞馬遜的數據中心。
西雅圖系統生物學研究所(Institute for Systems Biology)的科學家希拉·雷諾茲(Sheila Reynolds)指出,他們希望創建一個“癌症基因組數據云”,讓科學家們可以像使用傳統網路搜尋那樣簡便地分享信息和進行虛擬實驗,“畢竟並不是每個人都擁有處理PB級數據的能力的,”她說道。
谷歌和亞馬遜已經就DNA數據向雲端轉移的費用進行了為期一年的價格戰。谷歌表示每個基因組的年存儲費為25美元,而計算這些數據還需要支付額外的費用。目前一個人類基因組在解碼之後的原始數據大小在100GB左右,不過該數據還可以被精簡至1GB以下,谷歌對此類數據的雲端儲存價為每年0.25美元。
雲存儲服務在一定程度上推動了Tute Genomics、Seven Bridges和NextCode Health等初創企業的發展,這些公司均致力於研究能夠幫助醫院和科學家檢索基因數據的“瀏覽器”服務。“谷歌和亞馬遜所提供的是後端服務,他們往往會鼓勵我們在他們的雲端創建基因組公司,”Seven Bridges的執行長德尼茲·庫魯爾(Deniz Kural)介紹道,該公司目前在亞馬遜的雲端存儲並管理著1600位研究人員所提供的基因組數據。
庫魯爾指出,未來一款藥物的研究和套用也將會依賴於在全球“DNA網際網路”上進行數據檢索,“根據我們的預測,加入我在未來身患肺癌,那么醫生就會對我的基因組和腫瘤基因組進行測序,然後將對應的數據與資料庫中的5000萬組數據進行對比,”他說道,“結果就是能夠在短時間內找到最適合我的藥物。”
根據谷歌軟體工程師格雷澤的介紹,Google Genomics項目旨在推動生物醫學研究從“作坊式”向“工業化規模生產”發展,目前他本人也在學習遺傳基因方面的知識,同時也在聽伯德研究所總監埃里克·蘭德爾(Eric Lander)的《生物學概述》(Introduction to Biology)課程,此外格雷澤也已經將自己的基因組測序數據放在了谷歌的雲端。
格雷澤並未談及Google Genomics項目的規模以及目前為多少客戶提供服務,只是透露稱目前已經有3500組來自公共項目的基因組存儲在谷歌的伺服器上。同時他還指出該項目與谷歌在近期大力投入的保健類項目(如谷歌在今年啟動的研究如何延長人類壽命的Calico項目)暫無關聯,“與基因組有關的就是人們正在逐漸認識到科學技術是能夠推動並改變生命科學研究的現狀的,”格雷澤說道。
負責管理史丹福大學內最大的遺傳數據計算機集群的物理學家索馬里·達塔(Somalee Datta)表示,由於谷歌和亞馬遜的雲存儲服務在近期都下調了價格,其存儲成本已經降至與他們的數據中心運營成本相似的水平,“我們認為雲存儲價格還是繼續下降,一直到比較合理的區間,”達塔說道。
達塔還介紹說,目前一些斯坦福的科學家已經開始使用谷歌的BigQuery資料庫系統(格雷澤的團隊已經將該系統與基因組數據相兼容),該系統最初是為了跟蹤網民活動而開發的,但其同樣能夠幫助科學家們進行數以千計的大型基因組試驗,“有時候科學家們會想要做一些比較瘋狂的事情,那么就需要一定的數據存儲和分析處理能力,”達塔說道,“而谷歌目前就能夠提供這種能力,所以我認為這是一種正確的技術發展方向,也是值得整個科研界為之肯定和鼓勵的。”