基本信息
含義
什麼是hapmap
HapMap是
人類基因組中常見遺傳
多態位點的目錄,它描述了這些變異的形式、在DNA上存在的位置、在同一群體內部和不同人群間的分布狀況。
HapMap計畫並不是利用HapMap中的信息來建立特定的
遺傳變異與某一疾病之間的聯繫,而是為其他研究者提供相關信息使之能夠將遺傳多態位點和特定疾病風險聯繫起來,從而為預防、診斷和治療疾病提供新的方法。
構成
我們細胞中的DNA是由四種基本化學“構件”——腺嘌呤(A)、
胸腺嘧啶(T)、胞嘧啶(C)和
鳥嘌呤(G)所組成的長鏈。人類細胞中的23對染色體就是由多於60億個這種化學單位排列而成。這些遺傳序列包含的信息可以影響我們的身體性狀、罹患疾病的可能性以及身體對遇到的外界物質的反應。
不同人的遺傳序列極為相似。若比較兩個人的染色體,他們的DNA序列上可以連續數百個核甘酸都是相同的。然而,平均約每1200個鹼基就會有一個核甘酸的不同。在一個位點上某人是A,另一個人卻有可能是G;或者某人在特定的位點上多出或者缺失一些
鹼基或DNA片段。
染色體DNA同一位置的每個鹼基類型被稱為等位位點(allele),一個人染色體上的所有等位位點的集合就是
基因型。
區別
對遺傳學家來說,SNPs也是進行
基因定位的
分子標記。比如說基因上一個拼寫的改變會增加罹患高血壓的風險,但是研究者們並不知道這個基因在染色體上的位置。他們可以比較高血壓患者和正常人的SNPs。如果某一個
SNP在高血壓患者中很常見,就可以把這個SNP作為標記來定位和識別與這一疾病相關的基因。
然而,檢測
人類染色體上所有的一千萬個常見
SNPs的費用極其昂貴。
HapMap的構建將使得遺傳學家可以利用SNPs及其它遺傳上的變異在染色體上的組成特點。一些相互鄰近的
多態位點趨向於在一起共同遺傳。例如,對於所有那些在某一位點是A而不是G的人來說,該位點周圍染色體區域上的SNPs狀況很可能是一致的。這些變異連鎖的區域就是
單體型(圖)。
在
人類染色體的很多區域中,只發現了少數的幾種單體型 [見“單體型的起源”]。在一個特定人群中,55%的人可能擁有同一種單體型,30%的人可能擁有另一種單體型,8%的人可能擁有第三種單體型,而其餘的人可能擁有若干種稀有的單體型。HapMap計畫將鑑定來自世界不同地區的四個群體的常見單體型,以及特異識別這些單體型的標籤
SNPs。通過檢測個體的標籤SNPs(該過程稱為
基因分型),研究者就可以鑑定一個人的單體型的集合。估計包含了大多數
遺傳變異的模式信息的標籤SNPs的數量大約是30萬至60萬,遠遠少於一千萬個常見SNPs。
意義
一旦從
HapMap中獲得標籤
SNPs的信息,研究者將能利用它們來定位與重要醫學特徵相關的基因。假設研究者想要找到與高血壓相關的遺傳變異,他並不需要確定一個人的所有SNPs的類型,而只須對少得多的標籤SNPs進行
基因分型就可以得到一個人的
單體型的集合。研究者可以集中研究可能與疾病相關的特定
候選基因,也可以縱觀整個
基因組來找到與疾病相關聯的染色體區域。如果高血壓患者都傾向於具有一個特別的單體型,與該疾病相關的變異位點很可能就在這個單體型內部或鄰近區域。
用途
國際
HapMap計畫通過提供充分資源,使研究人員用於發現與疾病及個體治療反應相關的遺傳
多態位點,從而對人類健康做出貢獻。一旦發現這樣的變異位點,研究人員可以更多地了解該疾病的起因以及預防、診斷和治療的方法。
項目的目標並不是直接確定與疾病相關的基因,而是通過確定
單體型,使單體型圖成為用於進行關聯研究的一個工具。在關聯研究中,研究人員將患者的單體型與健康人(對照)的單體型相比較。如果與對照相比,某一種單體型在患者中經常出現,影響該疾病的基因可能就存在於這個單體型內部或附近。
常見的疾病如癌症、中風、
心臟病、糖尿病、
憂鬱症和哮喘等是多個
遺傳變異位點與
環境因子共同作用的結果。根據“常見疾病-常見變異”的假說,罹患常見疾病的風險受到人群中相對常見的遺傳變異的影響。目前還沒有足夠的證據來支持該假說的普遍性,但是越來越廣泛分布的與常見疾病相關的遺傳變異位點正在被發現,包括那些涉及自體免疫疾病、
精神分裂症、糖尿病、哮喘、中風和
心臟病的
多態位點。國際
HapMap計畫的益處之一就是可以利用
單體型圖HapMap來更多地了解常見疾病和我們的基因之間的關係。
HapMap還將產生目前尚很難預料的知識上的進展。未來可以在患者的遺傳構成的基礎上實現個體化醫療,從而得到最好的效果並將副作用降至最低。與長壽和抗病能力有關的
遺傳變異將被確定,從而產生具有廣泛益處的新療法。對任何新知識而言,HapMap既帶來新的挑戰,又帶來不可預料的空前的機遇。
人群樣品
大多數常見的
單體型存在於所有的
人類群體中,但它們在不同人群中頻率不同。因此,為了選擇標籤
SNPs,有必要獲得幾個人群的數據。先期的研究發現,單體型頻率在
奈及利亞(Yoruba)、日本、中國和美國(1980年由Centre d'Etude du Polymorphisme Humain [CEPH] 採集並曾用於其它人類遺傳圖譜研究的北歐和西歐後裔的樣品)人群樣本中有著顯著的差異。這些差異性保證了通過對這些人群進行大規模的單體型分析的合理性,因而自上述人群的繪製的單體型圖應當對世界上所有的人群有益。然而,增加其他人群會獲得多少更多信息將通過一項檢查其他樣品的若干染色體區域的
單體型的
平行研究做出確切回答。
用於構建單體型圖計畫的DNA樣品共有270份,分別來自90個
奈及利亞Ibadan的Yoruba人(30個父母加一個後代組成的三體家系),45個東京的日本人(無關個體),45個北京的漢族(無關個體),和90份CEPH樣品(30個三體家系)。樣品的數目能使通過單體型圖計畫發現幾乎全部頻率大於5%的單體型。在經過恰當的社群參與(community engagement)或公眾諮詢以及個人的知情同意後,本項目所有新樣品的採集程式都獲得了相應的
倫理委員會的批准。設計社群參與的目的則是為了對具有不同文化背景的取樣社群產生的對知情同意和樣本採集程式的特殊疑問有所理解和反饋。
CEPH樣品是從非盈利的Coriell醫學研究所獲得。2004年,經相應的倫理委員會批准後,Coriell將為進一步的研究提供其他血樣的DNA或細胞系。樣品中只有人群和性別的標識而沒有醫學或個體的可辨別信息。每一個採集新樣品的社群將成立一個諮詢委員會,以保持同Coriell的聯絡並確保這些樣品將來的使用與知情同意書上的條款是一致的。
倫理學
這一項目包含若干倫理學問題。因為所研究的樣本並不包含捐獻者的個人標識,所以泄漏個人信息的風險很小。不過,為了以後研究者能夠針對所研究人群選擇最佳的標籤
SNPs,每一個樣本將按人群標記。標籤SNPs的選擇將以
單體型頻率為基礎。如果
基因組中某些特定區域的單體型在不同的人群中有顯著不同的頻率,那么這些區域的標籤SNPs也可能因人群而異。所以,每個人群的
SNP和單體型頻率將被計算和用於比較研究。
在這種情況下,如果在一個人群中發現了一個高頻的疾病相關的變異位點,而且與此位點相關的疾病風險在該人群中高於所有或大多數其他人群,就有可能產生對這個群體的誣衊和歧視。本研究另一個潛在的顧慮是人群的含義來自祖先的居住地域,這可能導致“種族”的劃分,而這種更多具有社會含義的劃分常被錯誤地以為是有準確的生物學含義的。項目將通過社群參與來了解目標人群對這些問題的看法或疑問。
科學策略
為了構建
單體型圖,要對樣本的至少100萬
SNPs進行全基因組規模的基因分型檢測。在本研究計畫起步時,dbSNP公共資料庫中共有280萬個SNPs。然而,很多染色體區域的SNPs太少,另有很多SNPs則因為頻率太低而無法使用。所以,構建單體型圖還需要數百萬更多的
SNP位點。截止到2003年9月,本項目又發現的280萬SNPs。現在這項工作仍在繼續進行。
整個SNP分型工作將由加拿大、中國、日本、英國和美國的10個研究中心進行。每箇中心將針對所承擔的
染色體對所有的研究樣本進行基因分型檢定。這些中心共採用了5種檢定分型技術。項目的初期目標(至2004年6月左右)是構建出一個約由60萬個在
人類基因組中
均勻分布的
SNPs構成的圖譜,其
SNP密度約為每5000個鹼基一個位點。然後將針對需要定義
單體型邊界的區域進行更多的SNP位點的檢定。分型結果的質量將通過重複樣本、所有中心對一組同樣SNPs進行檢測、以及對一定數量的已檢定結果進行不同中心的互相檢測來保證。
數據分析
此項研究的基本數據是各人群總計270個樣品的
SNP等位位點的頻率和
基因型。為了構建
單體型和選擇標籤SNP位點,本研究將採用標準的SNP
連鎖分析如D'和r2 ,同時發展新的分析方法。因為本研究的所有數據將免費共享,其他研究者也可以用另外的手段來分析數據或是改進分析方法。
本研究產生的數據將顯示常見的人類基因組遺傳的
多態模式,包括個體間遺傳多態位點的數量,人群間具有不同單體型頻率的區域和不同染色體區域
SNPs的連鎖範圍。
獲得數據和智慧財產權政策
HapMap項目將向公眾公布所有的實驗數據,以讓任何研究者利用這些信息。新的
SNP位點、
SNP基因分型實驗設計、SNP檢定結果和頻率,以及構建的
單體型一經產生,將很快發布。當對染色體區域進行了足夠的SNP分型來確定緊密連鎖的區域時,這些區域的單體型、個體的
基因型和標籤SNPs將無條件地公開發布。然而,對那些還沒有足夠分型密度數據的區域,要獲得個體的基因分型結果,就要遵守數據訪問政策。這項政策只有很小的約束,既使用者必須同意不能使其他人訪問這些數據有所減少,同時只能與也同意這個政策的人士共享這些數據。這個暫時性的政策的唯一目的就是為了保證項目的所有數據能被公眾所享有。項目完成時,任何還未發布的數據都將公開。
本研究項目不包含將
遺傳多態性落實到
表現型的有特殊利用價值的研究,如疾病易感或對藥物的反應。項目的參加者認為將還未有產生特殊用途的
SNP位點、
基因型或
單體型用於專利發明是不適當的。只要使用者不影響其他人獲得本研究的數據,數據訪問政策不阻止使用者對他們已經顯示有特殊利用價值的SNP位點或單體型圖申請專利。在數據公布以前,項目參加者不會將本項目的數據用於自己實驗室的其它研究。
數據訪問
在數據發布至dbSNP資料庫(如
SNP位點、SNP檢測設計、等位位點及其頻率)或數據協調中心的
基因型資料庫(如個體的基因型和
單體型)之前,國際“
人類基因組單體型圖計畫”的參加者不能將本項目的數據用於自己實驗室的其它研究項目(包括他們自己產生的數據)。
國際“人類基因組單體型圖計畫”的參加者使用與其他使用者一樣的數據訪問政策。對於基因型和單體型數據來講,也使用公眾數據訪問政策的協定。所有參加者已經確認他們接受與其他使用者一樣的許可協定。
如果沒有確認的用途/功能(即與
表現型相關),項目參加者不能對本研究產生的SNP位點或單體型申請專利。參加者如果有功能證據或其他已確認的用途,可以對與疾病或功能相關的
SNP位點或
單體型申請專利。但是,因為
HapMap計畫不含有產生功能或套用信息的研究,所以這些結果只能通過HapMap項目以外的研究獲得。如果項目參加者想使用本計畫的數據進行其它研究,只能通過已對外公布的dbSNP庫或數據協調中心的資料庫獲得信息。如果參加者申請了專利並獲得批准,他們不能就此妨礙其他人訪問HapMap的數據。
參加機構
HapMap計畫將由日本、英國、加拿大、中國、
奈及利亞和美國的科學家們合作完成。項目正式開始於2002年10月27-29日的HapMap計畫第一次會議,預計進行3年。