特性,總體結構,NameServer,DataServer,平滑擴容,存儲機制,容錯機制,集群容錯,NameServer容錯,DataServer容錯,並發機制,檔案名稱結構,
特性 1. 採用扁平化的數據組織結構
2. 使用HA架構和平滑擴容
3. 支持多種客戶端
4. 支持大小檔案存儲
5. 可為外部提供高可靠和高並發的存儲訪問
6. 支持大檔案功能
7. Resource Center Server,用於管理TFS集群的用戶資源配置
8. TFS服務程式開發框架,統一TFS網路客戶端庫,並新增異步回調功能
9. 最佳化數據流,讓寫請求儘可能均勻的分布在不同的DataServer
總體結構 一個TFS集群由兩個NameServer節點(一主一備)和多個!DataServer節點組成。這些服務程式都是作為一個用戶級的程式運行在普通Linux機器上的。
在TFS中,將大量的小檔案(實際數據檔案)合併成為一個大檔案,這個大檔案稱為塊(Block), 每個Block擁有在集群內唯一的編號(Block Id), Block Id在NameServer在創建Block的時候分配, NameServer維護block與DataServer的關係。Block中的實際數據都存儲在DataServer上。而一台DataServer伺服器一般會有多個獨立DataServer進程存在,每個進程負責管理一個掛載點,這個掛載點一般是一個獨立磁碟上的檔案目錄,以降低單個磁碟損壞帶來的影響。
NameServer NameServer主要功能是: 管理維護Block和!DataServer相關信息,包括DataServer加入,退出, 心跳信息, block和!DataServer的對應關係建立,解除。正常情況下,一個塊會在DataServer上存在, 主NameServer負責Block的創建,刪除,複製,均衡,整理, NameServer不負責實際數據的讀寫,實際數據的讀寫由DataServer完成。
DataServer DataServer主要功能是: 負責實際數據的存儲和讀寫。
同時為了考慮容災,NameServer採用了HA結構,即兩台機器互為熱備,同時運行,一台為主,一台為備,主機綁定到對外vip,提供服務;當主機器宕機後,迅速將vip綁定至備份NameServer,將其切換為主機,對外提供服務。圖中的HeartAgent就完成了此功能。
TFS的塊大小可以通過配置項來決定,通常使用的塊大小為64M。TFS的設計目標是海量小檔案的存儲,所以每個塊中會存儲許多不同的小檔案。DataServer進程會給Block中的每個檔案分配一個ID(File ID,該ID在每個Block中唯一),並將每個檔案在Block中的信息存放在和Block對應的Index檔案中。這個Index檔案一般都會全部load在記憶體,除非出現DataServer伺服器記憶體和集群中所存放檔案平均大小不匹配的情況。
另外,還可以部署一個對等的TFS集群,作為當前集群的輔集群。輔集群不提供來自套用的寫入,只接受來自主集群的寫入。當前主集群的每個數據變更操作都會重放至輔集群。輔集群也可以提供對外的讀,並且在主集群出現故障的時候,可以接管主集群的工作。
平滑擴容 原有TFS集群運行一定時間後,集群容量不足,此時需要對TFS集群擴容。由於DataServer與NameServer之間使用心跳機制通信,如果系統擴容,只需要將相應數量的新DataServer伺服器部署好應用程式後啟動即可。這些DataServer伺服器會向NameServer進行心跳匯報。NameServer會根據DataServer容量的比率和DataServer的負載決定新數據寫往哪台DataServer的伺服器。根據寫入策略,容量較小,負載較輕的伺服器新數據寫入的機率會比較高。同時,在集群負載比較輕的時候,NameServer會對DataServer上的Block進行均衡,使所有!DataServer的容量儘早達到均衡。
進行均衡計畫時,首先計算每台機器應擁有的blocks平均數量,然後將機器劃分為兩堆,一堆是超過平均數量的,作為移動源;一類是低於平均數量的,作為移動目的。
移動目的的選擇:首先一個block的移動的源和目的,應該保持在同一網段內,也就是要與另外的block不同網段;另外,在作為目的的一定機器內,優先選擇同機器的源到目的之間移動,也就是同台!DataServer伺服器中的不同!DataServer進程。 當有伺服器故障或者下線退出時(單個集群內的不同網段機器不能同時退出),不影響TFS的服務。此時!NameServer會檢測到備份數減少的Block,對這些Block重新進行數據複製。
在創建複製計畫時,一次要複製多個block, 每個block的複製源和目的都要儘可能的不同,並且保證每個block在不同的子網段內。因此採用輪換選擇(roundrobin)算法,並結合加權平均。
由於DataServer之間的通信是主要發生在數據寫入轉發的時候和數據複製的時候,集群擴容基本沒有影響。假設一個Block為64M,數量級為1PB。那么NameServer上會有 1 * 1024 * 1024 * 1024 / 64 = 16.7M個block。假設每個Block的元數據大小為0.1K,則占用記憶體不到2G。
存儲機制 在TFS中,將大量的小檔案(實際用戶檔案)合併成為一個大檔案,這個大檔案稱為塊(Block)。TFS以Block的方式組織檔案的存儲。每一個Block在整個集群內擁有唯一的編號,這個編號是由NameServer進行分配的,而DataServer上實際存儲了該Block。在!NameServer節點中存儲了所有的Block的信息,一個Block存儲於多個!DataServer中以保證數據的冗餘。對於數據讀寫請求,均先由!NameServer選擇合適的!DataServer節點返回給客戶端,再在對應的!DataServer節點上進行數據操作。!NameServer需要維護Block信息列表,以及Block與!DataServer之間的映射關係,其存儲的元數據結構如下:
在!DataServer節點上,在掛載目錄上會有很多物理塊,物理塊以檔案的形式存在磁碟上,並在!DataServer部署前預先分配,以保證後續的訪問速度和減少碎片產生。為了滿足這個特性,!DataServer現一般在EXT4檔案系統上運行。物理塊分為主塊和擴展塊,一般主塊的大小會遠大於擴展塊,使用擴展塊是為了滿足檔案更新操作時檔案大小的變化。每個Block在檔案系統上以“主塊+擴展塊”的方式存儲。每一個Block可能對應於多個物理塊,其中包括一個主塊,多個擴展塊。 在DataServer端,每個Block可能會有多個實際的物理檔案組成:一個主Physical Block檔案,N個擴展Physical Block檔案和一個與該Block對應的索引檔案。Block中的每個小檔案會用一個block內唯一的fileid來標識。!DataServer會在啟動的時候把自身所擁有的Block和對應的Index載入進來。
容錯機制 集群容錯 TFS可以配置主輔集群,一般主輔集群會存放在兩個不同的機房。主集群提供所有功能,輔集群只提供讀。主集群會把所有操作重放到輔集群。這樣既提供了負載均衡,又可以在主集群機房出現異常的情況不會中斷服務或者丟失數據。
NameServer容錯 Namserver主要管理了DataServer和Block之間的關係。如每個!DataServer擁有哪些Block,每個Block存放在哪些DataServer上等。同時,NameServer採用了HA結構,一主一備,主NameServer上的操作會重放至備NameServer。如果主NameServer出現問題,可以實時切換到備NameServer。 另外NameServer和DataServer之間也會有定時的heartbeat,DataServer會把自己擁有的Block傳送給!NameServer。NameServer會根據這些信息重建DataServer和Block的關係。
DataServer容錯 TFS採用Block存儲多份的方式來實現!DataServer的容錯。每一個Block會在TFS中存在多份,一般為3份,並且分布在不同網段的不同DataServer上。對於每一個寫入請求,必須在所有的Block寫入成功才算成功。當出現磁碟損壞DataServer宕機的時候,TFS啟動複製流程,把備份數未達到最小備份數的Block儘快複製到其他DataServer上去。 TFS對每一個檔案會記錄校驗crc,當客戶端發現crc和檔案內容不匹配時,會自動切換到一個好的block上讀取。此後客戶端將會實現自動修復單個檔案損壞的情況。
並發機制 對於同一個檔案來說,多個用戶可以並發讀。 現有TFS並不支持並發寫一個檔案。一個檔案只會有一個用戶在寫。這在TFS的設計裡面對應著是一個block同時只能有一個寫或者更新操作。
檔案名稱結構 TFS的檔案名稱由塊號和檔案號通過某種對應關係組成,最大長度為18位元組。檔案名稱固定以T開始,第二位元組為該集群的編號(可以在配置項中指定,取值範圍 1~9)。餘下的位元組由Block ID和File ID通過一定的編碼方式得到。檔案名稱由客戶端程式進行編碼和解碼,它映射方式如下圖:
TFS客戶程式在讀檔案的時候通過將檔案名稱轉換為BlockID和FileID信息,然後可以在!NameServer取得該塊所在!DataServer信息(如果客戶端有該Block與!DataServere的快取,則直接從快取中取),然後與!DataServer進行讀取操作。