GraphLab

1. 背景

GraphLab 的設計目標是在集群或者多處理機的單機系統上實現大規模的機器學習算法。一般的機器學習類算法有以下兩個特性。

● 數據依賴性很強。運算過程中參與計算的各個機器之間經常需要交換大量的數據。

● 流處理複雜。主要表現在整個處理過程需要反覆地疊代計算，數據處理分支很多，很難實現真正的並行。

在GraphLab 出現之前，針對這些機器學習的算法，普遍的編程方法是採用MPI 和PThread 這些已有的底層開發庫來完成這類計算問題。採用這種編程模型的開發套用，針對具體的套用，需要開發者實現相應的算法來完成計算過程中集群計算節點之間主機通信和數據同步等底層操作。這種開發方法的優勢在於，可以針對具體的套用對代碼進行深度的最佳化，以達到很高的性能。但是對於不同的套用，需要重寫代碼實現底層的數據分配、數據通信等細節，這就導致了代碼重用率很低，可拓展性差，對編程人員要求高。這種編程模型顯然不適合當前敏捷的網際網路開發。而當前被廣泛使用的MapReduce 計算框架，在並行執行多任務的時候，要求各個任務之間相互獨立，任務執行期間不需要相互之間進行數據通信，所以MapReduce 不適合數據依賴性強的任務，而且MapReduce 並行計算模型也不能高效表達疊代型算法。這種計算模型在處理如日誌分析、數據統計等數據獨立性的任務時具有明顯的優勢，但是在機器學習領域，MapReduce 框架並不能很好地滿足機器學習計算任務。

為了實現機器學習算法通用性的目標，CMU 的Select 實驗室開發出了GraphLab。

2. GraphLab和MapReduce的區別

GraphLab 的出現不是對MapReduce 算法的替代，相反，GraphLab 借鑑了MapReduce 的思想，將MapReduce 並行計算模型推廣到了對數據重疊性、數據依賴性和疊代型算法適用的領域。本質上，GraphLab 填補了高度抽象的MapReduce 並行計算模型和底層訊息傳遞、多執行緒模型（如MPI 和PThread）之間的空隙。

當前流行的並行計算框架MapReduce 將並行計算過程抽象為兩個基本操作，即map 操作和reduce 操作，在map 階段將作業分為相互獨立的任務在集群上進行並行處理，在reduce 階段將map 的輸出結果進行合併得到最終的輸出結果。GraphLab 模擬了MapReduce 中的抽象過程。對MapReduce 的map 操作，通過稱為更新函式（Update Function）的過程進行模擬，更新函式能夠讀取和修改用戶定義的圖結構數據集。用戶提供的數據圖代表了程式在記憶體中和圖的頂點、邊相關聯的記憶體狀態，更新函式能夠遞歸地觸發更新操作，從而使更新操作作用在其他圖節點上進行動態的疊代式計算。GraphLab 提供了強大的控制原語，以保證更新函式的執行順序。GraphLab 對MapReduce 的reduce 操作也通過稱為同步操作（Sync Operation）的過程進行模擬。同步操作能夠在後台計算任務進行的過程中執行合併（Reductions），和GraphLab 提供的更新函式一樣，同步操作能夠同時並行處理多條記錄，這也保證了同步操作能夠在大規模獨立環境下運行。

GraphLab

相關詞條

熱門詞條