基於雲計算的海量網路數據管理與搜尋技術

基於雲計算的海量網路數據管理與搜尋技術

《基於雲計算的海量網路數據管理與搜尋技術》是依託上海電力大學,由雷景生擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於雲計算的海量網路數據管理與搜尋技術
  • 項目類別:面上項目
  • 項目負責人:雷景生
  • 依託單位:上海電力大學
項目摘要,結題摘要,

項目摘要

海量Web數據管理與搜尋面臨著計算、存儲、實時性等多方面的問題。並行計算是解決這些問題的有效途徑,然而傳統的並行計算昂貴且難以擴展。基於雲計算環境的Web數據管理與搜尋可以按需獲取計算力、存儲空間,且即用即釋,動態擴展,經濟高效,為Web數據管理與搜尋提供了新的平台。為此,本課題研究:(1)構建海量Web數據的高效索引機制,使雲計算系統能夠在負載平衡和查詢效率之間取得平衡,從而提高系統的總體性能;(2)研究基於分散式檔案系統的Web數據存儲體系,確保Web數據存取的高吞吐量、高可靠性、可伸縮性;(3)在雲計算環境下,研究基於Mapreduce的並行化計算技術,擬採用的客戶端- - 任務調度與執行- - 數據存儲層三層架構的海量Web數據並行處理結構,將有效的提升雲計算環境中的並行計算能力;(4)研究在雲計算平台上的並行Web數據自動採集機制。

結題摘要

首先建立一種雲計算環境下管理海量Web 數據的索引框架,並給出數據存取機制和索引切分策略。考慮到雲計算節點之間數據存儲的協同要求,將索引分為上下兩個層次,上層為全局索引,下層為局部索引。接著對在雲計算環境下,基於Mapreduce 的並行化計算技術和高可靠、可伸縮的Web 數據存儲體系進行研究,以確保Web 信息的高效處理。最後,研究在雲計算平台上的並行Web 數據自動採集機制。 針對雲計算環境下分散式存儲系統的數據索引不支持複雜查詢的問題,提出了一種多維數據索引機制M-Index,採用金字塔技術將數據的多維元數據描述成一維索引,在此基礎上提出前綴二叉樹的概念,通過提取一維索引和PBT有效節點的前綴作為數據在存儲系統中的主鍵。數據根據主鍵和一致性Hash機制發布到存儲節點組成的覆蓋網路。設計了基於M-Index的數據查詢算法,將複雜查詢請求轉換成一維查詢鍵值,有效支持多維查詢和區間查詢等複雜查詢模式。理論分析和實驗表明,M-Index在複雜查詢模式下具有良好的查詢效率和負載均衡。 在MapReduce 模型的基礎上,建立一種並發處理海量Web 數據的更通用、更可擴展的並行化計算環境。 首先,構建一個客戶端--任務調度與執行層-- 數據存儲層三層架構的海量Web 數據並發處理結構。在客戶端,通過可配置的XML 文檔提交用戶任務。在進行任務調度與執行層設計時,將採用了幾個關鍵的策略,如通用平台策略、負載均衡策略、中間結果處理策略和容錯策略。接著,將採用主控節點--分派節點--服務節點的三點式架構。其中,主控節點負責收集與處理其他節點的各種信息;分派節點負責解析、分派任務,獲取任務執行結果;服務節點負責任務的具體執行。三種節點互相配合,共同完成數據的並行處理。最後,在搭建的平台上,將進行若干測試系統性能的實驗。通過單機與並發執行用戶任務的對比實驗,評價並行計算平台的效率;通過執行不同類型的任務,說明如何在集群規模一定的情況下,實現性能調優。

相關詞條

熱門詞條

聯絡我們