支持大型社交網路的雲存儲系統

支持大型社交網路的雲存儲系統

《支持大型社交網路的雲存儲系統》是依託浙江大學,由伍賽擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:支持大型社交網路的雲存儲系統
  • 依託單位:浙江大學
  • 項目負責人:伍賽
  • 項目類別:青年科學基金項目
項目摘要,結題摘要,

項目摘要

社交網路的用戶量和數據都在急速增長,在我國有超過1.6億人在使用社交網路。社交網路數據處理系統必須能夠處理海量數據,能夠支持高並發查詢,能夠對數據進行有效的分析。傳統的資料庫系統已經無法支持新型的社交網路套用,成為了制約社交網路發展的一大障礙。針對這一問題,本研究將雲計算技術和社交網路相結合,通過設計新型的雲數據處理平台來利用雲計算的無限計算資源為社交網路服務。為了將社交網路存儲在雲平台上,我們將研究如何把社交網路數據轉化為圖模式,然後按照分而治之的策略將整個社交網路圖切分為若干子圖,每個子圖都被分散到不同的雲計算節點來進行處理。在這一策略中,本研究需要解決一系列的科研難題,比如:圖劃分問題、分散式索引問題、並發查詢引擎問題以及社交網路實時分析等。每一個子項都涉及到目前國內外非常前沿的科研課題。本項目將研發一個原型系統部署在真實的雲環境中。具體的研究成果,將發表在國內外知名刊物和會議中。

結題摘要

在可以預見的未來幾年,社交網路還將高速成長,虛擬世界將和現實世界進一步融合,信息將無縫的傳播。為了支持這樣的海量、高增長型套用,資料庫必須結合雲計算技術,修改已有的體系結構和算法,設計新型的海量高效可擴展的存儲系統,以契合社交網路套用的需求。因為社交網路獨特的性質,要達到海量、高效和可擴展這三個要求,存儲系統需要解決諸多技術挑戰。首先,不同於其他關係資料庫系統,社交網路中的人們根據朋友關係以圖的方式連線起來,社交網路中的查詢也和這種圖結構相關,必須設計以圖模型為核心的存儲和處理平台;其次,社交網路即強調查詢的實時性,也需要對用戶的行為進行大數據分析,因此需要一個混合式的查詢處理和索引機制,能夠同時有效的支持兩類套用;最後,社交網路分析涉及大量的分析模型,數據是動態的實時變化的,巨大的用戶數也導致需要分析的數據異常龐大,以往的數據挖掘算法不再適用,因此必須因地制宜的設計出新的數據挖掘算法。基於以上考量,本課題探討如何使用雲計算存儲技術來處理大型社交網路中的海量數據,通過彈性處理、並行算法、分散式索引等雲特性來為社交網路套用提速,以解決當前社交網路數據管理系統的不足。本課題的具體研究內容包括:社交網路圖的雲存儲算法、社交網路的雲索引結構、社交網路的並行分析算法以及社交網路個性化服務算法等關鍵問題。項目開展過程中的主要研究成果包含:一個新型的社交網路圖處理框架,解決了谷歌Pregel框架中的訊息瓶頸問題,通過兩階段處理機制避免了冗餘信息;在該框架下,實現了整合時空社交信息的新型推薦模型,促進了將弱社交關係轉化為強社交關係,適用於移動網際網路套用;針對社交網路資料庫的隱私問題,提出了特殊的K匿名算法,根據用戶查詢模式對數據進行動態的切分和匿名保護;為了進一步的加速社交網路大數據的處理,實現了基於SSHD新硬碟的大數據分析系統HM,該系統使用列存存儲框架,提高MapReduce任務的性能5倍以上,接近純SSD快閃記憶體的性能,並且存儲價格只有SSD的1/10;針對社交網路中的多種套用需求,在HM系統上面構建了新型的分散式檔案中間件,能夠在任何分散式檔案系統上支持基於點陣圖的索引查詢,大大降低了檔案系統的I/O代價。通過一系列的科研進展,形成了以HM系統為核心的社交網路大數據處理平台。

相關詞條

熱門詞條

聯絡我們