低功耗文檔挖掘關鍵技術的研究

低功耗文檔挖掘關鍵技術的研究

《低功耗文檔挖掘關鍵技術的研究》是依託上海交通大學,由周憬宇擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:低功耗文檔挖掘關鍵技術的研究
  • 項目類別:青年科學基金項目
  • 項目負責人:周憬宇
  • 依託單位:上海交通大學
項目摘要,結題摘要,

項目摘要

文檔挖掘在很多領域都有著重要用途。由於文檔數量多、計算複雜度高,目前文檔挖掘主要使用集群系統完成,消耗大量的電力。雖然異構多核在能耗上具有優勢,但將傳統的文檔挖掘移植到異構多核平台上還缺乏能耗最佳化的方法和工具,目前多核的套用還主要集中在利用並行計算提高速度方面。本課題的主要目的是利用現有的異構多核體系結構(特別是GPU),將文檔挖掘任務中存在的複雜計算從CPU轉移到功耗更低的GPU上,從而在不影響運算速度的前提下達到降低功耗的目標。主要研究內容是在構建異構多核的速度和功耗模型以及文檔挖掘的任務模型的基礎上,研究自動的任務分解和資源配置的最佳化方法,設計並實現異構多核上編程模式與示範用例,還研究文檔特徵提取和降維的新方法。課題的研究成果不僅可以填補低功耗文檔挖掘技術的空白,還對其它低功耗研究和多核技術發展有著借鑑意義。

結題摘要

文檔挖掘在很多領域都有著重要用途。現在的文檔挖掘系統面臨著海量數據處理和計算複雜度高的雙重挑戰,本課題結合異構多核的計算平台和新型的文檔挖掘算法,在提高挖掘算法的運行速度的同時減少了計算的能耗。 課題首先從構建異構多核的速度和功耗模型出發,研究了異構多核環境中任務分解方法,在CPU多核和GPU多核上通過C++模版元編程實現了包括層次分解、流水線分解和MapReduce的分解模型,利用模版機制自動為不同多核架構實現源到源的代碼變換。為提高任務在多核環境下的執行效率,我們分別提出了三種不同的方法。(1)針對多處理器多核系統,我們設計了快取感知的雙層任務竊取調度CAB算法,最多可減少存儲密集型套用55%的運行時間;(2)針對異構多核系統;我們設計了基於歷史任務分配和依據偏好的WATS算法,充分考慮不同核芯的計算能力並對任務進行調度,實驗表明對計算密集型套用可以提高64%的性能;(3)針對多路多核處理器上運行的並發任務,我們設計了CAC算法,同時考慮任務的記憶體消耗和計算開銷,實驗表明我們的方法能夠顯著提高程式性能。 其次,針對文檔挖掘的任務,課題組提出了不精確光譜分析的降維方法,大規模地降低了LSI的計算複雜度,在分類問題上取得與LSI相同的精度的同時有效地減少計算時間和能耗。在文檔挖掘的套用方面,提出了社會網路中尋找最有影響力節點問題的GAUP算法,通過兩個階段分別計算用戶的偏好和基於偏好的top-k節點,實驗表明GAUP方法優於傳統HITS算法和協同過濾方法。此外,我們研究了從新聞搜尋結果中尋找細粒度話題的算法,通過考慮多個相似度和凝聚聚類的方法,取得了優於Google News 40%的結果。最後,我們還研究了通過靜態分析和動態執行相結合的方法,從Web套用的JavaScript代碼中提取有用信息。 最後,針對數據向雲端遷移的趨勢,我們還開展了雲數據管理方面的研究。設計並實現了雲備份和同步工具RosyCloud、雲備份和檢索系統CloudDepot、以及雲端查詢的可驗證索引。 經過三年多來的努力,本課題獲得了兩個國際會議的最佳論文獎,已經發表論文12篇,還與眾多國內外同行交流了研究成果。

相關詞條

熱門詞條

聯絡我們