《基於MapReduce的快速查詢和分析關鍵技術的研究》是依託復旦大學,由王鵬擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於MapReduce的快速查詢和分析關鍵技術的研究
- 依託單位:復旦大學
- 項目類別:青年科學基金項目
- 項目負責人:王鵬
項目摘要,結題摘要,
項目摘要
MapReduce技術被廣泛的套用於很多大型的數據分析套用中。通過MapReduce框架,用戶能夠方便的開發分散式套用。但MapReduce批處理的實現機制,使得對海量數據的查詢和分析,往往需等待很長時間才能得到最終結果,不利於互動式的數據分析。本項目擬針對這一問題,研究基於MapReduce的快速查詢和分析的關鍵技術。在查詢處理層研究查詢操作的實時處理技術、效率估計函式和邏輯查詢計畫生成方法;系統層研究物理查詢計畫的生成和動態調整方法,以及快速MapReduce中的容錯技術;結果展示層研究精簡化、動態化和置信度量化的結果表示技術。還將針對數字圖書館的用戶日誌分析套用的特點,對MapReduce上增量式的查詢分析展開研究。本項目對海量數據的分散式查詢處理技術有著重要的學術意義;通過提高MapReduce套用回響時間,可以提升MapReduce的互動分析處理能力,具有實際套用價值。
結題摘要
在本課題的研究過程中,研究成果主要包含三個方面。 1、在詳細分析MapReduce的原始碼的基礎上,通過修改MapReduce核心,設計並實現了Online MapReduce Aggregation系統。區別於傳統的MapReduce執行過程,該系統能夠在MapReduce執行過程中,不斷地得到中間結果,這樣方便執行人員能夠不斷地掌握算法執行結果,從而決定後續的結果是否需要。該成果發表於學生代克的畢業論文。 2、提出了一種基於MapReduce的聚類算法。算法提出了一種代表點的機制,通過將類似的點轉換為代表點所表示的簇,從而大大降低k-means過程所涉及的點,從而提高了算法執行效率。該成果發表於CCF二區會議DASFAA 2014上。 3、提出了一種海量時間序列的索引技術。該方法一方面打破了已有方法中將時間序列降維和索引構建相隔離的機制,在索引構建過程中動態降維;另一方面同時提供了距離下界和上界的估計。該成果發表於CCF一區會議VLDB 2013上。