傾斜任務調度模型及其在醫療大數據處理中的套用研究

中文摘要

傾斜任務是指MapRedcue框架中由於數據內部傾斜和系統不可靠性所引起的執行時間不確定的任務，醫療信息系統中對病歷、醫囑等文本型非結構化數據的處理會產生大量傾斜任務。本項目擬首先通過分析醫療數據的實際特徵，提出一種考慮系統性能與樣本準確率的內部數據鍵值對分布抽樣算法；同時提出一種旨在提高任務本地性，實現負載均衡的Reduce任務放置及中間數據切割與組合模型，並針對Shuffle過程提出基於寫減少技術的數據讀寫最佳化策略。其次提出綜合考慮數據傾斜程度與系統負載率的任務剩餘時間評估模型，實現比現有研究更為準確的啟發式傾斜任務推測執行機制，並由此提出DAG自動生成、實時調度與資源分配模型，解決因傾斜任務導致醫療信息系統性能低下的難題。最後對項目原型與現有醫療大數據分析系統進行集成與驗證。研究成果還將有助於解決數據中心在傾斜任務的本地化、負載均衡以及容錯方面的套用難題，具有較重要的理論與實際價值。

結題摘要

並行分散式計算框架MapReduce非常適合面向醫療大數據的離線分析和知識挖掘，並且在醫療行業已經得到了廣泛的套用。本項目針對醫療大數據處理過程中源輸入數據分布不均勻的情況，提出基於傾斜任務調度模型。主要研究內容按照課題計畫書嚴格推進，現已經完成計畫的內容，包括以下5個方面：（1）本課題完成在醫療文本數據偏斜情況下使用抽樣的方法對中間數據key值分布的預估模型，包括提出使用蓄水池算法和基於步長的拒絕算法，並發表論文一篇。（2）最佳化了傾斜數據shuffle過程中任務負載不均衡和多對多任務通信時的跨節點/機架的網路流量過載問題，並發表了論文三篇。（3）完成了基於樹核和詞向量結合的醫療文本相似度計算模型，為使用機器學習方法挖掘醫療大數據有價值信息提供技術基礎，並發表論文三篇。（4）提出基於負載感知和針對異構計算環境下的推測執行策略，解決了數據偏斜情況下容易產生緩慢任務從而導致拖延整體作業執行的情況，並發表論文四篇。（5）提出面向醫療大數據信息挖掘的並行算法最佳化，基於Hadoop/Spark平台對數據挖掘領域一些常見的機器學習算法進行並行最佳化，並發表論文三篇。

傾斜任務調度模型及其在醫療大數據處理中的套用研究

基本介紹

中文摘要

結題摘要

相關詞條

熱門詞條