《約束驅動集合相似大數據高效能連線關鍵技術研究》是依託武漢大學,由李文海擔任項目負責人的面上項目。
基本介紹
- 中文名:約束驅動集合相似大數據高效能連線關鍵技術研究
- 項目類別:面上項目
- 項目負責人:李文海
- 依託單位:武漢大學
項目摘要,結題摘要,
項目摘要
作為網際網路時代極具潛力的數據處理手段,相似連線在數據清洗、分析、挖掘和集成等方向具有廣闊的套用和研究價值,已成為資料庫和知識工程的交叉研究熱點。本項目以數據及查詢的關聯約束為驅動,將交換高通量和計算高效能作為目標,對典型集合數據展開適用於大規模並行的最佳化布局方法研究,並力圖為相似連線提供高效的查詢剪枝執行手段。項目面向層次約束構建研究體系,首先基於關係約束在MapReduce下進行數據級聯存儲,藉助流水線和多路連線深入探索相似連線的任務分割與負載均衡策略;研究論證頻繁更新下數據為中心的公制距離連線技術,以格網分區與最佳化映射為基本途徑,展開GPU下空間約束剪枝和跨Block同步策略研究;最後以最優符號組合剪枝為目標,對資源平衡視角下符號組合選擇策略、分組與前綴壓縮交換技術及其過濾方法進行重點研究。藉助項目研究的實施,初步構建出一套健壯、高效和可擴展的面向大數據不同約束層次的關聯最佳化核心技術。
結題摘要
本項目以數據及查詢的關聯約束為驅動,將交換高通量和計算高效能作為目標,對典型集合數據展開適用於大規模並行的最佳化布局方法研究,並力圖為相似連線提供高效的查詢剪枝執行手段。項目面向層次約束構建研究體系,首先基於關係約束在MapReduce下進行數據級聯存儲,藉助流水線和多路連線深入探索相似連線的任務分割與負載均衡策略;研究論證頻繁更新下數據為中心的公制距離連線技術,以格網分區與最佳化映射為基本途徑,展開GPU下空間約束剪枝和跨Block同步策略研究;最後以最優符號組合剪枝為目標,對資源平衡視角下符號組合選擇策略、分組與前綴壓縮交換技術及其過濾方法進行重點研究。藉助項目研究的實施,初步構建出一套健壯、高效和可擴展的面向大數據不同約束層次的關聯最佳化核心技術。截止結題日期,項目組發表CCF-A類論文2篇,CCF-B類論文3篇,CCF-C類論文1篇,其他國核心心期刊論文若干。邀請了國際著名的資料庫和人工智慧專家進行不同級別的專題講座10餘次。項目產生的研究成果已開始初步套用於國家重點研發計畫和深圳鵬程實驗室的前沿套用項目上,較為顯著地推動了文本處理和多源異構大數據的管理和分析。