基於多源異構不確定數據的高效用信息挖掘的研究

《基於多源異構不確定數據的高效用信息挖掘的研究》是依託哈爾濱工業大學,由林浚瑋擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於多源異構不確定數據的高效用信息挖掘的研究
  • 依託單位:哈爾濱工業大學
  • 項目類別:青年科學基金項目
  • 項目負責人:林浚瑋
項目摘要,結題摘要,

項目摘要

由於大數據環境下多源、異構、不確定性、大規模、動態信息資源等特徵,如何在複雜的網路環境中挖掘出有用的信息,是目前待解決的重要問題之一。在過去的高效用信息挖掘研究中,主要是處理單一來源、簡單型態和確定性資料庫,並無法處理大數據環境下的套用。在本項目,我們將創新性地提出 (1) 基於多源、多階與多維的環境下,提出局部、全局、多層與多維度的四種高效用信息挖掘理論與交換算法。(2) 基於異構環境下,提出泛化、模糊匹配與本體架構的三種高效用信息挖掘理論與融合算法。(3) 基於兩種不確定性環境下,分別提出壓縮樹、連結鍊表結構與機率-效用喇符幾列表結構的三種高效用信息挖掘理論與整合算法。本項目的研究除了突破現有研究範圍與理論外,並搭建面向多源異構不確定等大數據紋元捉的高效用信息挖掘驗證平台。本項目的研究將對大數據處理問題和高效用信息挖掘的研究產生重大影響,對解決目前大型複雜數據處理與套用等問題起到積極推動作用。

結題摘要

海量數據的採集和使用已在科學研究、經濟建設和社會生活領域產生積極的作用。對社會生活套用和許多學科而言,大數據意味著更嚴峻的挑戰。大數據具有以下特徵:海量、多源性、異構性、不確定性、動態性、多模態和複雜內聯,這些特性對大數據處理與服務提出喇慨了巨大挑戰。如何從大量的、看似雜亂無章的多源、異構、不確定數據中抽取出有用的信息成為數據驅動的建模方法的核心問題。本項目主要針對以下三種問題進行研究:(1) 針對大型複雜數據的多源性,研究面向多源數據的高效用信息挖掘技術。(2) 針對大型複雜數據的異構性,研究面向異構數據的高效用信息挖掘技術。(3) 針對大型複雜數據的不確定性,研究面向不確定性數據的高效用信息挖嚷犁充掘技術。 本人與課題組成員在自然基金委的支助下,已在國際重要期刊和學術會議上發表了大量相關領域的學術研究成果。針對項目內容,已發表了28篇國際頂級SCI期刊與6篇國際會議論院促頸戰文,並將相關算法原碼發表在SPMF的開源項目里 (http://www.philippe-fournier-viger.com/spmf/)。本人已確切達到項目考核要求,這些成果足以證明課題組具有足夠的能力和掌握了關鍵的技術,並可在未來針對本項目的延伸課題進行更深入的研究和討論。 本項目主要的科學意義為:1. 提高高效用信息挖掘的理論研究水平:儘管目前基於高效用信息挖掘的技術方法較多,但尚無涉及基於多源、異構遙兆盼、不確定等複雜數據的高效用信息挖掘方法的研究,本項目的研究創新性地引入多源、異構數據挖掘理論、不確定性理論到高效用信息挖掘中,可從全新的研究角度來提高高效用信息挖掘的理論研究水平,充實其研究範圍。2. 提高大型複雜數據處理的理論研究水平:大型複雜數據處理在目前的研究領域上已有許多相關的理論基礎,但涉及高效用資訊的問題目前尚少研究。本項目中涉及到多源異構數據集成與最佳化的思想可以為其它數據挖掘、機雅槳兆趨器學習方法提供借鑑和理論支持。因此,本項目的研究可以豐富大型複雜數據處理理論研究範圍,同時可以擴展高效用信息挖掘的研究範圍,提高其研究的廣度與深度。

相關詞條

熱門詞條

聯絡我們