一、福建省大數據挖掘與套用技術重點實驗室概述
福建省大數據挖掘與套用技術重點實驗室(福建理工大學)(Fujian Provincial Key Laboratory of Big Data Mining and Applications(Fujian University of Technology))將圍繞大數據存儲與雲計算、大數據可用性預處理、大數據表示與建模、大數據挖掘技術的基礎理論與關鍵技術問題展開系統性的研究,為我省從事大數據採集、存儲、處理與服務的相關企事業單位提供系統的、專業的技術支撐,努力打造一批大數據分析的科研隊伍,並為國家和我省培養亟需的大數據挖掘與套用專門人才,成為我省大數據技術國內外交流和閩台合作的重要視窗,提高我省在大數據領域的國際國內地位,推動我省大數據產業發展。
福建省大數據挖掘與套用技術重點實驗室依託福建理工大學,主場地位於福建理工大學校園C組團樓。實驗室主任為福建理工大學校長助理兼信息科學與工程學院院長潘正祥教授。本實驗室屬於計算機科學技術一級學科,關鍵技術涉及統計學、交通運輸和
管理科學與工程三個一級學科。本實驗室由信息科學與工程學院牽頭、整合數理學院和
現代教育技術中心等相關院系的人力與資源,共同組建。並集中信息學院一定的交通大數據和無人機飛行測控數據資源,現代教育技術中心
雲計算技術平台和一定伺服器機群,數理學院的數據分析研究中心等軟硬資源與平台,設立大數據存儲與雲計算、大數據可用性預處理、大數據表示與建模型、大數據機器學習與挖掘、大數據示範運用研究5個方向。
二、福建省大數據挖掘與套用技術重點實驗室主任簡介
潘正祥教授:1961年生,英國工程科技協會學士(IET Fellow),福建理工大學校長助理兼信息科學與工程學院院長。
在學術科研工作上一直致力於多媒體信號處理與車載智慧型等方面的研究,共發表論文近500篇,其中近200篇被SCI檢索。被引用次數超過5500次,H-index為34。出版英文專著4部,編著IEEE論文集20餘部,創立IJICIC和JIH-MSP兩個國際期刊。擔任Soft Computing、Information Sciences 等SCI /EI 期刊客座主編。主持863子課題“道路交通狀態”、國家自然基金面上項目“基於核學習的大型複雜數據挖掘理論與方法研究”、國家發改委重大專項子課題“深圳市雲計算公共服務平台”和深圳市科技創新項目“車載智慧型雲終端系統”等科研項目32項,獲國際三大發明獎美國匹茲堡發明展金獎2項與銀獎1項、瑞士日內瓦發明展金獎與銀獎各1項、德國紐倫堡發明展金獎與銀獎各1項。
三、福建省大數據挖掘與套用技術重點實驗室主要研究方向及內容
隨著信息技術中通信與計算取得快速進步,網路得到迅猛發展與廣泛套用,數據管理髮生日新月異變化。數據已變成越來越豐富,越來越廣泛存在各行各業, 數據已成為社會一個巨大的寶庫。從大量數據中提取有價值,將成為一個重要產業,大數據挖掘將成為信息產業技術核心。
大 數據通常具有以下特徵:海量、多源性、異構性、不確定性、動態性、多模態和複雜內聯,這些特性對大數據處理與服務提出了巨大挑戰,傳統的數據挖掘技術已不能滿足海量、多源、異構、不確定等大數據處理的高性能需求。為此,該重點實驗室圍繞大數據挖掘一些相關的關鍵技術問題,展開大數據存儲、預處理、表示與建模型、學習與挖掘等理論與技術問題展開研究,利用依託單位在智慧型交通、無人機以及工程機械裝備遠程監測等學科的優勢,以實際數據分析為現實套用支撐,開展一定的示範運用研究。實驗室準備進行五個方向建設,主要內容如下:
【1】大數據存儲與雲計算
大數據往往具有海量、複雜、多樣、異構、動態變化等特性,而如何存儲、管理和處理海量的數據資源,使這些數據得到高效的利用,成為大數據挖掘與套用的關鍵難題之一。為此,該方向主要從大數據存儲體系結構、數據訪問機制及雲計算彈性擴展技術等方面開展大數據存儲與雲技術彈性擴展關鍵技術研究,其中具體研究工作有:
(1)大數據異構融合存儲體系結構研究;
(2)雲存儲數據訪問控制技術研究;
(3)實時跨媒體數據存儲與公眾服務能力研究;
(4)雲平台體系結構研究;
(5)雲平台彈性擴展機制研究;
(6) 大數據挖掘的並行計算研究。
【2】大數據可用性預處理
該方向針對具有不同來源、不同類型、不同形式特點的海量數據,研究其可用性的數據處理的理論與方法,並以此為基礎,對海量數據處理、劣質性檢測與糾正,以提升數據的可用性。
主要從事以下幾個方面的研究:
(1) 智慧型計算算法在海量數據處理中的套用理論與方法研究
(2) 大數據可用性的處理技術與套用研究
(3) 大數據錯誤檢測與糾正的理論和方法研究
(4) 機器學習和深度學習理論在實際系統建模中的套用與研究
(5) 數據挖掘算法在交通等實際系統數據分析中的套用研究
(6) 圖像、視頻數據檢測與糾正的理論和方法研究
(7) 基於實數域擴展效用函式的大數據傳輸最佳化方法研究
【3】大數據表示與建模
大數據表示與建模是以數據表示結構為核心、綜合計算機技術、數據結構技術、數學建模技術、關聯規則制定技術、模糊集合技術以及信息處理技術等現代科技各方面的最新成果,按系統工程和整體最佳化的方法組成,以滿足特定數據表示以及數據模態產生要求的有機整體。為此,開展以下幾個方面的研究:
(1) 異構性數據匹配研究與套用
(2) 數據重構研究與套用
(3) 異質數據共構模型建構與套用;
(4) 智慧型化異質數據處理、模型建構與套用;
(5) 基於核變換函式的大數據表示方法技術研究;
(6) 整合核變換與稀疏矩陣數據表示技術開發與研究;
【4】大數據機器學習與挖掘
該方向主要針對大數據機器學習與大數據挖掘中關鍵理論與技術,開展以下幾個方面的研究:
(1) 並行計算與分散式計算理論研究與算法設計;
(2) 凸最佳化與非凸最佳化理論研究及其套用;
(4) 大數據信息安全與隱私保護;
(5) 大規模時空數據學習與時序數據模式挖掘;
(6) 線上學習理論與計算博弈論研究及其套用;
(7) 深度學習理論研究及學習範式設計與套用。
【5】大數據示範套用研究
該方向基於現有無人機的航測數據和交通數據,主要結合圖像處理技術和數據挖掘技術,開展以下幾點的套用研究:
(1) 無人機飛行控制及數據採集技術研究
(2) 無機航測真三維數據處理關鍵技術研究;
(3) 真三維數據在建築規劃、智慧型園區的套用研究;
(4) 自動化光學圖像檢測技術套用於大規模圖像分析的產品缺陷檢測;
(5) 智慧型交通大數據分析雲平台建設;
(6) 基於交通軌跡的大數據車道特徵檢測及其規律挖掘;
(7) 面向大規模軟體製品的維護技術;
(8) 基於群體智慧型的社交媒體複雜性網路分析。
四、福建省大數據挖掘與套用技術重點實驗室已取得的主要研究成果
自2016年至今,實驗室成員已發表或接受的論文119篇,其中SCI收錄論文45篇,SSCI收錄論文3篇, EI收錄論文67篇,中文核心期刊4篇。重點實驗室申請獲得項目有:
國家自然科學基金1項,省部級項目15項,市廳級項目3項。重點實驗室已經申請並受理髮明專利22項,申請並受理
軟體著作權10項。2016年重點實驗主任潘正祥教授獲教育部自然科學二等獎1項,獲獎項目名為《視覺媒體內容保護的理論與方法》,其內容是通過水印隱藏視頻及圖像信息從而達到著作權保護目的。
五、福建省大數據挖掘與套用技術重點實驗室正在開展的主要研究
【1】將探索構建安全高效的大數據存儲與共享訪問控制機制,進而建立面向異構與高並發等複雜套用環境的大數據存儲支撐平台,並逐步建立適應未來數據存儲服務發展趨勢的存儲結構模式及其相關理論體系。
【2】研究適合大規模本體的概念層匹配的單目標與多目標全局最佳化模型。研究適合大規模本體的實例層匹配的全局最佳化模型。分析連結開放數據網中的實例對象連結特點,設計高效的、可信的基於進化算法的大規模本體的實例層匹配技術。完成異質數據系統的個別特性分析、具有關聯性的共構分析、非關聯數據的結構分析等。並通過智慧型計算方法找出相異性直數據間的共通性、關聯性與連動/反動性,以生物智慧型算法為基底構建出異質數據間的共構模型。
【3】利用依託單位的無人機研究平台和智慧型交通數據平台以及工程機械裝備遠程監測等其它學科的平台,以實際數據分析為現實套用支撐,開展面向套用需求的技術體系建設和方法驗證體系構建,凝練其它方向的研究成果,逐步建立大數據挖掘的套用技術平台。以智慧型交通數據和無人機測繪數據分析為套用示範,進一步拓展媒體數據及其它大數據挖掘套用技術成果。