《面向多源異構流數據的線上聚類集成算法研究及其套用》是依託華南農業大學,由黃棟擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:面向多源異構流數據的線上聚類集成算法研究及其套用
- 項目類別:青年科學基金項目
- 項目負責人:黃棟
- 依託單位:華南農業大學
項目摘要,結題摘要,
項目摘要
作為聚類研究的一個重要研究方向,聚類集成技術因其融合多聚類結果以得更優聚類的能力,近年來受關注程度不斷提高。但是,當前聚類集成算法往往針對離線數據而設計,無法用於流數據。隨著信息技術的快速發展,越來越多的數據以流數據的形式存在,並往往呈現多源異構性。現有流數據聚類算法多適用於常規單源流數據,對於多源異構流數據的聚類研究還非常匱乏。本項目擬以聚類集成與流數據聚類為切入點,研究面向多源異構流數據的線上聚類集成新框架,結合支持向量聚類、增量學習、因子圖理論、聚類集成、加權共聯矩陣、隨機遊走等理論與方法,著重開展三個方面的理論研究,分別是:(1)流聚類成員自適應生成與選擇;(2)多流聚類成員線上聚類集成;(3)半監督線上聚類集成。進一步,本項目擬開展所建立算法在監控視頻流數據與社交網路流數據上的套用研究。本項目研究工作將豐富數據挖掘與模式識別的理論與方法,特別是推動大數據分析與流數據研究的發展。
結題摘要
聚類集成是當前聚類研究的一個熱點問題,其目標在於融合多聚類結果以得到一個更優、更魯棒聚類。本項目研究工作圍繞聚類集成與多源異構數據展開,結合支持向量聚類、增量學習、加權共聯矩陣、二部圖模型、隨機遊走、圖嵌入、圖學習等理論與方法,建立了若干聚類集成、多源(多視圖)聚類、網路分析、推薦系統、特徵抽取新算法,並在所建立算法基礎上開展了醫學腦電數據分析與癌症基因數據分析等套用研究工作。項目執行期間取得的代表性成果包括(1)基於二部圖模型的大規模譜聚類與大規模聚類集成算法、(2)基於快速簇相似度傳播的聚類集成算法、(3)基於局部欠穩定性評估與加權的聚類集成算法、(4)基於跨視圖一致性與非一致性融合建模圖學習的多視圖聚類算法以及(5)基於多子空間隨機化與協同的無監督特徵抽取算法。在本項目支持下,迄今共完成SCI/EI論文24篇。具體地,已完成SCI期刊論文10篇,其中項目主持人以第一作者完成SCI期刊論文4篇;已完成EI國際會議論文14篇,其中項目主持人以第一作者完成國際會議論文3篇,以通訊作者完成國際會議論文5篇。本項目研究工作進一步豐富了數據挖掘與大數據分析的理論與方法,特別是推動了聚類集成與多源異構數據分析的發展。