《文本語義模型和子空間聚類研究》是依託北京交通大學,由景麗萍擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:文本語義模型和子空間聚類研究
- 項目類別:青年科學基金項目
- 項目負責人:景麗萍
- 依託單位:北京交通大學
項目摘要,結題摘要,
項目摘要
信息化飛速發展的今天,文本數據海量湧現。如何從這些海量的文本數據中快速、自動地挖掘出對人們有用的知識是當今人們面臨的重要任務之一,文本挖掘技術也就成了當今的熱點研究方向。本項目將針對文本挖掘核心技術- - 文本表示模型構建和聚類方法設計進行創新性的研究,主要體現在以下幾個方面:針對文本數據特性(海量、高維、稀疏、複雜語義),創建同時涵蓋語法和語義信息的文本表示模型;設計適合高維稀疏海量數據的快速有效聚類方法;為聚類結果設計出基於知識庫的主題概念抽取方法和結果評估方法;進而開發整合文本預處理、文本模型構建、聚類功能和結果評估展現的文本聚類系統原型,該系統可以作為獨立的系統運行,同時也可以作為現有數據挖掘系統的子系統模組。
結題摘要
信息化飛速發展的今天,文本數據海量湧現。如何從這些海量的文本數據中快速、自動地挖掘出對人們有用的知識是當今人們面臨的重要任務之一,文本挖掘技術也就成了當今的熱點研究方向。本項目針對文本挖掘核心技術- - 文本表示模型構建和聚類方法設計進行創新性的研究,主要體現在以下幾個方面:針對文本數據特性(海量、高維、稀疏、複雜語義),創建同時涵蓋語法和語義信息的文本表示模型;設計適合高維稀疏海量數據的快速有效聚類方法;為聚類結果設計出基於知識庫的主題概念抽取方法和結果評估方法;進而開發整合文本預處理、文本模型構建、聚類功能和結果評估展現的文本聚類系統原型。同時,基於本項目,項目組成員進行了多媒體數據語義分析以及高維數據特徵提取等相關研究,並取得了較好的成果,為後續的研究工作提供基礎。