面向高維多示例數據的潛在語義分類模型及其實現

項目摘要

大規模高維多示例數據分類是智慧型醫療、生物信息學等現代信息工程亟待解決的一個共性問題。本項目從數據潛在語義角度研究高維多示例數據分類的新模型和新方法，以解決傳統方法存在的距離測度無效、學習假設不合理等問題，是分類模型研究的語義升華。主要研究內容有：研究大規模示例集的語義提取和表示，以及多示例包有效重構技術；在高維空間中，研究多類潛在語義分類模型，並將距離測度、數學模型和最佳化策略升華到潛在語義空間中進行；在此基礎上，進一步研究預測包中未標記示例類別的半監督策略。採用潛在語義分類模型的優點是它可以同時考慮包之間的整體差異和包的內部差異來重構多示例包，並且在高維空間中提取數據潛在語義特徵，使得數據之間既有可比性，又能夠比較語義差異。該項目的成功實施，將在語義層面上構建面向高維多示例數據實用且具有普適性的分類模型和搜尋算法，對此類數據分類性能的改善將產生積極影響，對分類算法的進一步套用有著重要意義。

結題摘要

大規模高維多示例數據分類是智慧型醫療、生物信息學和跨模態數據分析等現代信息工程亟待解決的一個共性問題。本課題從數據潛在語義角度研究高維多示例數據分類的新模型和新方法，以解決傳統方法存在的距離測度無效、學習假設不合理等問題，是分類模型研究的語義升華。本課題三年來主要開展了以下研究內容：首先，提出了基於多示例學習的心肌梗塞檢測算法，實現了多示例包有效重構技術，該方法大大提高了傳統機器學習方法利用心電圖檢測檢測心肌梗塞病人的準確率。其次，在多示例學習的基礎上提出了結合聚類和潛在狄利克雷分配模型的方法來表示ECG中具有相類似語義內容的心跳數據聚類信息。該方法為多個類別心跳提取一組公共的潛在語義特徵，同時在此空間中所構建的分類模型即具備語義結構又具備病人自適應性質。第三，本課題提出了基於模型參數信息量的模型參數最優劃分方法，從而去除信息量不豐富的參數群，該方法能有效從全局信息中分析高維參數的重要性，從而減小參數的搜尋空間。最後，本課題提出了基於情感符號的跨模態情感傾向性學習方法，該方法通過利用數據中與目標相關的無標註信息進行學習，從大量無標註數據中學習與目標空間相近的語義信息空間，並提取魯棒的語義空間信息表示，最終利用少量標註達到與一定數據規模的有標註數據類似的分類效果。本課題的成功實施，不僅僅在語義層面上構建面向高維多示例數據具有普適性的分類模型和搜尋算法，並大大改善對此類數據分類性能，同時將核心算法套用在心肌梗塞病人診斷和用戶傾向性分析等方面並取得了良好的效果。

面向高維多示例數據的潛在語義分類模型及其實現

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條