《文本分類中的文本圖表示模型和結構化稀疏模型研究》是依託南京大學,由戴新宇擔任項目負責人的面上項目。
基本介紹
- 中文名:文本分類中的文本圖表示模型和結構化稀疏模型研究
- 項目類別:面上項目
- 項目負責人:戴新宇
- 依託單位:南京大學
《文本分類中的文本圖表示模型和結構化稀疏模型研究》是依託南京大學,由戴新宇擔任項目負責人的面上項目。
《文本分類中的文本圖表示模型和結構化稀疏模型研究》是依託南京大學,由戴新宇擔任項目負責人的面上項目。項目摘要文本分類是自然語言處理研究中的一個經典問題。文本分類技術在網路輿情分析、專利分析等領域具有廣泛的套用。本課題針對...
圍繞圖像語義的自動文本描述以及圖像-文本語義匹配技術的理論與方法,重點開展基於半監督學習的圖像局部區域語義標註,基於Web海量文本分析的圖像描述語言模型和可視概念網路構建,基於結構化學習的圖像語義自動文本描述,以及Web社區問答的圖像...
面向文本分類的多學科協同建模理論與實驗研究的主要內容包括:建模研究方面:採用群集智慧型算法中的粒子群最佳化算法,構建文本分類規則模型、文本特徵選擇模型和粒子群算法參數和編碼方式的改進模型;利用圖像處理技術中的低通濾波模板構建原理,...
對字典學習的過程一般採用兩步法, 與稀疏表示模型求解相結合。信號稀疏表示套用 目前, 稀疏表示的套用範圍基本為自然信號形成的圖像、音頻以及文本等, 對於非自然信號或數據的套用尚未有文獻涉及。在套用方面, 可大體劃分為兩類:基於...
《多領域網路文本數據的自適應結構化分類方法研究》是依託北京大學,由孫栩擔任負責人的青年科學基金項目。項目摘要 網路文本數據來自多個不同的領域,形成了一個領域高度多元化的文本數據集,給自然語言處理帶來新挑戰。現有結構化分類技術在...
二、挖掘圖文混合跨媒體知識單元之間學習依賴關係及語義相關圖像-文本知識單元之間認知輔助關係,為圖文混合跨媒體知識單元一致性表示和分類提供支持。三、提出基於學習依賴關係的圖文混合跨媒體知識單元一致性表達模型;並在此基礎上,研究圖文...
主要研究內容包括以下幾個方面:(1)建立隨時間變化的主題模型並檢測主題變點;(2)建立基於數據流的文本聚類方法; (3)將文本詞語之間的結構信息融入Naïve Bayes 建立更有效的文本分類方法。結題摘要 大數據研究是當前非常活躍的...
2.面向弱監督文本數據展開研究。基於種子詞的文本分類方法可以有效減少人工收集標註訓練集的開銷,然而,種子詞提供的有監督信息卻十分有限。對此,提出偽標籤樸素貝葉斯算法,利用種子詞構建偽訓練集,在期望最大化算法框架下,同時疊代最佳化...
1.2 文本分類綜述 1.3 本書的內容結構 1.4 本書的創新工作 第2章 文本分類概述 2.1 文本分類的數學定義 2.2 文本分類任務的特點 2.3 文本分類系統的組成 2.4 文檔預處理 2.5 文檔的表示 2.6 常用文本分類模型 2.7 ...
漢語文本可以表示為超高維兩值數據,用兩值特徵刻畫詞在文檔中是否出現。因此該部分研究方法可以套用於漢語文本數據的分類問題,能夠節省計算時間,提高預測效率。第二部分,針對網路結構的稀疏性展開研究。網路結構常被用於刻畫樣本數據之間的...
我們在貝葉斯模型中引入一個潛在變數來表示各個詞是否提供分類相關信息,並設定相關的共軛先驗分布;最後,我們運用如上特徵選擇和賦權方法,挖掘詞語之間的相互依賴關係,構建結構先驗,實現了快速高效的文本自動分類、聚類。此外,我們也研究...
這些技術中,僅使用了半結構化文檔的部分信息,沒有充分利用半結構化文檔中的信息以便獲得好的文本挖掘效果,更沒有形成統一的數學 模型。發明內容 專利目的 針對2002年8月以前技術中存在的問題,《一種對半結構化文檔集進行文本挖掘的...
以詞語搭配模式、機率淺層語義分析、框架語義網路等為工具,面向文本情感分類任務,探索具有情感傾向的辭彙、搭配、關聯對、句子的抽取與情感類別判定方法;建立辭彙情感傾向強度度量方法,構造帶情感傾向強度基於粗糙集的文本表示模型,並研究...
將複雜網路理論引入到中文文本分類過程中,以詞語間的詞同現關係為基礎構建單一文本加權複雜網路來表示中文文本,首先提出了兩種方法對海量文本庫中的社區進行檢測以幫助挖掘複雜網路的結構和功能;進而利用構建的文本複雜網路模型來保留詞語間...
其內容主要包括:(1)針對具體文本挖掘問題和數據,提出包含文本結構信息的非歐空間多尺度相似性度量。(2)構建融合新相似性度量、多種半監督學習策略和吸引子傳播聚類的新半監督文本聚類模型和算法。(3)研究基於多文檔、多尺度、多...
本模型有助於處理較複雜的推論形式,探究漢語文本推理的基本特性、比較不同推理形式的異同、評估文本推理對套用系統的貢獻,對推動漢語文本推理評測平台的建設也有重要意義。( 2 )基於深度學習的文本推理方法。傳統的分類方法很難確定區分性...