《文本語義相似度計算》是2014年電子工業出版社出版的圖書,作者是劉宏哲。
基本介紹
- 中文名:文本語義相似度計算
- 作者:劉宏哲
- 出版社: 電子工業出版社
- 出版時間:2014年2月
- 頁數:212 頁
- 定價:55 元
- 開本:16 開
- ISBN:9787121224072
《文本語義相似度計算》是2014年電子工業出版社出版的圖書,作者是劉宏哲。
《文本語義相似度計算》是2014年電子工業出版社出版的圖書,作者是劉宏哲。內容簡介本書基於領域本體信息,從概念、語句和文檔三個對象層面研究文本數據的語義相似度計算問題。詳細描述了語義提取、語義描述、語義計算三方面內容。包...
《基於複雜網路的中文文本語義相似度研究》是依託西安電子科技大學,由劉懷亮擔任項目負責人的面上項目。中文摘要 為解決海量信息檢索中知識匱乏、傳統向量空間模型表徵文本時語義缺失問題,針對中文文本重意合、輕形式的語言特點,本項目擬將複雜網路理論引入到中文文本語義相似度計算研究中,期望基於複雜網路建立海量文本庫...
《基於認知概念信息量的文本語義相似度模型研究》是2021年北京理工大學出版社出版的圖書。內容簡介 本書面向計算機科學、信息科學、認知科學、語言學等專業的本科生、研究生、研究學者或者軟體研發人員,由淺入深、跨學科地介紹了認知概念信息量、基於認知概念信息增益的文本信息量計算方法、融合認知概念信息權重的全文本...
在計算上,語義相似度可以通過定義拓撲相似度來估計,通過使用本體來定義術語/概念之間的距離。例如,用於比較在偏序集中排序並表示為有向無環圖(例如,分類法)節點的概念的樸素度量將是連線兩個概念節點的最短路徑。在文本分析的基礎上,還可以使用向量空間模型等統計方法來估計語言單位(如單詞、句子)之間的語義...
針對短文本的關聯分析和推薦技術研究有如下難點:(1) 短文本語義表示方法和相似度計算模型;(2)關聯分析和挖掘算法設計、並行處理及最佳化;(3) 基於短文本關聯分析和挖掘推薦技術實際套用的有效性。本項目擬針對上述難點逐項開展研究,分析短文本語義特點以設計計算模型,提出並實現有效關聯分析和推薦方法,並行化各算法...
因此,大多數中文文本分類系統都採用詞作為特徵項,稱作特徵詞。這些特徵詞作為文檔的中間表示形式,用來實現文檔與文檔、文檔與用戶目標之間的相似度計算 。如果把所有的詞都作為特徵項,那么特徵向量的維數將過於巨大,從而導致計算量太大,在這樣的情況下,要完成文本分類幾乎是不可能的。特徵抽取的主要功能是在不損傷...
(2)如何計算生物醫學文檔之間的語義相似度。(3)如何有效融合不同種類信息提高聚類性能。本課題也可以為開發其他領域中需要融合不同種類信息的高性能聚類算法提供研究思路。結題摘要 生物醫學文本聚類通過將相似的文檔聚在一起,不相似的文檔儘量分開,能幫助用戶有效的組織、概括、導航和定位生物醫學文獻信息,幫助...
2.2原始文本提取與詞條化16 2.2.1文本提取中與網頁相關的問題18 2.3從詞條中提取詞項19 2.3.1停用詞移除19 2.3.2連字元19 2.3.3大小寫轉換20 2.3.4基於用法的合併20 2.3.5詞幹提取21 2.4向量空間表示與歸一化21 2.5文本中的相似度計算23 2.5.1idf歸一化和詞幹提取是否總是有用25 2.6本章...
然而,隨著Web2.0的到來,各種新的辭彙,特別是網路新詞日新月異,使得傳統的、專家編輯的語義辭典已經跟不上時代的步伐。本項目按照研究計畫,先後完成了多個線上百科的融合、利用線上百科對語義辭典擴展、語義辭典評價、具有領域偏向性的辭典生成、語義相似度計算、語義降維、語義辭典和知識庫在信息檢索中的套用、知識...
手工構建的語義選擇限制知識庫不能很好地滿足大規模文本處理的需要,本項目研究漢語語義選擇限制知識的自動獲取及套用,內容包括:(1)知識獲取方面,提出結合漢語特色的語義選擇限制獲取模型,把漢語構詞與漢字部首等特點與語料庫分布、詞典知識結合起來計算論元相似度,基於多知識源構建基礎搭配庫,研製標準測試集對模型...
由於潛在語義索引可以計算出文檔間、文檔索引項間、文檔索引項和文檔間的相似度大小,在很多領域都可以得到運用,比如文本檢索、自動標引、文本摘要、信息過濾、雙語交叉過濾、垃圾郵件過濾、文本分類、個性化服務和用戶反饋、智慧型檢索等方面。文檔語義空間的表示 在套用潛在語義索引方法的時候,首先需要表示出文檔集合的語義...
第7章 基於語義體系的詞語相似度計算 7.1 概述 7.2 詞語相似度研究綜述 7.3 基於語義體系的詞語相似度算法 7.4 基於語義相似度的同義詞挖掘 7.5 本章 小結 第8章 基於知識庫的文本自動分類 8.1 文本自動系統總體設計 8.2 文本自動分類系統的測評 8.3 《全國報刊索引》自動標引與自動分類系統介紹 8.4...
向量空間模型(VSM:Vector Space Model)由Salton等人於20世紀70年代提出,並成功地套用於著名的SMART文本檢索系統。概念 VSM概念簡單,把對文本內容的處理簡化為向量空間中的向量運算,並且它以空間上的相似度表達語義的相似度,直觀易懂。當文檔被表示為文檔空間的向量,就可以通過計算向量之間的相似性來度量文檔間的...
2021年12月,百度聯合鵬城實驗室發布知識增強千億大模型——“鵬城-百度·文心”(模型版本號:ERNIE 3.0 Titan),參數規模達2600億,在機器閱讀理解、文本分類、語義相似度計算等60多項任務中取得最好效果,並在30餘項小樣本和零樣本任務上刷新基準。2022年1月,發布文心 ERNIE-ViLG 中文跨模態生成模型,首次通過...
比如,搜尋引擎加入了深度學習的檢索詞和文檔的相似度計算,以提升搜尋的相關度。自2014年以來,人們嘗試直接通過深度學習建模,進行端對端的訓練。目前已在機器翻譯、問答、閱讀理解等領域取得了進展,出現了深度學習的熱潮。概念和技術 信息抽取(IE)信息抽取是將嵌入在文本中的非結構化信息提取並轉換為結構化數據的...
課題針對雙語平行句對抽取問題,研究了單語和跨語言句子級的文本相似性度量方法,提出了結合詞向量、句法結構和詞序特徵的多特徵融合句子相似度計算方法;針對漢語-泰語句子相似度問題,提出了利用WordNet語義詞典將漢語和泰語文本表示為中間語言,並基於中間語言計算漢語和泰語跨語言相似度的方法,為從漢語-泰語可比語料中...
實踐四: 文本詞頻分析 實踐五: 中文百科數據爬取 實踐六: 中文百科數據預處理 第2章文本表示 實踐七: 基於Word2vec的語言模型實踐 實踐八: 基於ERNIE語言模型的文本語義匹配 實踐九: 基於PaddleNLP的短文本相似度計算 第3章文本分類 實踐十: 基於FNN網路的電影評論情感分析 實踐十一: 基於LSTM網路的謠言...
文本相似度 文本相似度旨在識別兩段文本在語義上是否相似。文本相似度在自然語言處理領域是一個重要研究方向,同時在信息檢索、新聞推薦、智慧型客服等領域都發揮重要作用,具有很高的商業價值。千言的文本相似度數據集覆蓋了公開的三個文本相似度數據集,分別為哈爾濱工業大學(深圳)的 LCQMC和 BQ Coupus,以及谷歌的 ...
(1)漢語話題自動識別,話題小句識別將在全新視角下對逗號進行分類,話題成分識別將基於大規模語料庫語義泛化後進行語義相似度計算來驗證候選話題句的合格性。(2)句際層級結構分析,利用話題、關聯標記、句間相似度自頂向下對文本進行分隔。(3)句際邏輯關係判定,利用小句的事件義、情感義、否定義、時態義、結構義等...