短文本檢索是從海量、無結構、不規範以及相關的短文本數據集合中找出滿足用戶信息需求的過程。
基本介紹
- 中文名:短文本檢索
- 外文名:short text retrieval
- 分類:信息檢索
短文本檢索是從海量、無結構、不規範以及相關的短文本數據集合中找出滿足用戶信息需求的過程。
短文本檢索是從海量、無結構、不規範以及相關的短文本數據集合中找出滿足用戶信息需求的過程。定義短文本(short text)是指長度較短的文本,它是和文檔或長文本相對而言的,短文本可以是一個小的段落、幾句話、一句話甚至一個...
文本信息檢索是針對文本的信息檢索技術。在技術社區中,文本信息檢索常常被等同於信息檢索技術本身。相對視頻、音頻檢索而言,文本信息檢索是發展較快也較成熟的,其他模態的信息檢索技術,往往也要仰賴文本信息檢索的支持。雖然網路搜尋引擎已不僅僅局限於對文本進行檢索,文本信息檢索仍然是大部分網路搜尋引擎的基礎。歷史...
《短文本表示建模及套用》是一本北京理工大學出版社出版的圖書,由王亞珅、黃河燕編著。內容簡介 短文本表示建模,通常是指將短文本轉化成機器可以詮釋的形式,旨在幫助機器“理解”短文本的含義。本書詳細介紹了短文本表示建模研究體系中具有代表性的短文本概念化表示建模研究分支和短文本向量化表示建模研究分支的相關...
《短文本數據理解短文本數據理解》是2017年機械工業出版社出版的圖書。短文本理解是伴隨著搜尋引擎、社交網路,以及聊天機器人等套用場景而興起的一個研究課題。內容簡介 短文本理解是伴隨著搜尋引擎、社交網路,以及聊天機器人等套用場景而興起的一個研究課題。它是近年來的一個研究熱點,且對未來人工智慧的發展有重要的...
《面向短文本的主題建模研究》是依託吉林大學,由李熙銘擔任項目負責人的青年科學基金項目。項目摘要 利用主題模型建模短文本,可以有效地挖掘文本隱含語義,進而深入挖掘海量短文本中的有價值信息。然而,短文本詞項稀疏、高噪聲、時效性強和規模高速增長等特點導致已有方法的主題建模效果不理想,甚至不可用。為解決這些...
LJParser是一套專門針對原始文本集進行處理和加工的軟體,提供了中間件處理效果的可視化展示,也可以作為小規模數據的處理加工工具。用戶可以使用該軟體對自己的數據進行處理。二、功能 LJParser文本搜尋與挖掘開發平台的十大功能:1. 全文精準檢索 支持文本、數字、日期、字元串等各種數據類型,多欄位的高效搜尋,支持AND...
《短文本的精確語義感知與多分類研究》是依託電子科技大學,由周爾強擔任醒目負責人的青年科學基金項目。項目摘要 對文本的語義研究是自然語言處理以及人工智慧的難點與熱點問題。本項目首次將精確語義推理作為研究重點,從語義、精確推理以及多分類三個方面對短文本感知展開全面的研究。主要研究內容包括:①語義研究,即從...
信息資源檢索,從文檔集中檢索出與用戶信息需求相關的文檔子集的技術。文檔集是大量文檔的集合。文檔表示一個數據單元,一個文檔可以是任何物理單元,如一個文本檔案、一個電子郵件或全球資訊網網頁。圖像、視頻和音頻也可以作為單獨的檔案存在,多個文本、圖像、短視頻和音頻可以形成一個檔案。信息資源檢索由信息組織和信息...
(1) 短文本表示方法:由於傳統的面向長文本的表示方法套用於短文本會造成大量的零向量和虛警,因此在本課題中,我們提出了多種針對短文本的特點,可以有效降低零向量和虛警率的短文本表示方式。實驗表明,在6個不同領域的實驗語料測試環境下都較現有方法有明顯提高,在部分召回率相同的情況下,精度有2-3倍以上的...
課題研究成果將有助於緩解短文本底層特徵稀疏性和頂層語義表達多義性間的矛盾,從而跨越語義鴻溝,緩解短文本內容信息處理難題。經過三年的努力,課題組嚴格按照項目申請計畫,圓滿完成課題預期建設目標。課題組實現一套網路短文本信息過濾與分析原型系統,所開發的系統參加TREC信息檢索國際測試,取得較好成績。同時通過購買、...
這一時期國際上先後有許多相關論文發表,一些實驗性跨語言信息檢索技術相繼問世。國內對於跨語言信息檢索的研究很少,所查找到的一些資料基本都在2001年以後。國際上,從跨語言信息檢索研究領域定期召開的一些會議,也反映了當今跨語言信息檢索的研究熱點和趨勢。這些重要會議分別是文本檢索會議(TREC)、跨語言評價論壇(...
1.2 文本挖掘相關技術概述及研究現狀 2 1.2.1 文本分類概述及研究現狀 3 1.2.2 文本聚類概述及研究現狀 5 1.2.3 信息抽取概述及研究現狀 6 1.2.4 文本檢索概述及研究現狀 7 1.3 文本挖掘領域亟待解決的問題 8 1.4 本書的研究內容與結構安排 11 參考文獻 13 第2章 基於統計語言模型的短文本計算 ...
舉例來說,使用者使用(自己熟悉的)中文產生一組檢索辭彙進行檢索,而其檢索結果皆以(使用者完全不懂或不熟悉)的日文,所撰寫的檔案。起源與發展 1969年,Salton,G.發表《Automatic processing of foreign language documents》文章。Salton 以智慧型文本信息檢索系統當作實驗對象,智慧型檢索系統背後有多國語言語料庫的...
CoPub是以共現關係為中心的檢索工具,利用文本挖掘技術檢測 PubMed 摘要中共現的生物醫學概念,如基因本體中的人類/鼠基因、生物過程、分子功能、細胞組成以及病理、疾病、藥物和途徑等。在 CoPub 系統中檢索某個生物醫學概念,可以獲得與其共現的其他生物醫學概念以及共同出現的文摘。PolySearch 抽取人類疾病、基因、突...
文本是計算機的一種文檔類型,是記載和儲存文字信息的一種工具。兩者結合,實現了人工智慧中人機理解的重要部分。運用 智慧型文本檢索服務 隨著當今網際網路上海量的信息,以及搜尋信息準確、高效、個性化等需求,出現了一套包括信息檢索、信息抽取和信息過濾在內的智慧型文本搜尋新技術。例: 美國主辦的文本檢索會議評測和文本分析...
本系統包括以下功能:文本信息抽取功能,相關短語檢索功能,相似文本檢索功能,主題詞標引功能。本系統總體設計遵循B/S三層體系結構,最佳化了資料庫,在安全性方面使用了MD5加密算法保護數據安全,並對系統的各子功能模組進行了詳細的設計與實現,最後經過測試,本系統運行正常,達到預先設定的目標。基於短語檢索和答案距離...
目前,關於檢索和重用包括數學公式在內的非文本的研究已經得到了廣泛的關注,但是,現階段的研究成果遠遠沒有對於普通文本檢索和重用成熟。數學公式一般由特殊符號、希臘字母、英文字元和數字組成,這些符號通常通過定義特定的格式輸入計算機,輸入複雜度遠遠大於普通的文本。如果依靠手工重新錄入文檔中的所有數學公式,將消耗...
單機環境下, 具有千萬級記錄並且文本數據量達幾十GB的成功企業套用 支持中英文或其它語種的混合檢索; 支持結構化數據和非結構化數據的混合檢索; 允許使用文中的任意字,詞,短語,句和片段進行檢索;提供全方位檢索手段。檢索能力 多庫並行檢索技術, 對於多CPU機器能顯著提高檢索性能。
實驗結果顯示:該系統以可視化的標籤集合來揭示網路中不同信息的演化過程,並依此反映用戶的關注點在不同時間段內的整體變化趨勢,能夠在幾分鐘內完成對千萬篇規模的短文本數據的分析與處理工作,且保證分析準確率在80%以上。項目共發表論文14篇,申請專利2項,論文中,CCF A區論文3篇,CCF B區論文2篇,SCI 檢...
本發明涉及一種基於卷積神經網路的跨領域語義信息檢索方法,屬計算機自然語言處理領域。本發明通過詞向量SVM進行短文本分類,降低無效檢索域從而提高近似句的準確率,再將分類後的文本拼接成向量矩陣放入卷積神經網路,將卷積神經網路的最後一層用轉換層進行近似句的檢索計算。最終模型提高了近似語義檢索的準確率。
文本分析是指對文本的表示及其特徵項的選取;文本分析是文本挖掘、信息檢索的一個基本問題,它把從文本中抽取出的特徵詞進行量化來表示文本信息。文本(text),與 訊息(message)的意義大致相同,指的是由一定的符號或符碼組成的信息結構體,這種結構體可採用不同的表現形態,如語言的、文字的、影像的等等。文本是...
grep (縮寫來自Globally search a Regular Expression and Print)是一種強大的文本搜尋工具,它能使用特定模式匹配(包括正則表達式)搜尋文本,並默認輸出匹配行。Unix的grep家族包括grep、egrep和fgrep。Windows系統下類似命令FINDSTR。基本簡介 egrep和fgrep的命令只跟grep有很小不同。egrep和fgrep都是grep的擴展,支持...
整理信息及接受查詢的過程,大量套用了文本信息檢索技術,並根據網路超文本的特點,引入了更多的信息。發展史 1990年初當時全球資訊網還未出現,為了查詢散布在各個分散的主機中的檔案,曾有過Archie、Gopher等搜尋工具,隨著網際網路的迅速發展,基於HTTP訪問的web技術的迅速普及,他們就不再能適套用戶的需要。在1994年1月,...
文本安全 (句義結構模型及信息安全套用)漢語句義結構模型分析,漢語句義標註語料庫,短文本處理(過濾、聚類、分類等),句子相似度計算,文本表示模蓴,文本情感計算,多文檔自動摘要(長文本、短文本),中文人名消歧,文本事件抽取,篇章語義表示,人物關係自動提取,熱點事件發現,漢語句義結構分析系統,漢語問句...
從斜率直方圖到文本譜 392 8.2 切分 396 自下向上的切分方法 396 自上向下的組合的切分方法 398 基於標記的切分 399 使用短文本字元串切分 401 利用文本句法切分 404 8.3 分類 405 第9章 系統實現 409 9.1 文本壓縮 410 選擇壓縮模型 411 選擇編碼器 414 ...
《Web搜尋》是2009年高等教育出版社出版的圖書。內容包括導論、文本檢索、圖像檢索、音頻檢索、信息過濾、信息推薦以及發展前沿。對Web搜尋的基本概念進行定義,闡述其科學價值和研究狀況,根據Web搜尋所涵蓋的檢索、過濾以及推薦技術,論述其中的核心問題、基本概念和基本方法,並介紹Web搜尋若干新的研究方向。作者簡介 郭軍...
詞頻,是一種用於情報檢索與文本挖掘的常用加權技術,用以評估一個詞對於一個檔案或者一個語料庫中的一個領域檔案集的重複程度。詞頻統計為學術研究提供了新的方法和視野。詞義 【詞語】:詞頻 詞頻統計 字詞的重要性隨著它在檔案中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權...
FNLP FNLP是一個基於機器學習的中文自然語言文本處理的開發工具包,FNLP主要是為中文自然語言處理而開發的工具包,也包含為實現這些任務的機器學習算法和數據集。功能 信息檢索 文本分類 新聞聚類 中文處理: 中文分詞 詞性標註 實體名識別 關鍵字抽取 依存句法分析 時間短語識別 結構化學習: 線上學習 層次分類 聚類 ...
4.檔案總結:新增AI文檔總結能力,能夠高效地總結各類文本內容,無論是上傳的 pdf/word/excel 等多種格式檔案,還是線上網頁的文本內容,都可實現一鍵高效總結,助你高效閱讀和理解長文本內容;5.學習問題用AI搜尋:圍繞國小、國中語數英三大核心學科,從題目解讀、考查知識、解題思路等方面,為用戶提供清晰、詳盡、...