文檔檢索是2008年公布的海峽兩岸信息科學技術名詞。
基本介紹
- 中文名:文檔檢索
- 外文名: document retrieval
- 所屬學科:信息科學技術
- 公布年度: 2008年
文檔檢索是2008年公布的海峽兩岸信息科學技術名詞。
文檔查詢服務 Archie:文檔查詢服務,檢索匿名FTP資源的工具。Archie是Internet上用來查找其標題滿足特定條件的所有文檔的自動搜尋服務的工具。為了從匿名FTP伺服器上下載一個檔案,必須知道這個檔案的所在地,即必須知道這個匿名FTP伺服器的地址以及檔案所在的目錄名。Archie就是幫助用戶在遍及全世界的千餘個FTP伺服器中尋找...
文檔搜尋引擎是指根據一定的策略,運用電腦程式搜取網路上存在的文檔資源,對文檔信息進行組織和處理並將處理的信息顯示給用戶,是一種專門為用戶提供文檔檢索服務的網路系統。文檔搜尋引擎檢索的對象為網路中廣泛存在的、大量的文檔資源,和學術搜尋引擎的不同表現在:這些文檔資源大部分來自網路用戶的上傳,在網路中...
語音文檔檢索的任務就是根據用戶輸入的查詢項,在海量語音資源中快速搜尋並返回與之相關聯的語音文檔或語音片段。語音文檔檢索一般分為索引建立和查詢項檢索兩個階段。發展歷程 語音文檔檢索研究起始於20世紀90年代,早期的研究大多採用大辭彙量連續語音識別(Large Vocabulary Continuous Speech Recognition, LVCSR)系統與文本...
Goonie全文檢索系統的主要目標是實現文本索引的快速構建(Index Construction),動態文檔集的索引維護(Index Maintenance),短語查詢(Phrase Query),Top-k查詢的快速處理(Top-k Query Process)以及各種檢索模型(IR Model)等。高性能和靈活的架構也使Goonie全文檢索系統可以套用在內外網檢索、專業系統資料檢索、行業專業數據...
在此模型中,一個文檔(Document)被描述成由一系列關鍵字(Term)組成的向量。模型並沒有規定關鍵字如何定義,但是一般來說,關鍵字可以是字,詞或者短語。在語音文檔檢索中,還可以是混淆類、音子、音子串等等單元。假設我們用“詞”作為Term,那么在詞典中的每一個詞,都定義向量空間中的一維。如果一篇文檔包含這個...
文檔信息檢索 文檔信息檢索(document retrieval; document information retrieval )是2016年公布的管理科學技術名詞。定義 將文檔集按一定的方式組織和存儲起來,並根據信息用戶的需求查找有關信息的過程。出處 《管理科學技術名詞》第一版。
Sphinx是一種全文檢索引擎。簡介 Sphinx是一個基於SQL的全文檢索引擎,可以結合MySQL,PostgreSQL做全文搜尋,它可以提供比資料庫本身更專業的搜尋功能,使得應用程式更容易實現專業化的全文檢索。Sphinx特別為一些腳本語言設計搜尋API接口,如PHP,Python,Perl,Ruby等,同時為MySQL也設計了一個存儲引擎外掛程式。Sphinx單一索引最...
典型文本檢索 最早最典型的文本檢索是圖書館的圖書索引,根據書名、作者、出版社、出版時間、書號等信息對館藏圖書進行索引,讀者只需根據索引即可很快的查到所需要的書存放在圖書館的什麼地方。計算機的出現 隨著計算機的出現,人們藉助計算機可以更加方便的管理更多的文檔,計算機硬碟甚至可以裝下全世界所有圖書館藏書。
《XML文檔全文檢索的理論與方法》是《知識管理與知識服務研究》叢書之一。《XML文檔全文檢索的理論與方法》對XML全文檢索的有關問題進行了全面系統的研究,既有對其基本理論、方法、技術的論述,也有對其最新研究進展的系統闡述。在深入分析文檔的描述方法、用戶的信息需求、檢索方法和用戶任務的基礎上,總結了XML語言在...
對最新資料定題服務而言,手工檢索時是根據用戶需要,收集有關課題,由檢索人員定期將新入藏的書本式對口情報資料主動提供給用戶;計算機和在線上檢索服務則是根據用戶需求,編制相對穩定的邏輯提問式,由檢索系統定期從新入藏的檢索磁帶或從更新過的文檔中找出相關文獻的款目,按用戶指定的格式編排,列印給用戶。標準定題...
經過搜尋引擎分析處理後,web網頁已經不再是原始的網頁頁面,而是濃縮成能反映頁面主題內容的、以詞為單位的文檔。數據索引中結構最複雜的是建立索引庫,索引又分為文檔索引和關鍵字索引。每個網頁唯一的docID號是有文檔索引分配的,每個wordID出現的次數、位置、大小格式都可以根據docID號在網頁中檢索出來。最終形成...
《基於媒體交叉參照的多媒體文檔檢索機制的研究》是依託浙江大學,由莊越挺擔任項目負責人的面上項目。項目摘要 本項目研究一種面向多媒體文檔的綜合式的檢索機制,建立一個無縫的一致化檢索框架及邏輯基礎,研究媒體對象的交叉參照,並發的相關反饋和交叉媒體的學習機制,研究從多媒體文檔中自動進行語義骨架的構建,基於...
②假設被檢索文檔為D。其向量表示形式為: 其中n=6763, 。在集合{0,1}中取值。如果特徵分項 在文檔D中出現,即 ∈D,則相應 =1;如果特徵分項 在文檔D中沒有出現,即 不屬於D,則相應 =0。⑧用戶查詢可表示為Q,其向量形式為: 。這裡的m值理論上不受限制,但從實際出發考慮m應該小於等於n...
其中,CO子任務是面向內容的XML檢索,其不考慮XML結構信息,根據返回信息的類型和方式,該任務分為CO.Focused(檢索結果不含重複元素信息)、CO.Thorough(檢索結果允許重複元素信息)以及CO.FetchBrowse(先檢索文檔然後對文檔內元素信息按相關度進行排序顯示,該類型是文檔檢索和元素檢索的結合);CO+S子任務關注的...
針對這種現狀,我們提出了面向大規模XML文檔集檢索的關鍵技術研究課題。本項目擬引入機器學習的方法,解決內容和結構在結果評分中的融合問題,建立有效的結果評分方法,提高XML關鍵字檢索效果;研究查詢理論和方法,設計支持不同套用場景的查詢算法,快速回響用戶;研究關鍵字查詢自動轉換成樹結構查詢的技術,建立基於樹結構...
檢索測試集 文檔集是整個測試集的基礎。由於信息檢索的領域很廣泛,如果將文檔集中文檔的類別涉及到諸多領域,在保證內容翔實的前提下,文檔集的構建將耗費大量的時間和精力,後續的相關判斷工作更是龐大,不利於構建小型的測試集。國外小型測試集的文檔集的構建一般採用將文檔集限定在某一領域的方法。如CACM文檔集限定...
起點產品不僅提供了快速檢索功能(在千萬級數據下,全文檢索能在1秒鐘之內完成),同時也有著高效的海量數據處理能力。每小時能處理百萬的資料庫數據,或是幾十萬篇的文檔。包括中文的分詞和建立數據索引。我們的產品在多個大型項目中經過了實際的檢驗,成功實施過多個超過5千萬數據規模的項目。中文語言處理技術 中文...
倒排文檔是資料庫內容的組織形式。文獻檢索含義 輕量級爬蟲+全文檢索解決方案項目 (InformationRetrieval),是指將信息按一定的方式組織和存儲起來,並根據信息用戶的需要找出有關的信息過程,所以它的全稱又叫“信息的存儲與檢索(InformationStorageandRetrieval),這是廣義的信息檢索。狹義的信息檢索則僅指該過程的後半部分...
政府文檔全文資料庫建設及全文檢索方法的研究 政府文檔全文資料庫建設及全文檢索方法的研究是由安徽省科學技術情報研究所完成的科技成果,登記於2012年10月25日。成果信息 項目成員 楊恆宇;丁俊;王翔;謝雪勝;李玲;楊曉輝;汪蔓;王偉;王錦;汪衛華;余國春;劉榮 ...
信息檢索的機率模型是信息檢索的經典模型,這種檢索模型是基於一個檔案與提問式的相關度是高於還是低於非相關度的機率來進行文檔檢索的檢索方法。特徵 文檔集合的所有辭彙是整個空間,每個文檔表示為該空間上的一個詞向量,每個詞對應一個權值,不同的模型對權值的計算方法不同。查詢亦表示為類似的一個向量。通過對文檔...
倒排索引(英語:Inverted index),也常被稱為反向索引、置入檔案或反向檔案,是一種索引方法,被用來存儲在全文搜尋下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。它是文檔檢索系統中最常用的數據結構。通過倒排索引,可以根據單詞快速獲取包含這個單詞的文檔列表。倒排索引主要由兩個部分組成:“單詞詞典”和...
順排索引的主要思想是將文檔中的每一條記錄依次去匹配用戶的檢索提問集合,文檔處理完畢後,將各提問的命中結果歸併分發給有關用戶。順排索引是用文檔中記錄一條一條去匹配提問的,是順序對文檔記錄檢索的方法,所以也稱為順排文檔檢索。常用的順排索引方法主要有:表展開法、邏輯樹法等。順排索引的關鍵技術是採用...
α文搜尋是一款基於語句的全文檢索服務系統,不再基於關鍵字,也不依賴分詞服務,對語言的支持採用統一的標準,支持語言僅僅需要以下特點的:有最小的文字單元,語句可以切分。對文字的搜尋提供一種獨有的方式,按系統的算法對文字進行特定的編碼,組建索引時存到關係表word中,為語句位的提供語句標識;存儲語句和文檔...
倒排檔案索引,即倒排索引(英語:Inverted index),也常被稱為反向索引、置入檔案或反向檔案,是一種索引方法,被用來存儲在全文搜尋下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。它是文檔檢索系統中最常用的數據結構。簡介 倒排索引(英語:Inverted index),也常被稱為反向索引、置入檔案或反向檔案,是...
然而,實際上網際網路搜尋引擎不能解決全部的問題,如企業內部的規章制度、項目文檔、工作經驗等,作為企業的知識財富,是不可能通過網際網路獲得完美答案的。核心能力 企業或組織經過多年的運作,積累了大量的運營、工作、生產、研發的經驗與知識,這些信息內容散落在企業的各個伺服器、IT系統,甚至個人的電腦中,這些寶貴的...
回響時間一般而言取決於2個因素,即與頻寬有關的網路速度和搜尋引擎本身的速度,只有在二者均獲得可靠的技術支持的情況下,才能保證理想的檢索速度。對搜尋引擎來講,查全率和查準率很難做到兩全其美,影響搜尋引擎的性能的主要是信息檢索模型,包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的...
配額預警功能上線,文檔即將超配額自動郵件通知,提醒用戶及時修正 2014年11月 實時引擎發布,數據處理時效性(從數據推送到系統到能檢索到)達到10+秒級別;創建、修改套用結構流程最佳化:去掉多值欄位,改為新增ARRAY類型,更方便用戶理解;去掉可聚合類型,引擎對於可聚合與可過濾處理邏輯相同,勾選可過濾即可支持原可...
與傳統的SQL查詢不同,在搜尋引擎收集完數據的預處理階段,搜尋引擎往往需要一種高效的數據結構來對外提供檢索服務。而現行最有效的數據結構就是“倒排檔案”。倒排檔案簡單一點可以定義為用文檔的關鍵字作為索引,文檔作為索引目標的一種結構(類似於普通書籍中,索引是關鍵字,書的頁面是索引目標)。