自動標引(英語:Automatic Indexing)包括關鍵字自動提取(又稱自動抽詞標引)與自動賦詞標引兩種類型。關鍵字自動提取是一種識別有意義且具有代表性片段或辭彙的自動化技術。關鍵字自動提取在文本挖掘域被稱為關鍵字抽取(英語:Keyword Extraction),在計算語言學領域通常著眼於術語自動識別(英語:Automatic Term Recognition),在信息檢索領域,就是指自動標引。自動標引屬於文本信息抽取的範疇。文本信息抽取是從文本數據中抽取人們關注的特定的信息。
基本介紹
- 中文名:自動標引
- 外文名:Automatic indexing
- 套用領域:計算機行業
作用
發展過程
代表方法
- 1957年,Luhn開始自動標引研究,首次將計算機技術引入文獻標引領域,開創了以詞頻為特徵的統計標引方法,其理論基礎是Zipf定律,該方法具有一定的客觀性和合理性,並且簡單易行,在自動標引中占有重要地位
- 1958年,Luhn提出基於絕對頻率加權法的自動標引方法; P.B.Baxendale提出從論題句和介詞短語中自動提取關鍵字
- 1959年,Edmundson與Oswald提出基於相對頻率加權法的自動標引方法
- 1960年,Maron & Kuhns提出基於相關機率的賦詞標引方法
- 1969年,H.P.Edmundson提出了一些新的加權方法,如提示詞(預示詞)加權法、題名加權法、位置加權法,並探討了不同加權法的最優組合問題
- 1970年,Lois L. Earl利用句法分析等語言學方法與詞頻統計方法相結合的方法來提取關鍵字
- 1973年,Salton等提出基於詞區分值的自動標引方法
- 1975年,Salton等將VSM模型用於自動標引中
- 1983年,Dillon等提出一種基於概念的自動標引方法,研製了FASIT系統
- 1985年,Devadason提出基於深層結構標引方法
- 1990年,Deerwester & Dumais等提出潛在語義分析標引法
- 1993年,Silva & Milidiu提出基於相信函式模型的賦詞標引方法
- 1995年,Cohen提出N-Gram分析法的自動標引方法
- 1997年,簡立峰提出基於PAT樹的關鍵字提取方法
- 1999年,Frank等人提出基於樸素貝葉斯(Naive Bayes,NB)的關鍵字提取方法;Turney 利用遺傳算法和C4.5決策樹算法等機器學習方法進行關鍵短語提取的研究
- 2001年,Anjewierden & Kabel提出基於本體的自動標引方法
- 2003年,Tomokiyo & Hurst提出了基於語言模型的關鍵字提取方法;Hulth利用Bagging算法進行了基於集成學習的關鍵字抽取
- 2004年,李素建提出基於最大熵模型的關鍵字提取方法
- 2006年,張闊提出基於支持向量機自動標引模型
- 2007年,Ercan, G. & Cicekli, I提出基於辭彙鏈的自動標引方法
典型套用
- 漢語自動標引加權方法試驗研究 1994年 史繼紅、賴茂生 北京大學信息管理系
- 自動標引“匹配標引法”原理 1994年 袁慶華 總後檔案館
- 語義矢量空間模式 (SVSM)及其試驗評價——自然語言處理與文獻自動標引 1996年 Geoffrey Z. Liu 美國加利福尼亞州聖何塞州立大學圖書情報學院
- 文書檔案主題自動標引系統的設計與實踐 1996年 蘭生柱、尹秀蘭等 解放軍檔案館
- 統計方法結合受限自然語言理解技術用模糊方法抽取關鍵字 1998年 何新貴、彭甫陽 北京系統工程研究所
- 主題轉譯標引技術 1998年 陳光華 台灣大學圖書館和信息科學系
- 對規範文本篇章結構 1998年 單永明 山西大學計算機系
- 科技文獻主題詞的自動標引法 1998年 石國華 杭州大學
- 中文科技文獻題內自動抽詞標引系統 1998年 邵艷秋、劉挺等 黑龍江交通高等專科學校計算中心、哈爾濱工業大學計算機系
- 針對生物學文獻 1999年 王永成、韓客松等 上海交通大學
- 單漢字標引技術 1999年 胡盈盈 南京大學
- 基於《中國分類主題詞表》的WWW科技信息資源自動標引設計方案 1999年 肖明 北京師範大學信息技術與管理學系
- 網路環境下檔案主題自動標引的實現方法 1999年 熊志雲 湖北大學人文學院檔案系
- 公安文獻全文著錄、機助標引及檢索系統(PWDBC) 2000年 江蘇公安專科學校
- 計算機模糊檢索在圖書自動標引中的套用 2000年 許玲 曲阜師範大學圖書館
- 基於中國檔案主題詞表的自動標引控制研究 2002年 王蘭成等 南京政治學院上海分院信息管理系
- 基於多詞表的自動標引技術研究——新華社新聞稿自動標引的實驗 2002年 查貴庭、侯漢清 南京農業大學信息管理系
- 字面相似聚類法輔助構造詞族表、分面類表和自動標引 2002年 張琪玉 南京政治學院上海分院信息管理系
- 網頁自動標引方案的優選及標引性能的測評 2002年 仲云云、侯漢清等 南京農業大學信息管理系