數字文獻資源高維聚合模型研究

內容簡介

針對文本挖掘和信息檢索中的文本或文獻聚類與分類等問題，學術界基於VSM（向量空間模型）主要有兩方面的研究，一者是文獻表示模型的改進，二者是算法的改進。然而傳統的算法對高維稀疏的向量聚類存在不足，一些新的算法也不盡完美，更主要的是聚類算法的效果與數據本身的特徵以及信息提取和表示密切相關，特別是在信息有限的情況下，聚類算法的優勢也不能得到完美發揮，相比之下，信息的挖掘、提取和文獻向量表示就尤為重要。在本文僅限於元數據甚至只有關鍵字的前提下，文獻的表示向量相比一般文本表示就表現得非常稀疏，面對這種情形聚類算法即使是“巧婦”也“難為無米之炊”，因此，本書的重點突破是文獻主題語義信息的提取、度量和文獻高維向量的新表示方法。基於以上問題和現象，本書以數字文獻資源為對象，本著在信息資源聚合中減少對背景知識的依賴，便於推廣套用的宗旨，提出了基於文獻集本身或者相關領域的共現信息而實現文獻聚合的共現潛在語義向量空間模型（CLSVSM）。而且通過實驗證實基於CLSVSM的文獻聚類表現比基於VSM和GVSM（廣義向量空間模型）顯著地好。

作者簡介

牛奉高，男，1980年4月生，山西沁水人。山西大學數學科學學院統計系講師，碩士生導師，山西省高等學校優秀青年學術帶頭人，中國數學會會員，中國科學學與科技政策研究會、全國科學計量學與信息計量學專業委員會會員。2014年畢業於武漢大學情報學專業，獲管理學博士學位。2015年獲湖北省優秀博士學位論文獎。研究領域包括信息計量與科學評價、套用統計等。主持國家自然科學基金項目一項，省廳級科研項目三項；在《Scientometrics》、《情報學報》、《情報科學》、《重慶大學學報》、《武漢大學學報》、《山西大學學報》等國內外期刊上發表學術論文20餘篇；獲批軟體著作權一項；參編《科學計量學》、《知識計量學》等多部著作，擔任《中國研究生學科專業評價報告》副主編。

數字文獻資源高維聚合模型研究

基本介紹

內容簡介

作者簡介

相關詞條

熱門詞條