內容簡介
該書共七章。第一章主要介紹選題背景與研究意義,國內外研究現狀,詞語語義和詞語遷移概念的界定,研究的內容、方法及創新之處。第二章闡述理論基礎,包括科學範式的轉變,貝葉斯網路和主題建模原理,以及創新擴散理論。第三章基於LDA主題模型對科研文獻構成的文本數據集進行了主題抽取和分析。第四章對科研主題的演化過程進行分析,對信息檢索領域五個重要主題的生長趨勢和演化動態進行識別和考察。第五章將科研主題演化分析深入詞語層面,重點關注科研主題演化過程中的詞語遷移現象。第六章對詞語遷移活動存在的一般性規律進行了驗證和分析。第七章對全書研究進行總結與展望。
作品目錄
| | |
第一節 選題背景與研究意義 第二節 國內外研究現狀分析 第三節 詞語語義和詞語遷移概念的界定 第四節 研究內容和研究方法 第五節 創新之處 | 第一節 科學哲學與科學範式的轉變 第二節 貝葉斯機率與貝葉斯網路 第三節 主題模型概述 第四節 創新擴散理論 | 第一節 數據獲取與預處理 第二節 文檔建模與參數設定 第三節 結果分析 第四節 本章小結 |
| | |
第一節 科研主題的生長趨勢 第二節 科研主題的演化動態 第三節 本章小結 | 第一節 詞語遷移概念的細化 第二節 詞語在主題中的分布 第三節 詞語遷移的類型和穩定性 第四節 詞語語義變化 第五節 本章小結 | 第一節 定量化詞語遷移 第二節 相似性規律 第三節 多樣性規律 第四節 凝聚性規律 第五節 本章小結 |
| |
|
創作背景
科研主題演化及主題內容分析,是信息科學相關領域長期關注的問題。數量龐大的學術文獻既向科研主題分析提出了挑戰,也為學術文本挖掘工作提供了充足的資源。科研主題是動態演化的,在一個科研領域的發展過程中,新興主題湧現,已經形成的主題越發活躍成熟或者逐漸老化衰退,各個主題的研究內容不斷變化,單一主題發生分化,多個主題之間產生融合。理解科研主題的演化過程並對其進行深入的內容分析,可以幫助新入領域的研究者了解領域概況,促進領域專家之間進行領域內部和跨領域的知識交流,向科研基金管理機構和政策制定者提供科學創新的發展軌跡,幫助決策者跟進領域知識的流動情況。
鑒於科研主題研究的重要性,以數據挖掘領域為代表的各學科均對其投入了很大的關注,相比之下,情報學領域對於科研主題演化的研究成果較少,對於演化動態和演化過程中主題結構變化的分析尤為欠缺。而在數據挖掘等計算機科學相關領域中,由於學科本身技術導向的特性,對於科研主題演化的考察比較注重演化模型的構建和最佳化,研究成果疏於探討主題間的知識交流情況和主題在不同時期的發展狀態,以及更進一步深入詞語層面的內容分析。以情報學和數據挖掘領域為代表的信息科學相關領域對科研主題演化分析的現狀是,情報學領域缺少成熟的技術方法對主題結構的動態演化過程和詞語在主題中的分布變化進行識別和抽取;數據挖掘領域由於其技術導向的特徵,缺乏對於科研主題深入的內容分析。基於上述認知,《科研主題演化過程中的詞語遷移研究》對科研主題的演化過程及演化過程中各主題下詞語的分布及語義變化進行了考察。
作品思想
該書基於信息檢索領域學術文獻數據,對科研主題演化過程中的詞語遷移問題進行了分析研究,得到以下結論:第一,信息檢索領域五個重要主題的發展演化,總體上遵循從調整期到成熟期的發展階段過渡過程。部分主題在發展成熟後,可能重新進入調整期,在經歷新知識的引入和主題內容重組後,達到一個新的發展成熟期。由主題分化融合活動反映的主題知識交流,既在主題自身內部發生,也在主題之間形成。領域內率先發展成熟的主題在後續發展獨立的主題的形成階段會產生知識輸出,相對地,後續發展獨立的主題也會反饋本主題創新的技術和方法向其他主題形成知識流動。部分主題由於研究範疇在本領域的獨特性和自身研究內容的凝聚性較高,與其他主題之間的知識交流較少,從而形成一條較為封閉的主題發展路徑。
第二,科研主題演化實質上是主題下具有語義功能的詞語發生的變化。理解科研主題中的核心詞語在不同時期發生的變化是對科研主題演化進行深入內容分析的關鍵。該書將科研主題演化過程中,相同詞語在不同主題中出現的現象定義為詞語遷移。詞語遷移現象關注詞語語義的變化,在科研主題演化的過程中,實際上對應的是與詞語關聯的創新和套用的變化。詞語遷移活動可分為無遷移、雙主題遷移和多主題遷移三種類型。當主題中的多個詞語均表現出向其他主題遷移的趨勢時,表示與這個主題相關的研究問題在本領域的熱度下降,主題整體處於收縮和衰退的過程當中。在詞語遷移的穩定性方面主要關注了收斂型遷移詞語和發散型遷移詞語。詞語的發散式遷移過程反映的是詞語語義由主題普遍性向主題特異性發展的過程,與之相對,詞語的收斂式遷移通常反映與詞語相聯繫的研究和套用在多個主題當中均獲得了關注,成為領域的熱點研究問題。
第三,通過考察包括詞語上下文相似性、語義多樣性和在主題中的重要性與詞語遷移方向和遷移程度的關係,該書提出關於詞語遷移活動的三個一般性規律。其一為相似性規律:具有相似上下文的詞語具有相似的遷移方向;其二為多樣性規律:語義多樣性較高的詞語具有較高的遷移程度;其三為凝聚性規律:主題中的重要詞語具有較低的遷移程度。研究表明,信息檢索領域各主題下高機率詞語的遷移活動驗證了關於詞語遷移的三個規律。相似性規律方面,上下文相似的詞語主要包括近義詞和共現詞組兩種類型,這類詞語通常具有相似的遷移方向,但當多個詞語互相之間經常共現時,這些詞語之間的語義會相互影響,使得在遷移過程中形成不一致的方向。多樣性規律與凝聚性規律存在一種相互制衡的關係。單純考慮多樣性規律時,詞語的語義越單一,越容易穩定在一個主題中,此時將凝聚性規律也加入考慮,語義單一的詞語可能對多個主題都很重要,或者說雖然這個詞語總是與相同的上下文共同出現,但常常被多個主題同時使用,那么也會使得詞語在多個主題中形成遷移。
出版信息
作者簡介
陳柏彤,博士,
上海大學講師,畢業於武漢大學信息管理學院情報學專業,主要研究方向為數據驅動知識發現。