停用詞表是2019年公布的圖書館·情報與文獻學名詞。
基本介紹
- 中文名:停用詞表
- 外文名: stop list
- 所屬學科:圖書館·情報與文獻學_信息組織_主題法
- 公布年度: 2019年
停用詞表是2019年公布的圖書館·情報與文獻學名詞。
停用詞表是2019年公布的圖書館·情報與文獻學名詞。 定義不能用於標引和檢索的詞或短語的列表。文獻標引及檢索時,只允許將不出現在停用詞表上的那些詞用作標引詞。 出處《圖書館·情報與文獻學名詞》...
5.1 停用詞表 231 5.2 句法分析樹 233 5.3 相似度計算 237 5.4 文檔排重 240 5.4.1 語義指紋 241 5.4.2 SimHash 244 5.4.3 分散式文檔排重 254 5.5 中文關鍵字提取 255 5.5.1 關鍵字提取的基本方法 255 5.5.2 HITS算法套用於關鍵字提取 257 5.5.3 從網頁中提取關鍵字 259 5.6 相關...
例如,中文裡的詞與詞之間不存在分隔設定,因此必須先進行分詞,而英文中的詞存在很多變形,比如“compute”就存在“computes”、“computing”、“computed”等多種變形,應先進行詞根還原。此外,有些詞雖然出現頻率很高,但對於查詢沒有任何幫助,比如“的”、“了”等,就無需放入索引,為此需要預備一個停用詞表(...
選詞標引法(term indexing)是2019年全國科學技術名詞審定委員會公布的圖書館·情報與文獻學名詞。定義 採取自動抽詞,根據詞頻抽詞等手段在文獻的正文中選取反映文獻主題、具有檢索意義的詞作為索引的標題,並用這些標題為正文編制索引的方法。一般要設立停用詞表,將不宜作為檢索詞的詞列表,排除在自動抽詞的範圍外...
3.3意圖停用詞表 3.4概念模式挖掘 3.4.1實體修飾關係 3.4.2概念修飾關係 3.5語義角色標註 3.5.1實體識別 3.5.2雙實體查詢標註 3.5.3多實體查詢標註 3.5.4語義衝突 3.6實驗 3.6.1挖掘意圖停用詞 3.6.2挖掘實體修飾關係 3.6.3概念模式知識庫 3.6.4語義標註效果 3.6.5與其他方法的比較 3...
4.6.3停用詞表103第5章特徵降維與特徵選擇107 5.1初識特徵降維107 5.2線性判別分析107 5.2.1線性判別分析簡介107 5.2.2線性判別分析示例108 5.3主成分分析109 5.3.1主成分分析簡介109 5.3.2components參數110 5.4特徵選擇112 5.4.1簡介112 5.4.23種方法112 5.5包裝法113 5.5.1遞歸特徵消除113...
4.4.1 停用詞表 4.4.2 詞典資源 4.5 英文拼寫檢查 4.5.1 形態還原 4.5.2 詞語相似度計算 本章小結 思考練習 參考文獻 第5章 文本索引和搜尋 5.1 引言 5.2 倒排檔案 5.2.1 倒排檔案簡介 5.2.2 倒排檔案的使用 5.2.3 倒排檔案的建立 5.2.4 倒排檔案的維護 5.2.5 倒排檔案的壓縮 5.2...
7.3.2領域科技政策停用詞表與詞典的構建134 7.3.3科技政策內容的分析方法135 7.3.4實驗分析137 7.4科技文獻數據的重要性分析方法和技術研究140 7.4.1研究現狀141 7.4.2科技文獻重要性評價指標的構建142 7.4.3科技文獻重要性的權重確定143 7.4.4實驗分析147 7.5科技數據內容的主題演化路徑分析方法和...
12.1 大數據與數據世系 308 12.2 基於機器學習的類人腦科學的演化310 12.3 社會計算向社會智慧型的演化312 12.4 小結 314 參考文獻 315 附錄 A基於信息傳播的分類及網站示例 317 附錄 B 基於 LDA模型的候選主題詞抽取算法描述318 附錄 C常用的中文停用詞表321 附錄 D TBDC4TS聚類算法偽代碼示意333 後記335 ...
第12章命名實體識別與關鍵詞提取173 12.1命名實體識別與關鍵字提取概述173 12.1.1命名實體識別173 12.1.2關鍵字提取177 12.2經典算法177 12.2.1命名實體識別經典算法177 12.2.2關鍵字提取經典算法185 12.2.3算法分類189 12.3套用與分析191 12.3.1命名實體識別示例191 12.3.2關鍵字提取實驗194 第13章...