內容簡介
《信息檢索與智慧型處理》可為高校相關專業(如
計算機科學與技術、軟體工程、情報學、圖書館學、信息管理與信息系統)學生的學習和科研工作提供幫助,同時對於從事信息檢索與智慧型處理技術、社會網路計算的工程技術人員和希望了解網路信息檢索技術的愛好者,《信息檢索與智慧型處理》也具有較高的參考價值。
圖書目錄
第1篇背景知識
第1章緒論
1.1信息及其分類
1.2信息檢索的起源和發展
1.2.1手工檢索
1.2.2脫機批處理檢索
1.2.3在線上檢索
1.2.4光碟檢索
1.2.5網路信息檢索
1.3信息檢索與其他學科的關係
1.4本書主要關注的內容及知識點間的聯繫
1.5本章小結
參考文獻
第2章信息智慧型處廈樂兆理關鍵技術綜述
2.1自然語言處理及中文分詞
2.1.1基於詞典匹配的中文分詞法
2.1.2基於詞頻統計的無詞典中文分詞法
2.2異構信息處理與內容表示
2.3文本挖掘
2.4實體關係抽取
2.5命名實體識別
2.6話題跟蹤
2.7文本分類
2.7.1基於統計和分詞的方法
2.7.2基於向量空間模型的方法
2.7.3基於知識工程的分類方法
2.8文本情感分析
2.9文本聚類
2.10自動摘要
2.11全文檢索
2.12語義Web與信犁晚息集成
2.13大數據處理與Hadoop開源系統
2.13.1 Hadoop簡介
2.13.2 HBase簡介
2.13.3 Hive簡介
2.13.4 Pig簡介
2.13.5 Cassandra簡介
2.13.6 Chukwa簡介
2.14本章小結
參考文獻
第3章搜尋引擎與信息檢索綜述
3.1搜尋引擎概述
3.2搜尋引擎的發展歷程
3.3搜尋引擎的分類
3.3.1目錄索引式搜尋引擎
3.3.2自動式搜尋引擎
3.3.3元搜尋引擎
3.3.4分散式搜尋引擎
3.4網路信息檢索與處理的基本流程
3.4.1網路信息獲取
3.4.2信息抽取
3.4.3信息加工
3.4.4信息檢索與結果提供
3.5開源研發工具
3.5.1Lucene
3.5.2Lemur
3.5.3 UUS
3.5.4Egothor
3.5.5 Xapian
3.5.6 Sphinx
3.6信息檢索評測
3.6.1TREC評測
3.6.2其他評測:NTCIR、CLEF、SEWM
3.7信息檢索模型與基本方法
3.7.1布爾檢索模型
3.7.2機率檢索模型
3.7.3向量空間模型
3.7.4模糊檢索模型
3.7.5邏輯檢索模型
3.7.6概念檢索
3.7.7案例檢索
3.8信息檢索系統的性能評價指標
3.9信息檢索系統的體系結構
3.10本章小結
參考文獻
第2篇信息處理
第4章海量異構信息採集
4.1概述
4.2相關工作綜述與擴展閱讀
4.3海量異構信息的獲取與處理
4.3.1異構數據整合
4.3.2爬蟲設計
4.3.3異構數據處理
4.4基於網站優先權調整的信息動態採集算法
4.4.1網頁時新度的確定
4.4.2基於網頁時新度的網站優先權調整思路
4.4.3基於網站優先權的多執行緒網頁信息採集技術
4.4.4根據網頁類別確定優先權
4.4.5實驗及結果分析
4.5本章小多欠葛記結
參考文獻
第5章網頁正文紙祖擊鞏提取與解析
5.1概述
5.2相關工作綜述兆希夜與擴展閱讀
5.3基於DOM的網頁正文提取與解析
5.3.1DOM規範簡述
5.3.2算法描述
5.4基於文字密度的網頁正文提取
5.4.1算法流程圖
5.4.2網頁源碼預處理
5.4.3網頁正文源碼行中文密度的計算
5.4.4網頁源碼正文分塊
5.4.5網頁正文識別
5.4.6網頁原始格式的保留問題
5.4.7實驗設計與數據分析
5.5本章小結
參考文獻
第6章實體關係抽取
6.1概述
6.2相關工作綜述與擴展閱讀
6.2.1基於模板的方法
6.2.2基於特徵的實體關係抽取
6.2.3基於Kernel的實體關係抽取
6.2.4基於無指導的學習方法
6.3核函式
6.3.1核函式的基本數學性質
6.3.2常用的核函式
6.4特徵核函式
6.4.1定義
6.4.2句法核函式
6.4.3組合核函式
6.5未使用Bootstrapping算法的實體關係自動抽取
6.5.1系統模型
6.5.2實驗數據集
6.5.3實驗結果
6.6基於Bootstrapping算法的實體關係自動抽取
6.6.1系統模型
6.6.2實驗結果
6.7本章小結
參考文獻
第7章命名實體識別及話題跟蹤
7.1概述
7.2相關工作綜述與擴展閱讀
7.2.1命名實體識別研究概況及發展趨勢
7.2.2話題頌和頌跟蹤的相關研究
7.3將時間信息用於話題跟蹤
7.3.1時間信息識別
7.3.2時間信息的規範
7.3.3時間信息的相似度計喇戒厚算
7.3.4時間信息抽取性能評估
7.4標題信息用於話題跟蹤
7.5話題跟蹤模型
7.6實驗結果與分析
7.6.1新聞正文抽取
7.6.2新聞標題抽取
7.6.3新聞發布時間的抽取
7.6.4實驗結果
7.7本章小結
參考文獻
第8章主題概念自動標引
8.1概述
8.2相關工作綜述與擴展閱讀
8.3基於概念分析的主題詞自動標引
8.3.1文章模型建立
8.3.2主題詞自動標引算法
8.3.3主題概念權值的設定
8.3.4同(近)義詞、忽略詞和用戶自定義詞的處理
8.3.5基於頻率統計和規則過濾的未登錄詞識別與處理
8.4基於遺傳算法的主題概念權值學習與調整算法
8.4.1編碼設計
8.4.2適應性函式
8.4.3選擇策略
8.4.4變異策略
8.4.5雜交策略
8.4.6學習算法
8.5算法實驗與性能分析
8.5.1實驗環境與實驗數據
8.5.2實驗評價標準
8.5.3各領域標引結果滿意度測試
8.5.4基於遺傳算法的主題概念權值學習與調整實驗
8.6下一步的研究計畫
8.7本章小結
參考文獻
第9章文本自動摘要
9.1概述
9.2相關工作綜述與擴展閱讀
9.3基於主題標引相似計算的文本自動摘要
9.3.1文檔結構模型表示
9.3.2主題詞串的向量化與構建文檔向量空間模型
9.3.3計算文檔結構各部分的權重
9.3.4正規則、負規則、用戶傾向性詞表的定義與套用
9.3.5基於語句相似度的語句冗餘度算法以及摘要句冗餘度閾值的使用
9.3.6摘要和原文比例的確定以及摘要生成
9.3.7預處理網頁正文對提高摘要準確性的作用
9.3.8提高摘要算法實時性的措施
9.4算法實驗及性能分析
9.5本章小結
參考文獻
第10章文本自動分類
10.1概述
10,2相關工作綜述與擴展閱讀
10.3算法流程
10.4文本表示模型
10.4.1基於主題詞向量模板的文本表示模型
10.4.2基於特徵詞哈希表的文本表示模型
10.5兩種輔助算法
10.5.1改進的向量內積算法
10.5.2改進的相似度算法
10.6類別中心向量分類算法
10.6.1算法主要步驟
10.6.2類別中心向量修正
10.7算法性能分析
10.7.1兩種向量表示方法的性能比較
10.7.2類別中心向量分類算法的實驗及分析
10.8無分詞分類算法
10.8.1基於單字計算的文本分類算法
10.8.2特徵向量生成
10.8.3相似度計算
10.8.4實驗結果分析
10.9本章小結
參考文獻
……
第3篇套用
3.4網路信息檢索與處理的基本流程
3.4.1網路信息獲取
3.4.2信息抽取
3.4.3信息加工
3.4.4信息檢索與結果提供
3.5開源研發工具
3.5.1Lucene
3.5.2Lemur
3.5.3 UUS
3.5.4Egothor
3.5.5 Xapian
3.5.6 Sphinx
3.6信息檢索評測
3.6.1TREC評測
3.6.2其他評測:NTCIR、CLEF、SEWM
3.7信息檢索模型與基本方法
3.7.1布爾檢索模型
3.7.2機率檢索模型
3.7.3向量空間模型
3.7.4模糊檢索模型
3.7.5邏輯檢索模型
3.7.6概念檢索
3.7.7案例檢索
3.8信息檢索系統的性能評價指標
3.9信息檢索系統的體系結構
3.10本章小結
參考文獻
第2篇信息處理
第4章海量異構信息採集
4.1概述
4.2相關工作綜述與擴展閱讀
4.3海量異構信息的獲取與處理
4.3.1異構數據整合
4.3.2爬蟲設計
4.3.3異構數據處理
4.4基於網站優先權調整的信息動態採集算法
4.4.1網頁時新度的確定
4.4.2基於網頁時新度的網站優先權調整思路
4.4.3基於網站優先權的多執行緒網頁信息採集技術
4.4.4根據網頁類別確定優先權
4.4.5實驗及結果分析
4.5本章小結
參考文獻
第5章網頁正文提取與解析
5.1概述
5.2相關工作綜述與擴展閱讀
5.3基於DOM的網頁正文提取與解析
5.3.1DOM規範簡述
5.3.2算法描述
5.4基於文字密度的網頁正文提取
5.4.1算法流程圖
5.4.2網頁源碼預處理
5.4.3網頁正文源碼行中文密度的計算
5.4.4網頁源碼正文分塊
5.4.5網頁正文識別
5.4.6網頁原始格式的保留問題
5.4.7實驗設計與數據分析
5.5本章小結
參考文獻
第6章實體關係抽取
6.1概述
6.2相關工作綜述與擴展閱讀
6.2.1基於模板的方法
6.2.2基於特徵的實體關係抽取
6.2.3基於Kernel的實體關係抽取
6.2.4基於無指導的學習方法
6.3核函式
6.3.1核函式的基本數學性質
6.3.2常用的核函式
6.4特徵核函式
6.4.1定義
6.4.2句法核函式
6.4.3組合核函式
6.5未使用Bootstrapping算法的實體關係自動抽取
6.5.1系統模型
6.5.2實驗數據集
6.5.3實驗結果
6.6基於Bootstrapping算法的實體關係自動抽取
6.6.1系統模型
6.6.2實驗結果
6.7本章小結
參考文獻
第7章命名實體識別及話題跟蹤
7.1概述
7.2相關工作綜述與擴展閱讀
7.2.1命名實體識別研究概況及發展趨勢
7.2.2話題跟蹤的相關研究
7.3將時間信息用於話題跟蹤
7.3.1時間信息識別
7.3.2時間信息的規範
7.3.3時間信息的相似度計算
7.3.4時間信息抽取性能評估
7.4標題信息用於話題跟蹤
7.5話題跟蹤模型
7.6實驗結果與分析
7.6.1新聞正文抽取
7.6.2新聞標題抽取
7.6.3新聞發布時間的抽取
7.6.4實驗結果
7.7本章小結
參考文獻
第8章主題概念自動標引
8.1概述
8.2相關工作綜述與擴展閱讀
8.3基於概念分析的主題詞自動標引
8.3.1文章模型建立
8.3.2主題詞自動標引算法
8.3.3主題概念權值的設定
8.3.4同(近)義詞、忽略詞和用戶自定義詞的處理
8.3.5基於頻率統計和規則過濾的未登錄詞識別與處理
8.4基於遺傳算法的主題概念權值學習與調整算法
8.4.1編碼設計
8.4.2適應性函式
8.4.3選擇策略
8.4.4變異策略
8.4.5雜交策略
8.4.6學習算法
8.5算法實驗與性能分析
8.5.1實驗環境與實驗數據
8.5.2實驗評價標準
8.5.3各領域標引結果滿意度測試
8.5.4基於遺傳算法的主題概念權值學習與調整實驗
8.6下一步的研究計畫
8.7本章小結
參考文獻
第9章文本自動摘要
9.1概述
9.2相關工作綜述與擴展閱讀
9.3基於主題標引相似計算的文本自動摘要
9.3.1文檔結構模型表示
9.3.2主題詞串的向量化與構建文檔向量空間模型
9.3.3計算文檔結構各部分的權重
9.3.4正規則、負規則、用戶傾向性詞表的定義與套用
9.3.5基於語句相似度的語句冗餘度算法以及摘要句冗餘度閾值的使用