編輯推薦
本書介紹了現代信息檢索的絕大部分研究領域,全面展示了現代信息檢索的基礎知識和高級主題,涉及該領域的各個方面。本書的兩位主要作者是現代信息檢索領域的代表人物。書中還提供了由多個國家,多所大學計算機教授和傑出研究者編寫的關於相關領域的新研究成果及發展現狀的內容,充分展現了現代信息檢索領域的新趨勢和各重要部分。
本書涉及的高級主題:
用戶界面和可視化——查詢組織和結果可視化的主要界面範例;
多媒體信息檢索:模型和語言——包括MULTOS和SQL3
索引和搜尋——R樹、GEMINI和QBIC;
圖書館和圖書目錄系統——在線上系統和公共訪問目錄;
數字圖書館——有效部署面臨的挑戰;
文本信息檢索——所有主要信息檢索模型、查詢操作、文本操作、索引和搜尋;
Web——挑戰、方法和模型、搜尋引擎、目錄、查詢語言、元搜尋及趨勢。
前言
近年來,隨著網際網路的發展以及現代的、廉價的圖形用戶界面和大容量存儲設備的出現,信息檢索(information retrieval, IR)領域已經發生了巨大的變化,這使得傳統的信息檢索教材變得過時,所以很有必要引進新的信息檢索圖書。我們堅信,讀者非常需要一本從計算機科學的觀點(相對於用戶中心觀點)嚴謹完整地剖析該領域的書。本書正是致力於填補這一空白,並適合作為信息檢索的本科課程和研究生課程的教材。 本書由兩個既相互補充又相互平衡的部分組成。前九章是核心部分,由本書的設計者編著或合著;第二部分共六章,與第一部分緊密相連,是由本領域的傑出研究者編寫的相關學科最新成果。所有章節都使用相同的注釋和術語。因此,儘管本書由多人合著,但實際上是一本很好的教材,而不是將各個作者所寫的章節簡單地編輯在一起。此外,我們還精心設計了本書的內容和結構,力求全面展示現代信息檢索各重要部分的觀點。 從信息檢索模型到標引文本、從信息檢索可視化工具到Web界面、從信息檢索多媒體到數字圖書館,本書內容廣泛、細節豐富。鑒於信息檢索對現代社會的緊密相關性和重要性,我們希望本書為進一步在全球範圍內傳播信息科學、計算機科學和圖書館學的學科研究成果做出貢獻。 譯者序 Ricardo Baeza-Yates和Berthier Ribeiro-Neto是國際信息學界人士非常敬重的信息檢索方面的專家,他們的作品都是口碑極佳的上乘之作,為他們的作品寫譯者序,這個念頭本身就比較僭越。拜讀此書,沉思良久,深感此書確實討論了信息檢索中許多非常重要的問題,而它們又是非常實際的,有些也是我們在工作中經常遇到的。文中的討論和分析通俗易懂,又寓意深遠,讀後頗感收穫甚豐,不免由此萌生了將這本書介紹給國內同行的想法。幾經輾轉,了解到機械工業出版社有意出版此書,便自告奮勇地承擔起了翻譯的工作。 信息檢索是信息管理領域中的核心部分。面對人類社會不斷發展而積累起來的海量知識,如何高效、準確地查找所需要的信息,是每一個人在學習、研究和生活中都無法迴避的問題。信息檢索最早起源於圖書館的參考諮詢工作和書目工作,後來,隨著信息的急劇增加,人們對信息的利用也日趨廣泛,信息檢索也逐漸普及開來。計算機技術、網路技術、通信技術和大容量存儲技術的發展和流行,使得信息檢索領域也發生了巨大的變化,現代信息檢索與計算機科學的聯繫越來越密切,信息檢索進入了全新的發展階段。 目前,環顧國內外,關於信息檢索的教材可謂琳琅滿目,但大多數都是由圖書館學家、情報學家編寫的,側重於信息檢索的基本原理與基本方法,操作性較強。Baeza-Yates和Ribeiro-Neto兩人本身是計算機領域的專家,又熟諳信息檢索的理論;他們從計算機科學的觀點出發,將計算機理論與信息檢索結合起來,重點闡述了信息檢索的數學模型和實現技術,不啻為一部開歷史之先河的佳作,本書的價值也在於此。我們相信,任何從事信息檢索領域工作的人們,任何希望能快速、便捷地檢索信息的人們,都會從本書的閱讀中受益匪淺,這也是我們願意做這件事的原因所在。 受益於此書有餘,不揣冒昧地為本書的讀者們建議一條高效的閱讀途徑。本書分為兩大部分,第一部分由第1章至第9章組成,以數學理論為基礎,深入淺出地分析了信息檢索的模型、評價、查詢語言與操作、文本語言與操作、多媒體語言及其特徵、標引與檢索、並行與分散式檢索等,內容嚴謹而又翔實,這部分構成了本書的核心。相比較而言,第4章“查詢語言”是讀者更合理的起點,第2章“建模”是理解全書的關鍵所在,任何檢索都是在此基礎上推廣而來的。後一部分由第10章至第15章組成,這是計算機科學套用於信息檢索領域的最新成果,主要涉及用戶界面與可視化、多媒體信息檢索的模型與語言及其標引與檢索、Web檢索、圖書館與書目系統、數字圖書館等,這部分是前一部分的合乎邏輯的延伸和擴展。從事信息檢索研究的人們可以此為開端,了解新形勢下的信息檢索。此外,每一章都有“發展趨勢與研究課題”和“書目討論”兩節,給讀者提供了廣闊、深入的進一步學習和研究的空間。本書的內容還有很多,在閱讀的過程中,你將會發現許多新鮮生動而又非常深刻的東西,會發現許多你本該知道而至今尚未知曉的東西,這也是我們在閱讀和翻譯這本書過程中的切身體會。 一部英文論著在漢語中的旅行,永遠是無法捉摸的。對本書的譯者來說,全書討論的正是譯者們最為熟知的一個領域。這次翻譯的前提是對原文的徹底領會,因此,不會存在任何技術細節會因為譯者的生疏而發生扭曲。事實上,譯者們所面對的主要是“辭彙”方面。同一個詞或短語,在不同的領域有不同的理解,鑒於此,我們結合自己多年的信息檢索知識和經驗,遵從教科書的習慣用法,參考了《英漢計算機詞典》、《英漢數學詞典》等,並請教了一些該領域的專家,力求做到準確無誤。 依循學術慣例,或許不無感激,我們要感謝對本書的翻譯有所襄助的學人們。本書由王知津、賈福新、鄭紅軍主譯,李明珍、孫鑫、蔣偉偉、翟婭、劉建準、王辰君、武麗輝、范志雯、路彩妹、馬愛萍、譚周明、張國華、孫美麗、孫立武也對本書部分內容的初譯作了很多的工作,在此予以衷心感謝。全書由鄭紅軍進行了一校和部分內容的重譯,王知津負責全書的二校和最後審定。 譯文雖經多次修改和校正,並根據本書官方網站的最新勘誤表訂正了絕大部分錯誤,但由於譯者的水平有限,加之時間倉促,疏漏及缺點、錯誤在所難免,我們真誠地希望同行和讀者不吝賜教,不勝感激之至。 致謝 我們向在過去幾個月中給予我們無私幫助的那些人致以誠摯的謝意。如果沒有他們的大力支持,本書可能無法得以出版。 首先,我們要感謝所有章節的作者以及他們所做的貢獻。Elisa Bertino、Eric Brown、Barbara Catania、Christos Faloutsos、Elena Ferrari、Ed Fox、Marti Hearst、Gonzalo Navarro、Edie Rasmussen、Ohm Sornil、Nivio Ziviani,他們文章中的專業知識是我們所不具備的。在整個編輯和反覆審核的過程中,他們表現出了極大的耐心,在此我們表示感謝。 其次,我們要感謝對本書的出版有著很大興趣的所有人,尤其是Scott Delman和Doug Sery。 再次,我們要感謝Addison Wesley Longman出版公司在整個過程中所做的工作以及Keith Mansfield、Karen Sutherland、Bridget Allen、David Harison、Sheila Chatten、Helen Hodge和Lisa Talbot的興趣和鼓勵。他們聯繫的評論人閱讀了本書的一些早期方案,並給我們提供了好的反饋和非常寶貴的意見。“並行和分散式信息檢索”一章從“信息檢索套用”(在書中並不適用)部分移至“文本信息檢索”部分,這是因為一個不知姓名的推薦人對此進行了客觀的論證。“檢索評價”這一章也是另一個熱情的推薦人強調了這一主題的重要性後才添加進去的。 第四,我們要感謝與我們討論這個方案的所有的人。Doug Oard對草案做了初期的評論。Gary Marchionini是早期的支持者,並與我們保持著緊密的聯繫。Bruce Croft從一開始就鼓勵我們盡力地做好。Alberto Mendelzon提出了初始的建議,並在檢索了Web後彙編了各章的參考文獻。Ed Fox在百忙中抽出時間對“緒論”這一章做了非常有見解的評論(使得這章有很大的改善),並對“建模”這一章做了詳盡的評述。Marti Hearst對我們早期的草案表現出了很大的興趣,並在整個編輯過程了給予了幫助,是一位熱情的支持者和參與者。 第五,我們要感謝我們單位的支持,智利大學計算機科學系和Federal University of Minas Gerais對我們無私的支援。國家研究局(巴西研究委員會(CNPq)和智利國家科學技術研究委員會(CONICYT))、國際合作項目尤其是西班牙的美洲西班牙語區發展科學技術部(CYTED)項目ⅤⅡ.13 AMYRI(全球資訊網中的信息管理和檢索環境)、Pronex計畫下的巴西科技部科研項目信貸局(Finep)項目SIAM(移動計算機信息系統)給我們提供了資金支持。 最為重要的是,感謝Helena、Rosa和孩子們,為了本書我們做了許多旅行調查、錯過了許多周末而且工作時間沒有規律,而她們默默忍受了這一切。
作者簡介
Ricardo Baeza-Yates,於加拿大滑鐵盧大學獲得計算機科學博士學位。曾擔任智利計算機科學學會主席。1993年,他被授予美國組織獎,該獎只頒發給計算機科學領域的傑出年輕研究人員。現任智利大學計算機科學系教授,並在1993-1995年期間擔任系主任,同時也是世界上多所大學的客座教授,在多次國際會議上做過演講,在多個技術期刊上發表過文章。他還是ACM、EATCS、IEEE、SCCC及SIAM會員。他的主要研究主謝為算法和數據結構、文本檢索、圖形界面以及可視化在資料庫的套用。
Berthier Ribeiro-Neto於
加利福尼亞大學洛杉磯分校獲得計算機科學博士學位。現任巴西Federal University of Minas Gerais計算機科學系副教授,他是1998年南美“字元串處理和信息檢索”大會以及1999年“巴西資料庫會議”的主席,同時也是
ACM、ASIS及
IEEE會員。他的主要研究方向是信息檢索系統、數字圖書館、WEB界面及視頻點播。
譯者簡介
王知津,南開大學信息管理系教授,博士生導師,
南開大學情報科學研究所所長,是國內著名的情報學領域專家。
目錄
第1章 緒論
1.1 目的
1.2 基本概念
1.3 過去、現在和將來
1.4 檢索過程
1.5 本書的組織
……