傑拉德·索爾頓,Gerard Salton(8 March 1927 in Nuremberg - 28 August 1995) 。
1927年3月8日生於德國紐倫堡。1950年大學畢業,1952年獲碩士學位,1958年在美國哈佛大學數學系獲哲學博士學位。
1958~1965年任哈佛大學套用數學助理教授。
1965年在康乃爾大學計算機科學系任教授,1971~1977 年任該系系主任。
1966~1968年任《美國計算機協會通訊》主編,1969~1972年任《美國計算機協會雜誌》主編,《信息系統》、《美國計算機協會計算調查》、《美國計算機資料庫系統彙刊》編輯。
太根海姆基金會會員,美國科學促進會會員,美國計算機協會情報檢索專門小組
基本介紹
- 中文名:傑拉德·索爾頓
- 外文名:Gerard Salton
- 出生地:德國紐倫堡
- 出生日期:1927年3月8日
個人簡介,主要成就,Smart系統,
個人簡介
傑拉德·索爾頓,Gerard Salton(8 March 1927 in Nuremberg - 28 August 1995) 。
1927年3月8日生於德國紐倫堡。1950年大學畢業,1952年獲碩士學位,1958年在美國哈佛大學數學系獲哲學博士學位。
1958~1965年任哈佛大學套用數學助理教授。
1965年在康乃爾大學計算機科學系任教授,1971~1977 年任該系系主任。
1966~1968年任《美國計算機協會通訊》主編,1969~1972年任《美國計算機協會雜誌》主編,《信息系統》、《美國計算機協會計算調查》、《美國計算機資料庫系統彙刊》編輯。
太根海姆基金會會員,美國科學促進會會員,美國計算機協會情報檢索專門小組主席。
主要成就
第一個真正意義上的搜尋引擎於20世紀60年代創建,發明者是Gerard Salton。他和他的團隊在康奈爾大學創造了“智慧型信息檢索系統”(SMART information retrieval system),SMART代表Salton's Magic Automatic Retriever of Text(Salton的神奇文本自動檢索器)。
Gerard Salton被認為是現代搜尋技術之父。他的著作《A Theory Of Indexing》、《Term Frequency-Inverse Document Frequency》為搜尋引擎提供了理論的基礎。
1983年度首屆Salton獎得主,Salton就是以他名字命名。他是現代信息檢索的奠基人,著名的IR向量空間模型的創始人,開發了著名的SMART向量空間模型IR系統並免費開放原始碼下載,大大促進了IR的發展。生前供職於美國康奈爾大學計算機系。沒有主頁,只有一個紀念網頁維基上介紹其他光榮事跡包括:康內爾大學計算機系(共同)創始人,在CS領域最頂尖的兩份刊物“communications of ACM” 和“ journal of ACM”都當過主編,每三年一次旨在獎勵對IR有突出貢獻的薩爾頓獎以他的名字命名。
多年來,索爾頓在自動化情報檢索的教學和研究工作中取得了很大成就。1961年主持建立了世界上第一個全自動文本處理和檢索的實驗性系統 SMART,該系統擴展了H.P.盧恩以計算機處理自然語言文本為基礎的標引和檢索概念。他在情報檢索理論模型、檢索策略和系統評價、自動標引和分類等方面都有重大建樹。他對圖書館學也有一定研究,在培養人才方面作出了貢獻。索爾頓發表了許多關於情報學、情報檢索、情報處理和語言處理等方面的論著,主要有:《電子數據處理》、《計算機在商業上的套用》、《數學語言學》、《情報檢索理論》《自動情報組織與檢索》《SMART 檢索系統──自動文獻處理實驗》、動態情報與圖書館處理和《現代情報檢索導論》等。由於他在情報檢索方面作出了重大貢獻,他的名字被收入《美國名人錄》。
Gerard Salton (8 March 1927 in Nuremberg - 28 August 1995) was a Professor of Computer Science at Cornell University. Salton was perhaps the leading computer scientist working in the field of information retrieval during his time. His group at Cornell developed the SMART Information Retrieval System.
Salton was born Gerhard Anton Sahlmann on March 8, 1927 in Nuremberg, Germany. He received a Bachelor's (1950) and Master's (1952) degree in mathematics from Brooklyn College, and a Ph.D. from Harvard in 1958, the last of Howard Aiken's doctoral students, and taught there until 1965, when he joined Cornell University and co-founded its department of Computer Science. He was editor-in-chief of the Communications of the ACM and the Journal of the ACM, and chaired SIGIR.
Salton was an ACM Fellow (elected 1995), received an Award of Merit from the American Society for Information Science (1989), and was the first recipient of the SIGIR Award for outstanding contributions to study of information retrieval (1983) -- now called the Gerard Salton Award.
Smart系統
Gerard Salton是現代搜尋技術之父。他在哈佛和康奈爾大團隊開發出了SMART信息恢復系統。Salton’s Magic Automatic Retriever of Text包含了類似向量空間模型、逆文檔頻率(IDF),術語頻率(TF),術語偏離值(term discrimination values)等概念和相關反饋機制。
Smart系統是最著名的、使用者最多的實驗系統之一。其原因一方面是它的歷史比較長,另一方面是它的使用是免費的,且可下載原始碼,使研究者使用起來非常方便。Smart系統由美國康奈爾大學研發,最初的研發工作由Gerard Salton教授領導,並在20世紀80年代初開發出第一個版本。目前其維護工作由Chris Buckley負責,最新的版本是Smart11。
開發Smart系統的目的是為了給文本信息檢索技術的研究者提供一個完善的實驗平台。在這一思想指導下,Smart實現了一個完整的基於向量空間模型的文本信息檢索系統,不過目前只能處理英文文檔。利用Smart,用戶可以對一組文檔建立索引,然後即可對給出的問詢(query)返回檢索結果,並對結果進行評價。
同時,它包括去除stopwords(stopwords列表可由用戶指定)、去除詞形變化(stemming)、weighting計算等子功能模組。用戶可以根據自己的需要分別調用。不過,由於其設計年代較早,Smart系統存在一個很大的缺點,即只能處理大約500MB以下的文檔集合,這使它在數據量達到10GB以上的TREC Web Track這樣的問題時顯得力不從心。Smart系統的另一個不足之處是缺乏良好的文檔,使用者常常需要自己摸索使用方法。