短文本檢索

定義

短文本（short text）是指長度較短的文本，它是和文檔或長文本相對而言的，短文本可以是一個小的段落、幾句話、一句話甚至一個短語，常見的短文本有微博、微信、手機簡訊、即時信息、twitter等，具有海量、不規範、特徵稀疏以及訊息相關性等特點。信息檢索是從大規模非結構化數據（通常是文本）的集合（通常保存在計算機上）中找出滿足用戶信息需求的資料（通常是文檔）的過程。進而我們定義：短文本檢索是從海量、無結構、不規範以及相關的短文本數據集合中找出滿足用戶信息需求的過程。

短文本檢索的表示

我們用q表示用戶查詢，D表示短文本集合，則短文本信息檢索可以形式化的表示為{r1,r2,…,rn}=Search(q|D), 其中r1,r2,…,rn表示返回的與查詢相關短文的排序結果。

短文本檢索

基本介紹

定義

短文本檢索的表示

相關詞條

熱門詞條