社交網路內容搜尋

內容搜尋指的是給定查詢,從大量信息中返回相關信息內容的過程。內容搜尋是信息檢索最經典的套用形式。在社交網路中,內容搜尋的需求十分迫切。比如,用戶在社交上輸入”馬航失聯”,希望返回與該事件相關的信息。值得一提的是,基於社交網路內容還可以進行專家搜尋或專家定位,比如輸入”機器學習”,從社交網路中返回該領域的相關專家。這是一種特定的社交網路搜尋套用。TREC(Text Retrieval Conference,文本檢索會議)於2011年開始增加微博搜尋評測子任務,通過提供標準查詢合標註數據集進行社交網路內容搜尋特別是微博搜尋的研究。

基本介紹

  • 中文名:社交網路內容搜尋
  • 外文名:Social network content search
具體內容,空間模型,

具體內容

傳統內容搜尋的基本過程為:由大規模文檔數據構成被搜尋語料庫,用戶構造出可表達其信息需求的查詢,查詢和文檔分別進行處理轉化成某種表示之後利用信息檢索模型進行相關度計算,最終將文檔按照計算得分的降序返回給用戶。從上述過程可以看出,信息檢索中要先對處理對象(文檔、查詢)進行表示,然後計算對象表示之間的相關度。對檢索對象進行表示並計算他們之間的相關度屬於信息檢索模型的範疇。目前主要有向量空間模型、機率模型和統計建模語言模型三種經典信息檢索模型。

空間模型

這裡主要介紹向量空間模型。早在20世紀50年代,把文本表示成帶權信息的詞向量的思想就已經被提出來了,這種思想正是向量空間模型的精髓所在。之後由Gerard Salton等人提出的向量空間模型是近幾十年來信息檢索領域套用最為廣泛的檢索模型之一。
VSM的基本思路:將查詢也看做文檔,而每篇文檔都表示成同一空間下的向量,通過向量之間的相似度來度量查詢和文檔之間的相關性。其中向量的每一維對應一個詞項,向量的每個分量元素代表詞項在文檔中的重要性,這種重要性稱為權重,通常可以採用FTFIDF機制來計算。其中TF(Term Frequency)指詞項頻率,是詞項在文檔集中出現的數目。TF給出了詞項在文檔中代表性。而DF(Document Frequency)是文檔集中出現該詞項的所有文檔數目,稱為文檔頻率。DF通常要轉換成逆文檔頻率IDF來計算。詞項t的IDF值通常採用如下的公式計算:
IDF(t) = log(N/DF(t)),其中,N是文檔集中所有文檔的數目。IDF代表的是詞項在全局文檔中的區分性。在VSM中,詞項權重往往由上述TF和IDF組合而成,通常採用乘法。

相關詞條

熱門詞條

聯絡我們