推薦算法

基於內容

基於內容的信息推薦方法的理論依據主要來自於信息檢索和信息過濾，所謂的基於內容的推薦方法就是根據用戶過去的瀏覽記錄來向用戶推薦用戶沒有接觸過的推薦項。主要是從兩個方法來描述基於內容的推薦方法：啟發式的方法和基於模型的方法。啟發式的方法就是用戶憑藉經驗來定義相關的計算公式，然後再根據公式的計算結果和實際的結果進行驗證，然後再不斷修改公式以達到最終目的。而對於模型的方法就是根據以往的數據作為數據集，然後根據這個數據集來學習出一個模型。一般的推薦系統中運用到的啟發式的方法就是使用tf-idf的方法來計算，跟還有tf-idf的方法計算出這個文檔中出現權重比較高的關鍵字作為描述用戶特徵，並使用這些關鍵字作為描述用戶特徵的向量；然後再根據被推薦項中的權重高的關鍵字來作為推薦項的屬性特徵，然後再將這個兩個向量最相近的（與用戶特徵的向量計算得分最高）的項推薦給用戶。在計算用戶特徵向量和被推薦項的特徵向量的相似性時，一般使用的是cosine方法，計算兩個向量之間夾角的cosine值。

基於協同

基於協同過濾的推薦算法理論上可以推薦世界上的任何一種東西。圖片、音樂、樣樣可以。協同過濾算法主要是通過對未評分項進行評分預測來實現的。不同的協同過濾之間也有很大的不同。

基於用戶的協同過濾算法: 基於一個這樣的假設“跟你喜好相似的人喜歡的東西你也很有可能喜歡。”所以基於用戶的協同過濾主要的任務就是找出用戶的最近鄰居，從而根據最近鄰居的喜好做出未知項的評分預測。這種算法主要分為3個步驟：

一，用戶評分。可以分為顯性評分和隱形評分兩種。顯性評分就是直接給項目評分（例如給百度里的用戶評分），隱形評分就是通過評價或是購買的行為給項目評分（例如在有啊購買了什麼東西）。

二，尋找最近鄰居。這一步就是尋找與你距離最近的用戶，測算距離一般採用以下三種算法：　1.皮爾森相關係數。　2.餘弦相似性。　3調整餘弦相似性。　調整餘弦相似性似乎效果會好一些。

三，推薦。產生了最近鄰居集合後，就根據這個集合對未知項進行評分預測。把評分最高的N個項推薦給用戶。這種算法存在性能上的瓶頸，當用戶數越來越多的時候，尋找最近鄰居的複雜度也會大幅度的增長。

因而這種算法無法滿足及時推薦的要求。基於項的協同過濾解決了這個問題。基於項的協同過濾算法跟基於用戶的算法相似，只不過第二步改為計算項之間的相似度。由於項之間的相似度比較穩定可以線上下進行，所以解決了基於用戶的協同過濾算法存在的性能瓶頸。

關聯規則

基於關聯規則的推薦（Association Rule-based Recommendation）是以關聯規則為基礎，把已購商品作為規則頭，規則體為推薦對象。關聯規則挖掘可以發現不同商品在銷售過程中的相關性，在零售業中已經得到了成功的套用。關聯規則就是在一個交易資料庫中統計購買了商品集X的交易中有多大比例的交易同時購買了商品集Y，其直觀的意義就是用戶在購買某些商品的時候有多大傾向去購買另外一些商品。比如購買牛奶的同時很多人會同時購買麵包。

表1 主要推薦方法對比
推薦方法	優點	缺點
基於內容推薦	推薦結果直觀，容易解釋；不需要領域知識	新用戶問題；複雜屬性不好處理；要有足夠數據構造分類器
協同過濾推薦	新異興趣發現、不需要領域知識；隨著時間推移性能提高；推薦個性化、自動化程度高；能處理複雜的非結構化對象	稀疏問題；可擴展性問題；新用戶問題；質量取決於歷史數據集；系統開始時推薦質量差；
基於規則推薦	能發現新興趣點；不要領域知識	規則抽取難、耗時；產品名同義性問題；個性化程度低；
基於效用推薦	無冷開始和稀疏問題；對用戶偏好變化敏感；能考慮非產品特性	用戶必須輸入效用函式；推薦是靜態的，靈活性差；屬性重疊問題；
基於知識推薦	能把用戶需求映射到產品上；能考慮非產品屬性	知識難獲得；推薦是靜態的

推薦算法

基本介紹

基於內容

基於協同

關聯規則

基於效用

基於知識

組合推薦

主要推薦方法

相關詞條

熱門詞條