起源
個性化推薦概念的首次出現是在1995年3月的美國人工智慧協會上,由卡耐基梅隆大學的Robert Armstrong等提出了個性化導航系統Web Watcher。同時,史丹福大學的Marko balabanovic等也推出了LIRA——一個
個性化推薦系統。自此之後,個性化推薦的研究開始蓬勃發展。
推薦算法的研究起源於20世紀90年代,由
美國明尼蘇達大學GroupLens研究小組最先開始研究,他們想要製作一個名為Movielens的電影推薦系統,從而實現對用戶進行電影的個性化推薦。首先研究小組讓用戶對自己看過的電影進行評分,然後小組對用戶評價的結果進行分析,並預測出用戶對並未看過的電影的興趣度,從而向他們推薦從未看過並可能感興趣的電影。此後,Amazon開始在網站上使用推薦系統,在實際中對用戶的瀏覽購買行為進行分析,嘗試對曾經瀏覽或購買商品的用戶進行個性化推薦。根據 enture Beat的統計,這一舉措將該網站的銷售額提高了35%自此之後,個性化推薦的套用越來越廣泛。
分類
基於內容
基於內容的推薦(Content-based Recommendation)是
信息過濾技術的延續與發展,它是建立在項目的內容信息上做出推薦的,而不需要依據用戶對項目的評價意見,更多地需要用機器學習的方法從關於內容的特徵描述的事例中得到用戶的興趣資料。
在基於內容的推薦系統中,項目或對象是通過相關特徵的屬性來定義的,系統基於用戶評價對象的特徵、學習用戶的興趣,考察用戶資料與待預測項目的匹配程度。用戶的資料模型取決於所用的學習方法,常用的有決策樹、神經網路和基於向量的表示方法等。基於內容的用戶資料需要有用戶的歷史數據,用戶資料模型可能隨著用戶的偏好改變而發生變化。
基於內容的推薦與基於人口統計學的推薦有類似的地方,只不過系統評估的中心轉到了物品本身,使用物品本身的相似度而不是用戶的相似度來進行推薦。
基於內容的推薦算法的優勢在於:對用戶興趣可以很好地建模,並通過對物品屬性維度的增加,獲得更好的推薦精度。而不足之處就在於:①物品的屬性有限,很難有效得到更多數據;②物品相似度的衡量標準只考慮到了物品本身,有一定的片面性;③需要用戶的物品的歷史數據,有冷啟動的問題。
基於協同
基於協同過濾的推薦算法(Collaborative Filtering Recommendation)技術是推薦系統中套用最早和最為成功的技術之一。它一般採用最近鄰技術,利用用戶的歷史喜好信息計算用戶之間的距離,然後利用目標用戶的最近鄰居用戶對商品評價的加權評價值來預測目標用戶對特定商品的喜好程度,從而根據這一喜好程度來對目標用戶進行推薦。
基於協同過濾的推薦算法最大優點是對推薦對象沒有特殊的要求,能處理非結構化的複雜對象,如音樂、電影。
基於協同過濾的推薦算法是基於這樣的假設:為一用戶找到他真正感興趣的內容的好方法是首先找到與此用戶有相似興趣的其他用戶,然後將他們感興趣的內容推薦給此用戶。其基本思想非常易於理解,在日常生活中,人們往往會利用好朋友的推薦來進行一些選擇。基於協同過濾的推薦算法正是把這一思想運用到
電子商務推薦系統中來,基於其他用戶對某一內容的評價來向目標用戶進行推薦。
基於協同過濾的推薦系統可以說是從用戶的角度來進行相應推薦的,而且是自動的,即用戶獲得的推薦是系統從購買模式或瀏覽行為等隱式獲得的,不需要用戶努力地找到適合自己興趣的推薦信息,如填寫一些調查表格等。
基於協同過濾的推薦算法具有如下優點:
能夠過濾難以進行機器自動內容分析的信息,如藝術品、音樂等。
共享其他人的經驗,避免了內容分析的不完全和不精確,並且能夠基於一些複雜的,難以表述的概念(如信息質量、個人品位)進行過濾。
有推薦新信息的能力。可以發現內容上完全不相似的信息,用戶對推薦信息的內容事先是預料不到的。這也是基於協同過濾的推薦算法和基於內容的推薦一個較大的差別,基於內容的推薦很多都是用戶本來就熟悉的內容,而基於協同過濾的推薦可以發現用戶潛在的但自己尚未發現的興趣偏好。
能夠有效地使用其他相似用戶的反饋信息,減少用戶的反饋量,加快
個性化學習的速度。
基於關聯規則
基於關聯規則的推薦(Association Rule-based Recommendation)是以關聯規則為基礎,把已購商品作為規則頭,規則體為推薦對象。關聯規則挖掘可以發現不同商品在銷售過程中的相關性,在零售業中已經得到了成功的套用。
關聯規則就是在一個交易資料庫中統計購買了商品集X的交易中有多大比例的交易同時購買了商品集y,其直觀的意義就是用戶在購買某些商品的時候有多大傾向去購買另外一些商品。比如購買牛奶的同時很多人會購買麵包。
算法的第一步關聯規則的發現最為關鍵且最耗時,是算法的瓶頸,但可以離線進行。其次,商品名稱的同義性問題也是關聯規則的一個難點。
基於效用
基於效用的推薦(Utility-based Recommendation)是建立在對用戶使用項目的效用情況上計算的,其核心問題是怎樣為每一個用戶去創建一個效用函式,因此,用戶資料模型很大程度上是由系統所採用的效用函式決定的。
基於效用推薦的好處是它能把非產品的屬性,如提供商的可靠性(Vendor Reliability)和產品的可得性(Product Availability)等考慮到效用計算中。
基於知識
基於知識的推薦(Knowledge-based Recommendation)在某種程度是可以看成是一種推理(Inference)技術,它不是建立在用戶需要和偏好基礎上推薦的。
基於知識的方法因它們所用的功能知識不同而有明顯區別。效用知識(Functional Knowledge)是一種關於一個項目如何滿足某一特定用戶的知識,因此能解釋需要和推薦的關係,所以用戶資料可以是任何能支持推理的知識結構,它可以是用戶已經規範化的查詢,也可以是一個更詳細的用戶需要的表示。
組合推薦
由於各種推薦方法都有優缺點,所以在實際中,組合推薦(Hybrid Recommendation)經常被採用。研究和套用最多的是內容推薦和協同過濾推薦的組合。
最簡單的做法就是分別用基於內容的方法和協同過濾推薦方法去產生一個推薦預測結果,然後用某方法組合其結果。儘管從理論上有很多種推薦組合方法,但在某一具體問題中並不見得都有效,組合推薦的一個最重要原則就是通過組合來避免或彌補各自推薦技術的弱點。
在組合方式上,有研究人員提出了七種組合思路。
加權(Weight):加權多種推薦技術結果。
變換(Switch):根據問題背景和實際情況或要求決定變換採用不同的推薦技術。
混合(Mixed):同時採用多種推薦技術給出多種推薦結果,為用戶提供參考。
特徵組合(Feature Combination):組合來自不同推薦數據源的特徵被另一種推薦算法所採用。
層疊(Cascade):先用一種推薦技術產生一種粗糙的推薦結果,第二種推薦技術在此推薦結果的基礎上進一步做出更精確的推薦。
特徵擴充(Feature Augmentation):將一種技術產生附加的特徵信息嵌入另一種推薦技術的特徵輸入中。
元級別(Meta-Ievel):用一種推薦方法產生的模型作為另一種推薦方法的輸入。
推薦方法優缺
各種推薦方法都有其各自的優點和缺點,見表1。
推薦方法 | 優點 | 缺點 |
---|
基於內容推薦 | | 新用戶問題; 複雜屬性不好處理; 要有足夠數據構造分類器 |
---|
協同過濾推薦 | 新異興趣發現、不需要領域知識; 隨著時間推移性能提高; 推薦個性化、自動化程度高; 能處理複雜的非結構化對象 | 稀疏問題; 可擴展性問題; 新用戶問題; 質量取決於歷史數據集; 系統開始時推薦質量差; |
---|
基於規則推薦 | | 規則抽取難、耗時; 產品名同義性問題; 個性化程度低; |
---|
基於效用推薦 | 無冷開始和稀疏問題; 對用戶偏好變化敏感; 能考慮非產品特性 | 用戶必須輸入效用函式; 推薦是靜態的,靈活性差; 屬性重疊問題; |
---|
基於知識推薦 | | |
---|
套用
推薦算法已經套用到了各個領域的網站中,包括圖書、音樂、視頻、新聞、電影、地圖等等。而電子商務的套用近年來逐漸普及,Amazon.com、ebay.com、Staples.com、噹噹網、豆瓣圖書、淘寶網等都使用了電子商務推薦系統,推薦系統不止給這些網際網路商家帶來了巨大的附加利益,同時也提高了用戶滿意度,增加了用戶黏性。
觀點
數據是基礎,模型是藍圖,算法是大腦,算力是動力。未來算力與人力、物力、財力一樣,將成為中國經濟競爭力的主要指標。