推薦系統

推薦系統

推薦系統是利用電子商務網站向客戶提供商品信息和建議,幫助用戶決定應該購買什麼產品,模擬銷售人員幫助客戶完成購買過程。個性化推薦是根據用戶的興趣特點和購買行為,向用戶推薦用戶感興趣的信息和商品。

隨著電子商務規模的不斷擴大,商品個數和種類快速增長,顧客需要花費大量的時間才能找到自己想買的商品。這種瀏覽大量無關的信息和產品過程無疑會使淹沒在信息過載問題中的消費者不斷流失。

為了解決這些問題,個性化推薦系統應運而生。個性化推薦系統是建立在海量數據挖掘基礎上的一種高級商務智慧型平台,以幫助電子商務網站為其顧客購物提供完全個性化的決策支持和信息服務。

基本介紹

  • 中文名:推薦系統
  • 外文名:Recommender system
  • 套用:電子商務
  • 定義:電商網站向客戶提供商品信息建議
背景簡介,定義,發展歷程,主要推薦方法,基於內容推薦,協同過濾推薦,基於關聯規則推薦,基於效用推薦,基於知識推薦,組合推薦,體系結構,伺服器端推薦系統,客戶端推薦系統,知名團隊,

背景簡介

網際網路的出現和普及給用戶帶來了大量的信息,滿足了用戶在資訊時代對信息的需求,但隨著網路的迅速發展而帶來的網上信息量的大幅增長,使得用戶在面對大量信息時無法從中獲得對自己真正有用的那部分信息,對信息的使用效率反而降低了,這就是所謂的信息超載(informationoverload)問題。
解決信息超載問題一個非常有潛力的辦法是推薦系統,它是根據用戶的信息需求、興趣等,將用戶感興趣的信息、產品等推薦給用戶的個性化信息推薦系統。和搜尋引擎相比推薦系統通過研究用戶的興趣偏好,進行個性化計算,由系統發現用戶的興趣點,從而引導用戶發現自己的信息需求。一個好的推薦系統不僅能為用戶提供個性化的服務,還能和用戶之間建立密切關係,讓用戶對推薦產生依賴。
推薦系統現已廣泛套用於很多領域,其中最典型並具有良好的發展和套用前景的領域就是電子商務領域。同時學術界對推薦系統的研究熱度一直很高,逐步形成了一門獨立的學科。

定義

推薦系統有3個重要的模組:用戶建模模組推薦對象建模模推薦算法模組。通用的推薦系統模型流程如圖。推薦系統把用戶模型中興趣需求信息和推薦對象模型中的特徵信息匹配,同時使用相應的推薦算法進行計算篩選,找到用戶可能感興趣的推薦對象,然後推薦給用戶。
推薦系統模型推薦系統模型

發展歷程

1995年3月,卡耐基.梅隆大學的RobertArmstrong等人在美國人工智慧協會上提出了個性化導航系統Web Watcher;史丹福大學的MarkoBalabanovic等人在同一會議上推出了個性化推薦系統LIRA;
1995年8月,麻省理工學院的Henry Lieberman在國際人工智慧聯合大會(IJCAI)上提出了個性化導航智慧型體Letizia;
1996年, Yahoo 推出了個性化入口My Yahoo;
1997年,AT&T實驗室提出了基於協作過濾的個性化推薦系統PHOAKS和Referral Web;
1999年,德國Dresden技術大學的Tanja Joerding實現了個性化電子商務原型系統TELLIM;
2000年,NEC研究院的Kurt等人為搜尋引擎CiteSeer增加了個性化推薦功能;
2001年,紐約大學的Gediminas Adoavicius和Alexander Tuzhilin實現了個性化電子商務網站的用戶建模系統1:1Pro;
2001年,IBM公司在其電子商務平台Websphere中增加了個性化功能,以便商家開發個性化電子商務網站。
2003年,Google開創了AdWords盈利模式,通過用戶搜尋的關鍵字來提供相關的廣告。AdWords的點擊率很高,是Google廣告收入的主要來源。2007年3月開始,Google為AdWords添加了個性化元素。不僅僅關注單次搜尋的關鍵字,而是對用戶一段時間內的搜尋歷史進行記錄和分析,據此了解用戶的喜好和需求,更為精確地呈現相關的廣告內容。
2007年,雅虎推出了SmartAds廣告方案。雅虎掌握了海量的用戶信息,如用戶的性別、年齡、收入水平、地理位置以及生活方式等,再加上對用戶搜尋、瀏覽行為的記錄,使得雅虎可以為用戶呈現個性化的橫幅廣告。
2009年,Overstock(美國著名的網上零售商)開始運用ChoiceStream公司製作的個性化橫幅廣告方案,在一些高流量的網站上投放產品廣告。 Overstock在運行這項個性化橫幅廣告的初期就取得了驚人的成果,公司稱:“廣告的點擊率是以前的兩倍,伴隨而來的銷售增長也高達20%至30%。”
2009年7月,國內首個推薦系統科研團隊北京百分點信息科技有限公司成立,該團隊專注於推薦引擎技術與解決方案,在其推薦引擎技術與數據平台上匯集了國內外百餘家知名電子商務網站與資訊類網站,並通過這些B2C網站每天為數以千萬計的消費者提供實時智慧型的商品推薦。
2011年9月,百度世界大會2011上,李彥宏將推薦引擎與雲計算、搜尋引擎並列為未來網際網路重要戰略規劃以及發展方向。百度新首頁將逐步實現個性化,智慧型地推薦出用戶喜歡的網站和經常使用的APP。

主要推薦方法

基於內容推薦

基於內容的推薦(Content-based Recommendation)是信息過濾技術的延續與發展,它是建立在項目的內容信息上作出推薦的,而不需要依據用戶對項目的評價意見,更多地需要用機 器學習的方法從關於內容的特徵描述的事例中得到用戶的興趣資料。在基於內容的推薦系統中,項目或對象是通過相關的特徵的屬性來定義,系統基於用戶評價對象 的特徵,學習用戶的興趣,考察用戶資料與待預測項目的相匹配程度。用戶的資料模型取決於所用學習方法,常用的有決策樹、神經網路和基於向量的表示方法等。 基於內容的用戶資料是需要有用戶的歷史數據,用戶資料模型可能隨著用戶的偏好改變而發生變化。
基於內容推薦方法的優點是:
1)不需要其它用戶的數據,沒有冷開始問題和稀疏問題。
2)能為具有特殊興趣愛好的用戶進行推薦。
3)能推薦新的或不是很流行的項目,沒有新項目問題。
4)通過列出推薦項目的內容特徵,可以解釋為什麼推薦那些項目。
5)已有比較好的技術,如關於分類學習方面的技術已相當成熟。
缺點是要求內容能容易抽取成有意義的特徵,要求特徵內容有良好的結構性,並且用戶的口味必須能夠用內容特徵形式來表達,不能顯式地得到其它用戶的判斷情況。

協同過濾推薦

協同過濾推薦(Collaborative Filtering Recommendation)技術是推薦系統中套用最早和最為成功的技術之一。它一般採用最近鄰技術,利用用戶的歷史喜好信息計算用戶之間的距離,然後 利用目標用戶的最近鄰居用戶對商品評價的加權評價值來預測目標用戶對特定商品的喜好程度,系統從而根據這一喜好程度來對目標用戶進行推薦。協同過濾最大優 點是對推薦對象沒有特殊的要求,能處理非結構化的複雜對象,如音樂、電影。
基於用戶的系統過濾推薦過程基於用戶的系統過濾推薦過程
協同過濾是基於這樣的假設:為一用戶找到他真正感興趣的內容的好方法是首先找到與此用戶有相似興趣的其他用戶,然後將他們感興趣的內容推薦給此用 戶。其基本思想非常易於理解,在日常生活中,我們往往會利用好朋友的推薦來進行一些選擇。協同過濾正是把這一思想運用到電子商務推薦系統中來,基於其他用 戶對某一內容的評價來向目標用戶進行推薦。
用戶評分矩陣用戶評分矩陣
基於協同過濾的推薦系統可以說是從用戶的角度來進行相應推薦的,而且是自動的即用戶獲得的推薦是系統從購買模式或瀏覽行為等隱式獲得的,不需要用戶努力地找到適合自己興趣的推薦信息,如填寫一些調查表格等。
和基於內容的過濾方法相比,協同過濾具有如下的優點:
1) 能夠過濾難以進行機器自動內容分析的信息,如藝術品,音樂等。
2) 共享其他人的經驗,避免了內容分析的不完全和不精確,並且能夠基於一些複雜的,難以表述的概念(如信息質量、個人品味)進行過濾。
3) 有推薦新信息的能力。可以發現內容上完全不相似的信息,用戶對推薦信息的內容事先是預料不到的。這也是協同過濾和基於內容的過濾一個較大的差別,基於內容的過濾推薦很多都是用戶本來就熟悉的內容,而協同過濾可以發現用戶潛在的但自己尚未發現的興趣偏好。
4) 能夠有效的使用其他相似用戶的反饋信息,較少用戶的反饋量,加快個性化學習的速度。
雖然協同過濾作為一種典型的推薦技術有其相當的套用,但協同過濾仍有許多的問題需要解決。最典型的問題有稀疏問題(Sparsity)和可擴展問題(Scalability)。

基於關聯規則推薦

基於關聯規則的推薦(Association Rule-based Recommendation)是以關聯規則為基礎,把已購商品作為規則頭,規則體為推薦對象。關聯規則挖掘可以發現不同商品在銷售過程中的相關性,在零 售業中已經得到了成功的套用。管理規則就是在一個交易資料庫中統計購買了商品集X的交易中有多大比例的交易同時購買了商品集Y,其直觀的意義就是用戶在購 買某些商品的時候有多大傾向去購買另外一些商品。比如購買牛奶的同時很多人會同時購買麵包。
算法的第一步關聯規則的發現最為關鍵且最耗時,是算法的瓶頸,但可以離線進行。其次,商品名稱的同義性問題也是關聯規則的一個難點。

基於效用推薦

基於效用的推薦(Utility-based Recommendation)是建立在對用戶使用項目的效用情況上計算的,其核心問題是怎么樣為每一個用戶去創建一個效用函式,因此,用戶資料模型很大 程度上是由系統所採用的效用函式決定的。基於效用推薦的好處是它能把非產品的屬性,如提供商的可靠性(Vendor Reliability)和產品的可得性(Product Availability)等考慮到效用計算中。

基於知識推薦

基於知識的推薦(Knowledge-based Recommendation)在某種程度是可以看成是一種推理(Inference)技術,它不是建立在用戶需要和偏好基礎上推薦的。基於知識的方法因 它們所用的功能知識不同而有明顯區別。效用知識(Functional Knowledge)是一種關於一個項目如何滿足某一特定用戶的知識,因此能解釋需要和推薦的關係,所以用戶資料可以是任何能支持推理的知識結構,它可以 是用戶已經規範化的查詢,也可以是一個更詳細的用戶需要的表示。

組合推薦

由於各種推薦方法都有優缺點,所以在實際中,組合推薦(Hybrid Recommendation)經常被採用。研究和套用最多的是內容推薦和協同過濾推薦的組合。最簡單的做法就是分別用基於內容的方法和協同過濾推薦方法 去產生一個推薦預測結果,然後用某方法組合其結果。儘管從理論上有很多種推薦組合方法,但在某一具體問題中並不見得都有效,組合推薦一個最重要原則就是通 過組合後要能避免或彌補各自推薦技術的弱點。
在組合方式上,有研究人員提出了七種組合思路:
1)加權(Weight):加權多種推薦技術結果。
2)變換(Switch):根據問題背景和實際情況或要求決定變換採用不同的推薦技術。
3)混合(Mixed):同時採用多種推薦技術給出多種推薦結果為用戶提供參考。
4)特徵組合(Feature combination):組合來自不同推薦數據源的特徵被另一種推薦算法所採用。
5)層疊(Cascade):先用一種推薦技術產生一種粗糙的推薦結果,第二種推薦技術在此推薦結果的基礎上進一步作出更精確的推薦。
6)特徵擴充(Feature augmentation):一種技術產生附加的特徵信息嵌入到另一種推薦技術的特徵輸入中。
7)元級別(Meta-level):用一種推薦方法產生的模型作為另一種推薦方法的輸入。

體系結構

伺服器端推薦系統

推薦系統的體系結構研究的重要問題就是用戶信息收集和用戶描述檔案放在什麼地方,伺服器還是客戶機上,或者是處於二者之間的代理伺服器上。
最初的推薦系統都是基於伺服器端的推薦系統,基本結構如圖。在這類推薦系統中,推薦系統與Web伺服器一般共享一台硬體設備。在邏輯上,推薦系統要的用戶信息收集和建模都依賴於Web伺服器。
基於伺服器的推薦系統結構基於伺服器的推薦系統結構
由此可知,基於伺服器端的推薦系統存在的問題主要包括:
(1)個性化信息的收集完全由Web伺服器來完成,受到了Web伺服器功能的限制。
(2)增加了Web伺服器的系統開銷。
(3)對用戶的隱私有極大威脅。無論是推薦系統的管理者還是入侵推薦系統的人員都能方便地獲取存放在伺服器上的用戶數據。由於用戶的個人數據是有很高價值的,接觸到用戶數據的部分人會出賣用戶數據或把用戶數據用於非法用途。

客戶端推薦系統

典型的客戶端個性化服務系統有史丹福大學的LIRA、麻省理工學院的Letizia、加州大學的Syskill&Webert、卡內基·梅隆大學的PersonalWeb-Watcher等。
基於客戶端推薦系統基於客戶端推薦系統
基於客戶端的推薦系統有如下優點:
(1)由於用戶的信息就在本地收集和處理,因而不但能夠獲取豐富準確的用戶信息以構建高質量的用戶模型。
(2)少量甚至沒有用戶數據存放在伺服器上,Web伺服器不能訪問和控制用戶的數據,能比較好地保護用戶的隱私。
(3)用戶更願意向推薦系統提供個人信息,從而提高推薦系統的推薦性能。因為基於客戶端的推薦系統中的用戶數據存儲在用戶本地客戶機上,用戶對數據能夠進行自行控制。
基於客戶端的推薦系統有一定缺點:
(1)用戶描述檔案的形成、推薦策略的套用都依賴於所有用戶數據分析的基礎上進行的,而基於客戶端的推薦系統較難獲取其他用戶的數據,用戶描述檔案較難得到,協同推薦策略實施也較難,所以推薦系統要重新設計,尤其是推薦策略必須進行修改。
(2)個性化推薦處理過程中用戶的數據資料還需要部分的傳給伺服器,存在隱私泄漏的危險,需要開發安全傳輸平台進行數據傳輸。

知名團隊

明尼蘇達大學GroupLens(John Riedl, Joseph A.Konstan)
密西根大學(Paul Resnick)
卡內基梅隆大學(JaimeCallan)
微軟研究院(Ryen W.White)
紐約大學(Alexander Tuzhilin)
百分點科技團隊(Baifendian)

相關詞條

熱門詞條

聯絡我們