內容簡介
要構建一個實用的“智慧型”推薦系統,不僅需要有好的算法,還需要了解接收推薦的用戶。本書分為兩部分,部分側重於基礎架構,主要介紹推薦系統的工作原理,展示如何創建推薦系統,以及給應用程式增加推薦系統時,應該如何收集和套用數據 ;第二部分側重於算法,介紹推薦系統算法,以及如何使用系統收集的數據來計算向用戶推薦什麼內容。作者還教授了如何使用流行的推薦算法,並剖析它們在 Amazon 和 Netflix 等網站上的實際套用。
圖書目錄
第1部分 推薦系統的準備工作
第1章 什麼是推薦 ..................................................................................3
1.1 現實生活中的推薦 ............................................................................3
1.1.1 推薦系統在網際網路上大顯身手 .......................................................5
1.1.2 長尾 ..............................................................................................5
1.1.3 Netflix 的推薦系統 ...........................................................................6
1.1.4 推薦系統的定義 .............................................................................13
1.2 推薦系統的分類 .................................................................................15
1.2.1 域 .....................................................................................................16
1.2.2 目的 .................................................................................................16
1.2.3 上下文 .............................................................................................17
1.2.4 個性化級別 .....................................................................................17
1.2.5 專家意見 .........................................................................................19
1.2.6 隱私與可信度 .................................................................................19
1.2.7 接口 .................................................................................................20
1.2.8 算法 .................................................................................................23
1.3 機器學習與Netflix Prize .............................................................................24
1.4 MovieGEEKs網站 .......................................................................................25
1.4.1 設計與規範 .....................................................................................27
1.4.2 架構 .................................................................................................27
1.5 構建一個推薦系統 .....................................................................................29
小結 ......................................................................................................................31
第2章 用戶行為以及如何收集用戶行為數據 ..................................................32
2.1 在瀏覽網站時Netflix如何收集證據 ..........................................................33
2.1.1 Netflix 收集的證據 .........................................................................35
2.2 尋找有用的用戶行為 .................................................................................37
2.2.1 捕獲訪客印象 .................................................................................38
2.2.2 可以從瀏覽者身上學到什麼 .........................................................38
2.2.3 購買行為 .........................................................................................43
2.2.4 消費商品 .........................................................................................44
2.2.5 訪客評分 .........................................................................................45
2.2.6 以(舊的)Netflix 方式了解你的用戶 .........................................48
2.3 識別用戶 .....................................................................................................49
2.4 從其他途徑獲取訪客數據 .........................................................................50
2.5 收集器 .........................................................................................................50
2.5.1 構建項目檔案 .................................................................................52
2.5.2 數據模型 .........................................................................................52
2.5.3 告密者(snitch):客戶端證據收集器 ..........................................53
2.5.4 將收集器集成到 MovieGEEKs 中 .................................................54
2.6 系統中的用戶是誰以及如何對其進行建模 .............................................57
小結 ......................................................................................................................60
第3章 監控系統.........................................................................................61
3.1 為什麼添加儀錶盤是個好主意 .................................................................62
3.1.1 回答“我們做得怎么樣?” ...........................................................62
3.2 執行分析 .....................................................................................................64
3.2.1 網站分析 .........................................................................................64
3.2.2 基本統計數據 .................................................................................64
3.2.3 轉化 .................................................................................................65
3.2.4 分析轉化路徑 .................................................................................69
3.2.5 轉化路徑 .........................................................................................70
3.3 角色 .............................................................................................................73
3.4 MovieGEEKs儀錶盤 ...................................................................................76
3.4.1 自動生成日誌數據 .........................................................................76
3.4.2 分析儀錶盤的規範和設計 .............................................................77
3.4.3 分析儀錶盤示意圖 .........................................................................77
3.4.4 架構 .................................................................................................78
小結 ......................................................................................................................81
第4章 評分及其計算方法............................................................................82
4.1 用戶-商品喜好 ...........................................................................................83
4.1.1 什麼是評分 .....................................................................................83
4.1.2 用戶 - 商品矩陣 .............................................................................84
4.2 顯式評分和隱式評分 .................................................................................86
4.2.1 如何選擇可靠的推薦來源 .............................................................87
4.3 重溫顯式評分 .............................................................................................88
4.4 什麼是隱式評分 .........................................................................................88
4.4.1 與人相關的推薦 .............................................................................90
4.4.2 關於計算評分的思考 .....................................................................90
4.5 計算隱式評分 .............................................................................................93
4.5.1 看看行為數據 .................................................................................94
4.5.2 一個有關機器學習的問題 .............................................................98
4.6 如何計算隱式評分 .....................................................................................99
4.6.1 添加時間因素 ...............................................................................102
4.7 低頻商品更有價值 ...................................................................................105
小結 ...............................................................
作者簡介
Kim Falk 是一位數據科學家,他在構建數據驅動的應用程式方面有著豐富的經驗。他對推薦系統和機器學習很感興趣。他所訓練的推薦系統,為用戶推薦合適的電影,為人們推送廣告,甚至幫助律師找到判例法的內容。自 2010 年以來,他一直從事大數據解決方案和機器學習方面的工作。Kim 經常參與有關推薦系統的演講和寫作。當 Kim 不工作的時候,他就是一個居家男人,一位父親,會帶著他的德國短毛指示犬越野跑。
李源,曾在華為技術有限公司從事開發、系統架構、項目管理等多個崗位的工作,後在途牛旅遊網擔任研發中心總經理一職,目前在中國旅遊集團旅行服務事業群擔任研發總經理,有豐富的研發、架構設計及管理經驗,負責過多個大型項目的規劃和落地,曾翻譯《Java性能調優指南》、《Serverless架構》等書籍。朱罡罡,2012年西安電子科技大學本科畢業,曾擔任知名上市OTA企業系統架構師、研發總監等職位,目前就職於TOP50央企信息技術部,擔任研發經理崗位,擁有發明專利1個。技術研究領域涵蓋網際網路系統技術架構設計、大數據、推薦系統算法等,對線上旅遊系統的基於用戶推薦和基於內容推薦有過一定的研究。溫睿,網際網路行業從業9年,資深系統架構師,從事過大型高並發Web網站開發、手機APP開發、IM服務開發、微服務系統架構等工作,熟練掌握各種常用前後端開發語言、腳本語言和框架。