《數據驅動:從方法到實踐》
作者以實際經驗指導初創公司迅速搭建數據分析平台,減少時間投入,少走彎路
桑文鋒 著
ISBN 978-7-121-33451-1
2018年3月出版
定價:49.00元
216頁
16開
基本介紹
- 書名:數據驅動:從方法到實踐
- 作者:桑文鋒
- ISBN:978-7-121-33451-1
- 頁數:216
- 定價:49
- 出版社:電子工業出版社
- 出版時間:2018-3-1
- 開本:16
編輯推薦
Alistair Croll、宋星、曹政、車品覺、王淮、呂厚昌等業界大咖聯合力薦!
本書以四大行業實踐談數據驅動如何交付業務價值,破解企業數據驅動實踐中面臨的困惑、幻想與失望,傳遞真正數據驅動價值!
內容提要
《數據驅動:從方法到實踐》是從理論到實踐的全面且細緻的企業數據驅動指南,從作者的百度大數據工作說起,完整還原其從零到一構建百度用戶行為大數據處理平台經歷。詳解大數據本質、理念與現狀,圍繞數據驅動四環節——採集、建模、分析、指標,深入淺出地講述企業如何將數據驅動方案落地,並指出數據驅動的價值在於“數據驅動決策”、“數據驅動產品智慧型”。最後通過網際網路金融、電子商務、企業服務、零售四大行業實踐,從需求梳理、事件指標設計、數據接入階段、實際套用四大階段介紹數據驅動在不同領域的商業價值,全面展示大數據在各領域內的套用情況與趨勢展望。
《數據驅動:從方法到實踐》貼近企業真實場景,兼具權威性與前瞻性,是廣泛適用的普及讀物,適合對大數據、數據驅動感興趣的企業高管、決策者、創業者、IT人員、行銷人員、產品經理、相關專業的學生等。
目錄
第1章 從百度大數據工作的經歷說開 / 1
百度數據板塊:網頁數據和用戶行為數據 / 3
搜尋引擎發展 / 4
用戶行為分析踐行:百度知道的回答量提升 7.5% / 5
從零到一構建百度大數據分析平台 / 6
數據源與 Event 模型的重要性 / 9
大數據是屠龍術 / 10
第2章 大數據思維與數據驅動 / 11
大數據的概念 / 14
大數據之“大” / 14
大數據之“全” / 15
大數據之“細” / 16
大數據之“時” / 16
大數據的本質 / 17
數據驅動理念與現狀 / 20
數據驅動的價值 / 20
企業內部數據驅動現狀 / 21
理想的數據驅動 —— “流” / 23
大數據時代到來的條件 / 24
數據採集能力增強 / 25
數據處理能力增強 / 26
數據意識的提升 / 27
第3章 數據驅動的環節 / 29
數據採集與埋點 / 32
數據採集的現狀 / 32
數據採集遵循法則 / 34
科學的數據採集和埋點方式 / 36
數據的準確性 / 40
數據建模 / 44
數據模型與建模 / 44
多維數據模型 / 46
多維事件模型 / 49
多維事件模型的探索經歷 / 52
數據分析方法 / 55
行為事件分析 / 55
漏斗分析 / 58
留存分析 / 61
分布分析 / 64
點擊分析 / 67
用戶路徑 / 73
用戶分群 / 75
屬性分析 / 80
指標體系構建 / 82
第一關鍵指標法 / 82
海盜指標法 / 86
第4章 數據驅動產品和運營決策 / 89
數據驅動運營監控 / 91
用戶獲取(Acquisition) / 91
激活(Activation) / 92
留存(Retention) / 97
引薦(Referral) / 99
營收(Revenue) / 101
數據驅動產品改進和體驗最佳化 / 102
數據驅動商業決策 / 104
數據驅動落地企業,要從管理者做起 / 106
數據驅動商業決策的價值 / 108
第5章 數據驅動產品智慧型 / 109
數據平台及用戶智慧型 / 114
如何計算熱門榜單 / 114
客服系統中的行為數據 / 114
為什麼需要數據平台 / 115
數據平台提供的能力 / 116
數據套用與用戶智慧型 / 119
基於用戶行為數據的用戶智慧型套用 / 119
用戶智慧型分類:基於規則與機器學習 / 123
用戶智慧型套用——用戶畫像 / 132
兩種用戶畫像:User Persona與User Profile / 132
用戶畫像(User Profile)標籤體系的建立 / 135
用戶智慧型套用——個性化推薦 / 139
個性化推薦的概念 / 139
架構實現 / 140
數據流 / 142
業務分析與模型選擇 / 143
實驗與疊代 / 144
第6章 各行業實踐數據分析全過程 / 147
網際網路金融數據驅動實踐 / 149
實踐案例 / 150
企業服務數據驅動實踐 / 158
數據驅動能夠為企業服務做什麼 / 159
面臨的挑戰 / 160
數據套用的階段 / 161
實踐案例 / 168
零售行業數據驅動實踐 / 175
實踐案例 / 176
電子商務數據驅動實踐 / 186
打破企業發展經營困局:從粗放式到精細化 / 186
電商企業數據驅動瓶頸 / 187
實踐案例 / 187
寫在最後的話 / 197
精彩節摘
企業內部數據驅動現狀
數據固然能夠幫助我們看透籠罩在創造新業務和產品周圍的不確定性陰霾,不可否認,這對於一些初創企業有一定困難:一個創業公司創始人無法拿到更多的數據,他需要憑直覺來決策“做一款什麼樣的產品”。但是要讓這個階段儘量縮短,更可控一些,以更少的代價獲得一個驗證的效果。
當一家企業的產品已開始被市場接納,而在實際工作中,企業在實現數據驅動的道路上,依舊困難重重。以下是創業公司實現數據驅動道路上的常見場景。
場景1:排隊等待工程師跑數據
如圖 2-6 所示,企業老闆、運營、產品、市場等各部門都要通過數據工程師老王獲取數據,整個流程包括溝通需求 → 分析數據源 → 升級數據採集系統 → 開發程式 → 提供結果等,老王忙得痛不欲生。當然,數據需求方都對數據獲取的速度很不滿意,有的人等不及,還是決定拍腦袋,最終導致產品疊代效率低下。
場景2:儀錶盤只能看到巨觀數據
如圖2-7所示,儀錶盤能夠幫助各個團隊負責人看到巨觀數據,如銷售額、用戶數等,這在一定程度上幫助管理者做出科學決策。然而巨觀的數據價值有限,這令執行者苦惱不已。比如昨天活躍用戶數暴跌 20%,是什麼原因?巨觀的數據這時顯然喪失價值,我們需要進行深入、精細化的分析,如按照渠道、地域等維度對數據進行分解,判斷某渠道或某地域是否有大的波動,進行多維度、細粒度的下鑽分析,才能快速定位問題,從而有的放矢地解決問題。
場景3:無法跨越數據孤島的藩籬
如圖2-8所示,企業內部的數據孤島現象是普遍存在的,特別對一些集團化的企業孤島效應更是明顯。做大數據分析需要與不同部門溝通協調,獲得審批許可權,等待數據審批完成後才能統計數據,周期較長。並且,這些數據可能因為沒有統一ID而無法打通。從企業自身數據的價值角度來說,應消除部門間的數據孤島,讓數據協作更好完成。
理想的數據驅動 —— “流”
上述三個場景是典型的“需求驅動”,即根據需求去找數據。業務方提出數據需求,工程師滿足需求,加上排隊等待,整個效率非常低,完成一個需求都要幾天甚至幾周的時間。那么,理想的數據驅動應該是怎樣的?
我們應該反向思考這一問題,先把數據源整好,在這個基礎上提供強大的分析平台,讓業務需求提出者能夠自助式(Self-Service)地完成數據分析需求,從串列變成並行,完成需求從幾天時間縮短到幾分鐘甚至幾秒鐘,這才是理想中的數據驅動,如圖2-9所示。
我從 2008 年開始專職從事數據方面的工作,到了 2012 年才慢慢想清楚——數據處理歸根到底就是一條“流”。按照數據的流向,可以把數據處理分成5個階段,如圖2-10所示。
在這個過程中,每個業務人員和數據之間都需要有一個強大的工具,將數據規範化,處理數據模型。通過這個強大的分析工具,讓這些業務人員在數據分析平台上自助式地完成自己的分析需求,如圖2-11所示。
從 2012 年到 2015 年 4 月,我們都是在圍繞這條“流”工作。不管是推進公司的日誌採集結構化,還是提供更強大的查詢引擎,我們都在嘗試如何把這條“流”建設得更好。創業以來,我接觸的企業超過 200 家,既有網際網路創業公司,又有大的傳統集團,這讓我更加確信了這套思路的可行性 —— 不同行業、不同企業的業務千差萬別,但在數據處理這件事上,或多或少都遵循“流”的思想。
作者簡介
桑文鋒,神策數據創始人兼CEO,浙江大學計算機科學與技術專業碩士,在百度任職8年,從無到有構建了百度用戶日誌大數據平台,覆蓋數據收集、傳輸、元數據管理、作業流調度、海量數據查詢引擎及數據可視化等。歷任軟體工程師、高級軟體工程師、項目經理、高級項目經理、技術經理,2015年4月離職創建神策數據,針對企業客戶推出用戶行為分析產品——神策分析,幫助企業實現數據驅動。2017年7月,桑文鋒榮獲第六屆中國財經峰會“2017最佳青年榜樣”榮譽。
此外,神策數據聯合創始人兼CTO曹犟,神策數據聯合創始人兼首席架構師付力力,神策數據資深算法工程師鄒雨晗,神策數據架構師房東雨,神策數據算法工程師韓越,神策數據數據分析總監陳新祥,神策數據用戶行為洞察研究院負責人張喬,以及神策數據分析師高娜、薛創宇、李金霞、朱靜芸均參與了此書的寫作。
媒體評論
文鋒分享了他在商業數據的真知灼見,不盲目舶來,他明確地知道哪些理論在國內是行不通的,並傳遞出更本土化的理論。本書的結構和內容都經過了反覆打磨,無論是從技術嚴謹性,還是從內容的實用性上看,都堪稱網際網路商業數據的可貴佳作。
——宋星,網際網路數據官創始人、網站分析在中國創始人
數據的價值在哪裡?作者根據其豐富的百度經歷以及與眾多客戶深度碰撞後的思考,從方法論的高度全鏈路定義了數據採集、數據建模、數據分析與指標四大關鍵環節,並以實踐詮釋了如何用數據驅動決策、產品和業務,值得讀者細細品味。
——趙軍科,百聯大數據總監
得益於文鋒深厚的技術背景和豐富的實踐經驗,這本書清晰剖析了從採集、建模到分析運用的數據驅動全鏈條,值得每個數據人閱讀。
——趙祺,今日頭條增長團隊負責人,前車來了聯席CEO
在不遠的將來,不管你處在什麼行業什麼職位,數據分析都是你不得不具備的一種能力。本書提供給你一個極好的知識儲備的機會,它有三點非常值得推薦:第一,淺顯易懂地表達大數據的底層技術,讓你能夠明白數據怎么產生,怎么加工,怎么存儲和運算;第二,拋開了晦澀難懂的各種模型和算法,將最普適的數據洞察和分析的方法呈現給你,讓你能迅速具備“閱讀數據”的能力;第三,清晰地將電商、網際網路金融、零售、SaaS軟體等行業鮮活的數據套用案例呈現給你,讓你加深對數據套用的理解。
——胡晨川,《數據化運營速成手冊》一書作者,餓了么數據專家
文鋒在百度的經歷積累了大量本土化的業務實戰經驗,這本書濃縮了他近十來年寶貴經驗的精華,一如神策分析的誕生,對於整個行業來說都是值得欣喜的事情。神策數據快速武裝企業的數據部門,快速積累數據,並讓所有在踐行數據驅動業務增長的企業,都可以快速上路,讓數據驅動最終成為每個公司的“標配”。
——劉晨,紛享銷客聯合創始人,數據中心總經理
隨著大數據和智慧型時代的來臨,數據驅動必然會變成人人都要具備的能力。本書裡面的每條經驗,都是一場場實戰打出來的。與很多紙上談兵的文字不同,本書的實例信手拈來,可想而知經歷多少次的打磨才能有這樣的效果。這使得本書內容對實際工作有著很強的指導作用,適合每個與數據打交道的人,常讀常新。
——孫文亮,杏樹林數據總監
作為數據驅動在初創公司的實踐者,我們經歷了從手動跑數據分析的“石器時代”到實時數據分析系統的“蒸汽時代”。工具已經成熟了,但在方法層面自己則一直瞎練野拳。一見到本書,就有相見恨晚之感,數據驅動終於有了成體系的“招式”!屠龍寶刀,要配上好武學,希望本書可以幫助更多公司實現數據驅動。
——黃震昕,造數科技創始人兼CEO
前言
推薦序1
If companies were people, then we would be in the middle of one of the greatest health crises of the modern age. Once, the lifespan of a company on the Fortune 500 index of large businesses was 65 years. Today, it's only 20. In the last decade, most of the world's big, reliable firms have been displaced by digital upstarts: Apple, Amazon, Tencent, Google, Baidu, and Alibaba.
It gets worse. The chances of a company reinventing itself are low. The Corporate Strategy Board says efforts at digital transformation fail 95% of the time; Clayton Christensen, author of The Innovator's Dilemma, puts the number at 99%.
But there's some good news, too. Because technology has given us the ability to measure everything, accurately, better than ever before. We can know ourselves.
A 2011 MIT study1 found that companies that use data-driven analytics instead of intuition have 5%-6% higher productivity and profits than competitors. Over a few years, data and analytics is the difference between success and obscurity.
Data, it is often said, is the new oil. Data replaces opinions with accuracy, letting us know our customers, our suppliers, and ourselves with unprecedented clarity. And data is the food of artificial intelligence, because it's how we train machine learning algorithms.
Brynjolfsson, Erik,LorinHitt, and Heekyung Kim. “Strength in Numbers: How Does Data-Driven Decisionmaking Affect Firm Performance?” Available at SSRN 1819486 (2011).
On its own, oil isn't very useful. It just sits in the ground. To put oil to work takes an ecosystem: Refineries, gas stations, motors, regulations, roads, and more. And so it is with data. Simply collecting it won't help you; you need to extract it, clean it, analyze it, execute on what you learn, and feed that learning back into your systems.
As technology replaces many traditional tasks through automation and machine learning, we may wonder what is left for humans to do. The answer is simple: Think critically about what we want those machines to do for us. The most important skill for a human, whether they're a startup, an analyst, or a manager, is to ask the right question.
Asking good questions is harder than it seems. It requires an understanding of the existing business model, the competitive landscape, and the resources at your disposal. But it also requires that we know that the existing business model is outdated, vulnerable, and ready for change.
A world powered by real-time information creates two roads. One road is littered with the bodies of companies that couldn't make the transformation, preferring anecdote over fact. The other road is paved with the profits of those who learned to harness data and embrace analytical thinking.
You're at a fork in this road. And right now, you're holding the map that will steer you down the right path.
如果我們將企業比作人類,那么許多企業正處於壯年的巨大健康危機之中。曾經,世界500強企業的生命周期是65年,而現在僅有20年。近10年來,眾多規模大、可靠的企業已被“數據新貴企業”所替代,例如蘋果公司、亞馬遜、騰訊、谷歌、百度、阿里巴巴等。
更糟糕的是,企業進行自我重塑的機率變得越來越低。公司戰略委員會指出,95%的企業數位化的轉變是失敗的。《創新者的窘境》一書的作者克雷頓·克里斯滕森認為這一數字已達到99%。
當然也有好訊息:科技賦予我們衡量一切事物的能力,我們能更好地認識自己。在這點上,曾經的任何時代都難以企及。
麻省理工學院的一項研究表明1,相比依靠直覺來實現決策的企業,那些通過數據驅動實現決策的企業擁有更高的生產效率和利潤。這類企業的生產效率和利潤普遍高於競爭對手5%~6%。顯然,未來是否擁有數據分析能力,將決定一家企業是成功,還是逐漸銷聲匿跡。
我們經常說,數據是新石油。數據的準確性代替了“意見”的主觀性,讓我們更好地了解我們的供應商、我們的顧客以及我們自身。同時數據也是人工智慧的基礎,因為我們正是通過數據的運用來實現機器學習的。
對石油來說,一直被埋藏在地下的石油並無價值。它的價值在於套用,石油開採需要一個“生態系統”:煉油廠、加油站、汽車、規則、道路等。數據也是如此,僅僅收集數據並無價值,你需要提取、清洗、分析,讓分析結果得以執行與運用,並反饋至“生態系統”中。
隨著自動化操作和機器學習代替了部分傳統工作,我們為此很疑惑:還有哪些工作需要人類來做?答案其實很簡單:我們需要辯證地思考究竟人類需要機器來做什麼。無論是初入職場的新人、分析師,還是企業管理者,提出正確的問題是他們最重要的能力。
但是,這實現起來很難。提問者既需要了解企業當前的商業模式、競爭格局以及可控資源,也需要意識到現有商業模式已經變得過時、不穩定,而且亟待改變。
信息隨時隨刻在產生,它為世界指出兩條路:一條路布滿著那些故步自封、因循守舊企業的“屍體”;另一條則為擁有數據思維和掌握數據駕馭能力的企業鋪就康莊大道。而此時此刻,你正處於交叉路口,手中恰好握著一張指引正確路徑的“地圖”。
Alistair Croll
哈佛商學院訪問執行官,Coradiant 公司聯合創始人
《精益數據分析》一書作者
推薦序2
數據驅動的概念已經被各個行業廣泛認同,但認同與落實之間,還是有相當的距離,這裡最大的障礙是,技術人員缺乏對業務的理解,而業務人員又無法理解和充分利用技術,有數據卻用不好、不會用是很常見的弊病。即便是一些有數據分析、研發實力的企業,也面臨從需求到實現的巨大研發成本和時間周期等問題,導致決策效率低,對瞬息萬變的市場情況,無法做出快速有效的應對。
百度早期的技術資源有限,主要技術資源優先考慮產品研發疊代,對數據分析的支持力度不足。2005年我參與創建百度的商業分析部門,因為無法得到充足的技術資源,只好自己動手,在產品部門架構內處理數據,解決業務訴求所需的數據分析,所幸那時候百度的業務數據規模有限,每日的部分業務數據日誌尚處於GB級別,按照我們有限的技術能力,單伺服器勉強可以應付。
2007年之後,百度的業務規模急速擴大,業務部門也越來越重視數據決策方向的訴求,幸而此時技術資源也得到了有效的擴充,在桑文鋒同學的有力支持下,百度的數據分析能力和整體架構都得到了翻天覆地的革新和發展,針對諸多核心產品升級,數據決策的意義和價值也得到了充分的彰顯。
能解決一個巨頭公司數據分析領域的技術瓶頸,提升數據決策能力,已經是一項了不起的成就,但文鋒的目標顯然不止於此,搭建一套通用靈活的技術架構,顯然有更廣闊的套用場景。讓一線業務人員在不需要充分理解技術的前提下,快速針對業務訴求完成數據分析,實現數據決策,這是神策數據(Sensors Data)項目的一個願景。
我從百度出來後進入了遊戲行業,後來輾轉到海外發展,對國內行業的現狀了解不多。說來也有意思,好幾個遊戲行業同行創業者,在不同場合主動跟我提及神策數據非常有價值,對他們的業務幫助很大,我才注意到文鋒的創業項目,並欽佩於他們現在所取得的成就,這個成就,不是說這家公司收了多少服務費,賺了多少錢,而是他們真的有效提升了整個行業的數據決策能力,有效降低了數據決策的操作成本和門檻,這個價值是從業者們尤為要感謝的。
感謝文鋒,提前讓我閱讀了這本書籍,我覺得,對於希望提升數據決策能力、了解數據決策真相的從業者,這本書是很好的讀物,其內容並非晦澀難懂的技術描述,而更多是對數據驅動和數據分析的理解,並以親身案例作為輔助講解。建立正確的認識是做好數據決策的前提,而其中所提到的很多問題場景,相信也是很多從業者經常遇到和面對的。
以上,希望對您的閱讀和選擇,有所幫助。
曹 政
曾任百度商業分析部經理,現知名IT自媒體博主
網際網路遊戲出海領域創業者
推薦序3
我一直覺得數據分析是一種修行,“修”的是思考的能力,“行”的是落實成為方案的方法。經過多年的工作,正是不經一番寒徹骨,怎得梅花撲鼻香。回想我與文鋒初次見面便談到數據化的過程,阿里與百度都經歷過這樣的挑戰,我想這便是他請我寫推薦序的原因吧。
以前企業中只有一小部分人具備數據分析的能力,隨著近幾年數據平台的成熟,數據從收集到使用越來越方便,以往想要出一份分折報告可能要等上數周的日子已經一去不復返。曾經有一位業務方代表對我說過,在等候分析報告出來與拍腦之間,我選擇了後者,因為時機更重要。可想而知決策的速度很關鍵。在後資訊時代,DT的普適度將變得更直接、簡單。未來的智慧型時代,我很相信很多分析報告也將被自動化的智慧型決策所取代,屆時智慧的人類也將要“升級”到“神策”的階段,人更要學會駕馭決策上的決策、邏輯上的邏輯。
當然,理想歸理想,在智慧型決策的路上還需要很多同行們努力,而文鋒在書內的描述正是他這幾年創業的發現與精華。
車品覺
紅杉中國專家合伙人、全國信標委大數據標準工作組副組長
推薦序4
當今物聯時代,業界同仁都在談大數據和人工智慧。大數據已成眾多公司的核心資產,大數據戰略已成眾多公司的核心戰略。之所以如此,一是因為大數據技術的普及,二是因為大數據已經為無數企業帶來了實打實的核心價值。大數據4V1中最重要的還是接地氣的價值驅動——Value。使用大數據技術,挖掘大數據價值,不斷最佳化用戶體驗、客戶體驗、產品體驗,已然成為當今企業成功的金科玉律。
1996年我在美國正式進入職場。我在職業生涯的早期就對數據情有獨鐘,那個時候還沒有大數據這個提法。這不僅僅是出於對數據技術的喜好,也是因為我在做數據項目的時候,真正體會到了數據給業務帶來的不同。1998年我加入Yahoo!,成為第一個專門做數據的工程師,用一句話總結我在Yahoo! 7年的工作,那就是使用大數據更好地理解用戶,驅動用戶產品創新,更好地服務用戶。2005年我離開Yahoo!加入Google是源於好奇心,當時Google的流量是Yahoo!的1/10,但收益卻跟Yahoo!一樣多。為什麼搜尋會這么賺錢?用一句話總結我在Google 6年的工作,那就是使用大數據能更好地理解客戶廣告訴求,驅動廣告產品創新,更好地服務廣告主。
2011年我有幸加入百度帶領數據團隊。百度是一個對大數據工作非常重視的公司。大數據工作是百度的核心競爭力之一,其核心搜尋業務也是建立在大數據
4V,Volume(大量)、Velocity(高速)、Variety(多樣)和Value(價值)。
技術之上的。文鋒是我在百度工作期間的愛將。在百度工作的幾年中,我跟文鋒、曹犟、力力、耀洲等聰明能幹、充滿活力的同學們一起,在實戰中不斷總結與學習,一同推進大數據技術的進步,這是一段非常享受並有成就感的經歷。
我在百度大數據工作時,跟小夥伴們一起啟動了不少項目,一切都圍繞發揮大數據價值而發力。大數據價值從讓數據說話開始,大數據驅動決策。幾乎每一個產品都是一個閉環的生態。從產品上線的第一天起,用戶就在不斷用手或腳投票,告訴你哪裡好用、哪裡需要改進。用戶越多,這個閉環正負反饋的信息量就越大。當我們可以快速地把這些信息以報表分析的形式,展現給我們的產品經理、產品研發工程師及各級決策者們的時候,就能不斷地發現機會、疊代改進產品。當數據量達到一定規模後,數據所反饋的趨勢就越清楚,這不僅體現在更好地理解現有需求上,也會不斷挖掘新的需求,預測引導用戶需求,不斷改進創新產品。
搜尋如此,廣告如此,新領域創新也是如此。從預防疾病,提升百姓健康體驗,到挖掘旅遊熱點,提供最佳出遊體驗,到因材施教,顛覆特權教育,到預測交通流量,改善交通擁堵,大數據驅動顛覆式創新。
大數據的另一個更重要的價值在於讓數據為用戶工作,驅動個性化服務。當數據量達到一定規模後,因人工智慧算法已經普及,故對用戶每一次產品使用背後意圖的把握就會越來越精準,從而可以做到為用戶提供有針對性的個性化服務。這種個性化可以從用戶群組個性化開始,也就是對不同類型的客群提供不同的服務,可以做到針對每個用戶的個性化服務,甚至細化到對每一個用戶每一個動作的個性化服務。大數據價值在這一點上的發力可以真正引爆產品生態閉環的馬太效應。
文鋒在書中把他過去豐富的實踐經驗做了非常好的總結,乾貨滿滿,源於實踐又高於實踐。文鋒一直想成為中國大數據產業興旺的推動者,他創建了神策數據(Sensors Data),不斷踐行自己的理想。本書字裡行間生動活潑,也體現出作者對大數據領域的理想情懷和腳踏實地的實幹家精神。對大數據行業的每一位實踐者和企業家來說,本書都非常值得一讀。
呂厚昌(Alex Lu)
曾任百度高級總監,Pinterest大數據部負責人
推薦序5
我認識桑文鋒是因為投資的事情。2015年初的某一天,朋友給我介紹了一個人,說在百度做了很多年大數據基礎架構,有豐富的實戰經驗,又是我浙江大學的學弟。這樣稀少的人才,當然要見見。
我原來在Facebook做了很多年工程師,對數據驅動非常熟悉,也非常堅定地相信其價值。基於數據的決策就像船員在茫茫大海之中看到了燈塔,就像飛機飛行在迷霧之中但裝有雷達。有時候憑經驗拍腦袋也許有用,但有了地圖的駕駛員,一定比最好的老司機更不容易掉坑裡。Facebook在這方面做了很多工作,用數據來輔助所有(沒錯,是所有)的產品決策。日誌系統、ETL、Hadoop/Hive、實時的數據儀錶盤、A/B測試、灰度發布,這些琳琅滿目的數據工具組成了一個套裝,為Facebook在商業戰場的迷霧之中提供了看清正確方向的“千里眼”和“順風耳”。Facebook最早做Hadoop/Hive的人就是我從Yahoo!推薦過來的。我在Facebook做過的產品包括NewsFeed、Giftshop、SocialAds,無一不是深度套用數據的典型產品。我在Facebook的最後兩年負責支付相關的數據平台和安全系統,這些工作更是對數據從頭到尾都有很強的要求。Facebook一向的實踐是相信數據,但又不迷信數據。利用數據,但不只依靠數據。
但我在2012年回到中國的時候,發現數據驅動的理念和做法在中國沒有太多的公司在實際操作。當時大多數公司,都還聚焦在粗放型增長,做產品主要靠拍腦袋,沒有太多套用數據的工具和能力,更可惜的是,沒有套用數據來指導決策的意願。少有的既懂理論又有實踐的人,基本上在BAT這三家公司,尤其是數據技術利用最早的百度。
認識百度出來的桑文鋒,在數據驅動這件事情上總算找到了知音。文鋒的這本書,嘗試去解決兩個很有意義的問題。一是如何在思想上將原來拍腦袋決策的方式改變為用數據來輔助決策;二是如何讓更多的公司更容易地獲得數據驅動的能力。雖然我給很多公司做過分享,但我知道數據輔助決策的思想不會很快在中國的網際網路公司實現,更何況有很多有數據而不知道怎么去用的傳統企業。但桑文鋒對於整個數據流程非常熟悉,例如,如何通過埋點獲得數據,如何對數據進行結構化,如何對結構化的數據進行最優的存儲和查詢,如何將數據鏈條串起來進行最深度的分析,如何對數據做最好的展示以便更好地決策。在這一方面,他是我在中國見過的最有能力、信念最堅定的一個人。
我們相信桑文鋒駕馭數據驅動商業的能力,也相信他身上那股堅定的信念,他願意花很多年,付出很多努力,將數據基礎能力像水和電一樣提供給中國企業。我們將自己的資本和信心賭到桑文鋒身上。我們也相信這本書,會給希望在商業戰場上多一雙數據眼睛的企業家很多幫助。
王 淮
《打造Facebook》一書作者,線性資本創始合伙人