內容簡介
社會網路分析(SNA)是一門比Facebook和Twitter等社交網站早30年問世的學科。通過社會網路分析研究,你能夠了解到識別社會化媒體、政治團體、企業、文化趨勢及人際網路的模式所需的概念和技術。
《社會網路熱悼堡諒分析:方法與實踐》是一本幫助你快速掌握社會網路分析技術要點、核心概念與典型算法示例的優秀著作。本書重點闡釋了如何從龐大的社會網路分析學術積累中,挑選最精要的與實用的知識點,幫助你形成關於社會網路分析的知識譜系圖。
通過《社會網路分析:方法與實踐》,你還可以學習到如何使用Python語言和其他開源工具,如NetworkX、NumPy和matplotlib,以採集、分析並將社交網路數據可視化。本書將社會網路理論和實踐完美結合,同時介紹了很多有價值的行業洞見和理念。
作者簡介
MaksimTsvetova,t跨學科的科學家、軟體工程師和爵士音樂家,社會網路分析領域專家,擁有豐富的數據分析、處理工作經驗,專注於社會網路進化、信息和態度擴散、集體智慧型發汗府捉估生的計算機虹犁只建模。他擁有卡內基·梅隆大學計算、組織和社會方向博士學位,目前在喬治蒂·梅森大學教授社會網路分析。他還是DeepMileNetworks公司聯合創始人之一,該公司開展社交媒體影響圖形化業務。
AlexanderKouznetsov,軟體設計師和架構師,社會網路分析專家,擁有從數據倉庫到信號處理的廣泛技術背景。他為業界開發了大量的社會網路分析工具,從大規模數據採集到線上分析和演示工具。他在德克薩斯大學獲得數學和計算科學學士學位。
目錄
第1章導論
分析關係,理解人與群體
從關係到網路——超乎所見
社會網路與連線分析
非正式網路的力量
恐怖分子與革命者:社會網路的力量
推特上的革命
第2章圖論速覽
什麼是圖
圖的遍歷與距離
圖的距離
為什麼重要
六度理論神話
小世界網路
第3章中心性、權力與瓶頸
樣本數據
中心性
中心性測量不能告訴我們什麼凝旬烏
第4章派系、聚類和組元
組元和子圖
子圖——自我中心網
三元組
派系
分層聚類
三元組、網路密度和衝突
第5章二模網路
競選資金是否影響選舉
二模網路的理論
擴展多模網路
第6章信息擴散:像病毒一樣傳播開來
病毒視頻剖析
信息如何影響網路
Python中的一個簡單動態模型
網路和信息的共同演化
第7章在現實世界中繪圖
中等規模數據:傳統SQL關係資料庫
大數據:未來,從今天開始
小數據——平面檔案表達
中等規模數據:資料庫表達
使用二模數據工作
社會網路和大數據
運行大數據
附錄A收集數據
附錄B安裝軟體
前言
前言
2011年,很多創業公司都在他們的商業計畫中提到“social”這個詞——雖然事實上並沒有人知道如何分析和理解這能夠決定公司成敗的社交過程。如果尋罪你從事如下工作:社交媒體、社交CRM、社交行銷、管理諮詢等,你應該讀一讀這本書,它會告訴你社交系統是如何發展、演變以及運轉的。
這本書的內容不僅僅適用於創業公司。實際上,整本書就是一門系統的課程,它囊括了幾乎一個學期的理論知識和實際操作材料——閱讀以後,你就會對於社會網路分析是“危險的”有足夠的理解。如果你是這個研究領域的學生,我們強烈鼓勵你去尋找並閱讀腳註里提到的每一篇論文或每一本書。這樣做會讓你非常了解這個領域的經典文獻,也可以讓你自信地開展研究課題。
如果你有計算機技術背景,可以從這本書學到主要的社會學概念,並從中提取出可以用來編程的信息和分析數據;如果你有社會學或市場行銷背景,你整阿求會發現一些熟燥記霉悉的材料,與此同時也會學到用定量和定性的方法去了解社交背景下的人們。
閱讀本書的前提
由於這本書的客群非常廣泛,因此我們儘可能少地使用專業術語,同時為書中的專業術語做出解釋。但是,本書會有大量的技術內容(這是O’Reilly出版圖書的一項要求)。
我們希望你至少稍微熟悉Python,即,能自己寫腳本、了解語言的基本控制結構和數據結構。如果你不了解技術內容,建議你可以使用Python的線上教程或者參考PaulBarry(O’Reilly出版)寫的《HeadFirstPython》開始學習。
本書不會涉及從Twitter、Facebook以及其他數據來源收集數據的詳細過程,O扲eilly出版的“AnimalGuide”系列的其他書籍已經提供了充分的資料,如KevinMakice寫的《TwitterAPI:UpandRunning》以及MatthewRussell寫的《MiningtheSocialWeb》。
精彩書摘
第1章
導論
“額?你是做什麼的?”
“我在研究社會網路分析。”
“喔,那就是說你在玩臉譜(Facebook),而且還能靠它賺錢?”
在社會網路分析研究者的生活中,經常會聽到這樣的對話。但是如果只是說:“沒錯,但並不僅僅是臉譜。”還是沒有回答“做什麼”的問題。事實上,社會網路分析是一種特別通用的方法學,它的誕生至少比推特(Twitter)和臉譜早三十年。
簡單來說,社會網路分析(SocialNetworkAnalysis,SNA)就是“通過圖論研究人類關係的一門學問”。當然,這句解釋還遠遠不夠。
在某種程度上,社會網路分析與許多統計方法相似。
經濟學家廣泛使用回歸分析的事實並不意味著這項技術只局限於經濟學研究。研究社交媒體是套用社會網路分析技術的一個很好方式,同樣的道理,社會網路分析技術的套用也不局限於此——數據容易獲得,研究機會眾多且有價值。事實上,我敢打賭,在十位我尊敬的讀者當中,就有九位是基於這個原因而翻開這本書。
十年前,社會網路分析領域還是科學的一潭死水。我們是同時被主流社會學和主流計算機科學拒之門外的異數,我們用奇怪的數學技術處理奇怪的數據類型,生成漂亮的但十分難懂的圖片,以及只有在我們的小圈子裡才說得通的結論。那時收集和獲取社會網路數據很困難(參見附錄A);這個領域的學生都是通過數據集的一個小的標準集來工作,很少冒險離開這個標準集去採集自己的數據。社交媒體的出現改變了所有這一切。每一天,推特產生的社會網路數據比十年前我們整個領域的數據還要多;每個社交媒體網站提供一個API以方便數據檢索;世界上很多政府機構也開放數據由社會網路分析技術來處理。
本書將分析社交媒體數據,我們將收集來自推特(附錄A)、臉譜以及LiveJournal的數據,學習識別線上社群,研究如何解析一段病毒視頻和一次快閃(flashmob)。
除此以外,本書也會演示社會網路分析很多不同的套用方法。本書的研究對象是社交媒體,但也並不僅限於社交媒體。我們可以通過公司的投資網路及其董事會的共同人員研究公司之間的關係。也可以深入機構內部,去發現飲水機和小吃店附近的社交網路如何影響一家公司的執行力,以及對此不以為然的公司將如何自食其果。我們通過研究競選資金,可以發現某個特別利益集團是如何控制整個競選結果的。還可以研究恐怖主義分子、革命者以及激進分子的活動——從1998年的霍巴塔爆炸到“911”襲擊再到最近的埃及革命。我們將把這些方向和趨勢一一解剖開來,而這些往往是通過推特和臉譜實現的,雖然這些事件本質上也是線下的。
本書將告訴你網路數據無處不在——你只需要學習識別它、分析它。一旦你開始這樣做了,就會出現新的靈感和想法。
分析關係,理解人與群體
社會網路分析(SNA)科學的核心概念是人與人之間的關係,這些關係定義了我們是誰,以及如何行事。我們的人格、教育、背景、種族、民族等所有的這一切都與我們的關係模式發生互動,並在關係中留下不可磨滅的印記。因此,通過對這些模式的觀察和研究,我們就能夠回答許多關於社會的問題。
什麼是關係?在人際關係中,它可以是友誼、影響、情感、信任,或者反過來,它也可以是不喜歡、衝突或許多其他東西。
二元與賦值關係
關係可以是二元的,也可以被賦值:“張三在推特上關注了李四”是一種二元關係,而“李四轉發了張三的四條推文”則是賦值關係。在推特的世界裡,很容易對這些關係進行量化,但是在“更無形”的社會生活中,如果想對一段人際關係的狀況進行界定並量化,則非常困難。
溝通頻率在表示人際關係的程度時十分有用。除了用作客觀測量,科學家還發現它能夠對情感內容以及人際影響做出準確反應。當然,有時可能並非如此(親愛的讀者,也許您現在的人際關係就是一個反例),但是在很多情況下,由於沒有更好的數據,使用溝通頻率來衡量人際關係往往是有效的。
對稱與非對稱關係
有些關係本質上是不對稱的,這很容易判斷。例如老師與學生或老闆與員工之間的關係,這樣的角色設定了方向性,關係不是對稱的。而推特和LiveJournal上的關注儘管從定義上來說有方向,但是還存在一種反關注的聯繫,因此形成了對稱關係。
有些關係是對稱的。臉譜上的朋友以及職場社交網站LinkedIn上的聯繫人都需要相互確認——即使在真實的人際關係中不對稱,網站也是強制要求對稱的。
在現實生活中,友誼與親密關係是不對稱的,雖然我們不希望這樣。因此,我們才會在單相思、一廂情願的友情以及受歡迎的妄想中掙扎。如果有很好的數據,我們可以使用社會網路分析研究這些現象——但是要想獲得這些數據非常困難,而且也往往會受個體報告以及其他誤差影響。
多模關係
最後,我們將提到,關係還會存在於不同類型的主體之間——公司僱傭員工、投資者購買公司的股票、人們占有信息與資源等。這些關係被稱為雙峰關係(bimodal)或二模關係(2-mode)——這些將在第5章進行討論。
從關係到網路——超乎所見
如果一位傳統的量化社會學家或計量經濟學家拿到社會網路數據,他會按照以下方法處理:
我們可以從中了解什麼?有人口統計學數據嗎?年齡、種族、宗教、收入、教育程度、地點等任何有可能被測量的定性或定量變數。
可以從網路數據中得到什麼量化指標?很有可能,這些指標會包括各種形式的中心性(參見第3章)。
哪些定性或定量的結果是可以測量的?也就是說,一個公民融入社會的能力、嘗試非法藥物的可能性等。
然後他將建立一個多變數回歸模型,控制一些變數,並將其他一些變數與結果聯繫起來。這是一個非常有效的方法——事實上,這個方法仍然在社會網路分析會議上占有一席之地。
這種方法傳統套用之一是研究同質性(homophily,希臘文,意思是對相似者的喜愛),或者,寬泛地說,是研究“物以類聚、人以群分”。例如,有人提出年齡相近的人比年齡段不同的人更容易成為朋友,還有人說相同種族的人往往會聚在一起。儘管有些猜想聽上去沒有錯,但是卻無法解釋一些現象,比如在某個高中班裡,黑人學生之間社會群體內部動力的複雜性——他們在年齡、種族、經濟狀況、音樂偏好等方面可能都具有高度相似性,但是他們的情緒情感卻各不相同。
無論如何,我們能做一些非常不同的事情,而且是更好的事情。
標準統計方法有一個假設即事件獨立性假設,或者說泊松過程(Poissonprocess)。注1在泊松過程中,每個事件都被視為完全獨立發生,與其他事件沒有關係。因此,我們可以基於外部變數或特徵來計算事件機率,然後以此得出一個像樣的現實模型。當然,事件並不總是獨立的,在這種情況下,貝葉斯統計可以創建依賴關係鏈並計算巨觀結果的機率。這些細節內容不在本書討論的範圍之內,但是可以通過很多資源找到。譯註1
在社會網路中,我們僅憑直覺就知道並不存在獨立事件。人們通過相互認識形成友誼與熟人關係,比如說,A認識B是因為A和B都認識C。即使是其他不同的群體之間,也會基於同質性而形成較遠的關係鏈注2,相反的例子就更多了。
我們在做SNA的時候,拋開獨立性假設,認為所有的關係都是潛在的相依關係。此時,傳統的統計方法(如回歸或馬爾可夫模型)除了能解決一些瑣碎問題,在數學上變得無計可施。不過也不必擔心,我們會開發使用新方法,而且同樣有效。在本書第6章的“信息如何影響網路”這一節,我們將在信息擴散的背景下討論更多同質性問題。
社會網路與連線分析
社會網路分析的另一個表親是連線分析(LinkAnalysis,LI)。你們當中有些人可能已經在商業情報或執法工作中用過,或是在電視上見過。《尋人密探組》(WithoutaTrace)在每一集中都使用連線分析;《數字》(Numbers)和《法律與秩序》(LawandOrder)這兩部電視劇則有時會用到。譯註2
連線分析在很多方面都與社會網路分析相似——它們都使用節點(node)和邊(edge)來描述關係(見圖1-1),也都是通過分析整個網路而不是單個事件來推導誰在網路中更為重要。譯註3
圖1-1:連線分析圖
不過,連線分析允許不同的節點和邊在同一個網路中混合出現。例如,A付給B300美元是為了給C買藥。在這個例子中,粗體字是節點或行動者,斜體字則是邊或動作。從嚴格的定量意義上來說,不同的人對給錢、買藥的理解可能是有差異的,因此連線分析取決於人們對語言的理解,純粹從形式上來說,它是定性的。
大多數連線分析的軟體工具,包括Analyst抯Notebook以及Palantir在內譯註4,都可以用來收集定性數據並進行定性決策,它們功能強大而且廣泛使用於各個領域。但是,因為根據不同含義的節點和邊混合(例如,錢和電話)得出的結果在數學上是無效的,所以套用量化指標(如程度中心性)有風險。遺憾的是,如果你在使用連線分析軟體,那么將無法阻止軟體對這些指標進行計算。
解決這一問題的方法是使用多模網路(multimodenetwork),我們將在第5章討論,它能更準確地表達混雜不同含義的節點與邊。
非正式網路的力量
讓我們從一個小故事開始討論社會網路分析。
ACME諮詢是一個歷史悠久的審計公司,它成立於20世紀60年代,曾作為家族企業存在了25年。該公司緩慢而有序地發展了很多年,一直是公司所有者的驕傲。ACME的主要業務是會計和審計——為一些精選的、可信的客戶服務。20世紀90年代中期,在資訊時代的誘惑下,ACME增設IT部門,構建起一個“21世紀的公司”所需的所有基礎設施——雖然它的核心業務依然是老式的,用勤奮工作的方式來處理文書和數字。
可惜一切好事都有盡頭,企業主在鄰近退休的時候,決定搬到佛羅里達州的博卡拉頓市,開始釣魚新事業,扮演起全職祖父的角色來。他不想出售公司,於是外聘一位CEO代為管理,公司仍然歸家族所有。
圖1-2中的組織結構圖呈現的是這位CEO(Conrad)眼中的公司。審計和IT是公司的兩大部門,大約各有100名員工(此圖已經大大簡化了)。另外還有一個“秘書處”——他們唯一的職責就是處理公司客戶堆積如山的文書。從某種程度上說,這完全是一個“狂人”的世界——有些年齡較長的審計員仍然稱呼秘書為“小姐”,儘管有的秘書已經50多歲了。部門之間為了資源和需求口角不斷,解決這些問題也需要花費很長時間、開無數次會議,從而犧牲了工作效率。
這種生意方式可與剛從名牌商學院畢業的CEOConrad不相符。他想打造一個現代的、以客戶為導向、快速反應的組織。他上任不久,便對ACME進行了公司重組。每一個客戶對應一個“業務經理”,由一個跨職能的團隊進行支持,負責從安裝伺服器到報稅的所有工作。原來的秘書處解散,分配到每個客戶區。從圖1-3中可以看到新的組織結構。
從表面上看,這個變化是好的。項目團隊終於開始了解他們的客戶;財務和IT人員意識到他們並非來自兩個不同的星球,終於開始對話,常規問題在幾個小時之內便可解決,而不是像以前需要耗費幾個星期。客戶也很滿意。但是表象之下,麻煩正在形成。
病毒視頻剖析
信息如何影響網路
Python中的一個簡單動態模型
網路和信息的共同演化
第7章在現實世界中繪圖
中等規模數據:傳統SQL關係資料庫
大數據:未來,從今天開始
小數據——平面檔案表達
中等規模數據:資料庫表達
使用二模數據工作
社會網路和大數據
運行大數據
附錄A收集數據
附錄B安裝軟體
前言
前言
2011年,很多創業公司都在他們的商業計畫中提到“social”這個詞——雖然事實上並沒有人知道如何分析和理解這能夠決定公司成敗的社交過程。如果你從事如下工作:社交媒體、社交CRM、社交行銷、管理諮詢等,你應該讀一讀這本書,它會告訴你社交系統是如何發展、演變以及運轉的。
這本書的內容不僅僅適用於創業公司。實際上,整本書就是一門系統的課程,它囊括了幾乎一個學期的理論知識和實際操作材料——閱讀以後,你就會對於社會網路分析是“危險的”有足夠的理解。如果你是這個研究領域的學生,我們強烈鼓勵你去尋找並閱讀腳註里提到的每一篇論文或每一本書。這樣做會讓你非常了解這個領域的經典文獻,也可以讓你自信地開展研究課題。
如果你有計算機技術背景,可以從這本書學到主要的社會學概念,並從中提取出可以用來編程的信息和分析數據;如果你有社會學或市場行銷背景,你會發現一些熟悉的材料,與此同時也會學到用定量和定性的方法去了解社交背景下的人們。
閱讀本書的前提
由於這本書的客群非常廣泛,因此我們儘可能少地使用專業術語,同時為書中的專業術語做出解釋。但是,本書會有大量的技術內容(這是O’Reilly出版圖書的一項要求)。
我們希望你至少稍微熟悉Python,即,能自己寫腳本、了解語言的基本控制結構和數據結構。如果你不了解技術內容,建議你可以使用Python的線上教程或者參考PaulBarry(O’Reilly出版)寫的《HeadFirstPython》開始學習。
本書不會涉及從Twitter、Facebook以及其他數據來源收集數據的詳細過程,O扲eilly出版的“AnimalGuide”系列的其他書籍已經提供了充分的資料,如KevinMakice寫的《TwitterAPI:UpandRunning》以及MatthewRussell寫的《MiningtheSocialWeb》。
精彩書摘
第1章
導論
“額?你是做什麼的?”
“我在研究社會網路分析。”
“喔,那就是說你在玩臉譜(Facebook),而且還能靠它賺錢?”
在社會網路分析研究者的生活中,經常會聽到這樣的對話。但是如果只是說:“沒錯,但並不僅僅是臉譜。”還是沒有回答“做什麼”的問題。事實上,社會網路分析是一種特別通用的方法學,它的誕生至少比推特(Twitter)和臉譜早三十年。
簡單來說,社會網路分析(SocialNetworkAnalysis,SNA)就是“通過圖論研究人類關係的一門學問”。當然,這句解釋還遠遠不夠。
在某種程度上,社會網路分析與許多統計方法相似。
經濟學家廣泛使用回歸分析的事實並不意味著這項技術只局限於經濟學研究。研究社交媒體是套用社會網路分析技術的一個很好方式,同樣的道理,社會網路分析技術的套用也不局限於此——數據容易獲得,研究機會眾多且有價值。事實上,我敢打賭,在十位我尊敬的讀者當中,就有九位是基於這個原因而翻開這本書。
十年前,社會網路分析領域還是科學的一潭死水。我們是同時被主流社會學和主流計算機科學拒之門外的異數,我們用奇怪的數學技術處理奇怪的數據類型,生成漂亮的但十分難懂的圖片,以及只有在我們的小圈子裡才說得通的結論。那時收集和獲取社會網路數據很困難(參見附錄A);這個領域的學生都是通過數據集的一個小的標準集來工作,很少冒險離開這個標準集去採集自己的數據。社交媒體的出現改變了所有這一切。每一天,推特產生的社會網路數據比十年前我們整個領域的數據還要多;每個社交媒體網站提供一個API以方便數據檢索;世界上很多政府機構也開放數據由社會網路分析技術來處理。
本書將分析社交媒體數據,我們將收集來自推特(附錄A)、臉譜以及LiveJournal的數據,學習識別線上社群,研究如何解析一段病毒視頻和一次快閃(flashmob)。
除此以外,本書也會演示社會網路分析很多不同的套用方法。本書的研究對象是社交媒體,但也並不僅限於社交媒體。我們可以通過公司的投資網路及其董事會的共同人員研究公司之間的關係。也可以深入機構內部,去發現飲水機和小吃店附近的社交網路如何影響一家公司的執行力,以及對此不以為然的公司將如何自食其果。我們通過研究競選資金,可以發現某個特別利益集團是如何控制整個競選結果的。還可以研究恐怖主義分子、革命者以及激進分子的活動——從1998年的霍巴塔爆炸到“911”襲擊再到最近的埃及革命。我們將把這些方向和趨勢一一解剖開來,而這些往往是通過推特和臉譜實現的,雖然這些事件本質上也是線下的。
本書將告訴你網路數據無處不在——你只需要學習識別它、分析它。一旦你開始這樣做了,就會出現新的靈感和想法。
分析關係,理解人與群體
社會網路分析(SNA)科學的核心概念是人與人之間的關係,這些關係定義了我們是誰,以及如何行事。我們的人格、教育、背景、種族、民族等所有的這一切都與我們的關係模式發生互動,並在關係中留下不可磨滅的印記。因此,通過對這些模式的觀察和研究,我們就能夠回答許多關於社會的問題。
什麼是關係?在人際關係中,它可以是友誼、影響、情感、信任,或者反過來,它也可以是不喜歡、衝突或許多其他東西。
二元與賦值關係
關係可以是二元的,也可以被賦值:“張三在推特上關注了李四”是一種二元關係,而“李四轉發了張三的四條推文”則是賦值關係。在推特的世界裡,很容易對這些關係進行量化,但是在“更無形”的社會生活中,如果想對一段人際關係的狀況進行界定並量化,則非常困難。
溝通頻率在表示人際關係的程度時十分有用。除了用作客觀測量,科學家還發現它能夠對情感內容以及人際影響做出準確反應。當然,有時可能並非如此(親愛的讀者,也許您現在的人際關係就是一個反例),但是在很多情況下,由於沒有更好的數據,使用溝通頻率來衡量人際關係往往是有效的。
對稱與非對稱關係
有些關係本質上是不對稱的,這很容易判斷。例如老師與學生或老闆與員工之間的關係,這樣的角色設定了方向性,關係不是對稱的。而推特和LiveJournal上的關注儘管從定義上來說有方向,但是還存在一種反關注的聯繫,因此形成了對稱關係。
有些關係是對稱的。臉譜上的朋友以及職場社交網站LinkedIn上的聯繫人都需要相互確認——即使在真實的人際關係中不對稱,網站也是強制要求對稱的。
在現實生活中,友誼與親密關係是不對稱的,雖然我們不希望這樣。因此,我們才會在單相思、一廂情願的友情以及受歡迎的妄想中掙扎。如果有很好的數據,我們可以使用社會網路分析研究這些現象——但是要想獲得這些數據非常困難,而且也往往會受個體報告以及其他誤差影響。
多模關係
最後,我們將提到,關係還會存在於不同類型的主體之間——公司僱傭員工、投資者購買公司的股票、人們占有信息與資源等。這些關係被稱為雙峰關係(bimodal)或二模關係(2-mode)——這些將在第5章進行討論。
從關係到網路——超乎所見
如果一位傳統的量化社會學家或計量經濟學家拿到社會網路數據,他會按照以下方法處理:
我們可以從中了解什麼?有人口統計學數據嗎?年齡、種族、宗教、收入、教育程度、地點等任何有可能被測量的定性或定量變數。
可以從網路數據中得到什麼量化指標?很有可能,這些指標會包括各種形式的中心性(參見第3章)。
哪些定性或定量的結果是可以測量的?也就是說,一個公民融入社會的能力、嘗試非法藥物的可能性等。
然後他將建立一個多變數回歸模型,控制一些變數,並將其他一些變數與結果聯繫起來。這是一個非常有效的方法——事實上,這個方法仍然在社會網路分析會議上占有一席之地。
這種方法傳統套用之一是研究同質性(homophily,希臘文,意思是對相似者的喜愛),或者,寬泛地說,是研究“物以類聚、人以群分”。例如,有人提出年齡相近的人比年齡段不同的人更容易成為朋友,還有人說相同種族的人往往會聚在一起。儘管有些猜想聽上去沒有錯,但是卻無法解釋一些現象,比如在某個高中班裡,黑人學生之間社會群體內部動力的複雜性——他們在年齡、種族、經濟狀況、音樂偏好等方面可能都具有高度相似性,但是他們的情緒情感卻各不相同。
無論如何,我們能做一些非常不同的事情,而且是更好的事情。
標準統計方法有一個假設即事件獨立性假設,或者說泊松過程(Poissonprocess)。注1在泊松過程中,每個事件都被視為完全獨立發生,與其他事件沒有關係。因此,我們可以基於外部變數或特徵來計算事件機率,然後以此得出一個像樣的現實模型。當然,事件並不總是獨立的,在這種情況下,貝葉斯統計可以創建依賴關係鏈並計算巨觀結果的機率。這些細節內容不在本書討論的範圍之內,但是可以通過很多資源找到。譯註1
在社會網路中,我們僅憑直覺就知道並不存在獨立事件。人們通過相互認識形成友誼與熟人關係,比如說,A認識B是因為A和B都認識C。即使是其他不同的群體之間,也會基於同質性而形成較遠的關係鏈注2,相反的例子就更多了。
我們在做SNA的時候,拋開獨立性假設,認為所有的關係都是潛在的相依關係。此時,傳統的統計方法(如回歸或馬爾可夫模型)除了能解決一些瑣碎問題,在數學上變得無計可施。不過也不必擔心,我們會開發使用新方法,而且同樣有效。在本書第6章的“信息如何影響網路”這一節,我們將在信息擴散的背景下討論更多同質性問題。
社會網路與連線分析
社會網路分析的另一個表親是連線分析(LinkAnalysis,LI)。你們當中有些人可能已經在商業情報或執法工作中用過,或是在電視上見過。《尋人密探組》(WithoutaTrace)在每一集中都使用連線分析;《數字》(Numbers)和《法律與秩序》(LawandOrder)這兩部電視劇則有時會用到。譯註2
連線分析在很多方面都與社會網路分析相似——它們都使用節點(node)和邊(edge)來描述關係(見圖1-1),也都是通過分析整個網路而不是單個事件來推導誰在網路中更為重要。譯註3
圖1-1:連線分析圖
不過,連線分析允許不同的節點和邊在同一個網路中混合出現。例如,A付給B300美元是為了給C買藥。在這個例子中,粗體字是節點或行動者,斜體字則是邊或動作。從嚴格的定量意義上來說,不同的人對給錢、買藥的理解可能是有差異的,因此連線分析取決於人們對語言的理解,純粹從形式上來說,它是定性的。
大多數連線分析的軟體工具,包括Analyst抯Notebook以及Palantir在內譯註4,都可以用來收集定性數據並進行定性決策,它們功能強大而且廣泛使用於各個領域。但是,因為根據不同含義的節點和邊混合(例如,錢和電話)得出的結果在數學上是無效的,所以套用量化指標(如程度中心性)有風險。遺憾的是,如果你在使用連線分析軟體,那么將無法阻止軟體對這些指標進行計算。
解決這一問題的方法是使用多模網路(multimodenetwork),我們將在第5章討論,它能更準確地表達混雜不同含義的節點與邊。
非正式網路的力量
讓我們從一個小故事開始討論社會網路分析。
ACME諮詢是一個歷史悠久的審計公司,它成立於20世紀60年代,曾作為家族企業存在了25年。該公司緩慢而有序地發展了很多年,一直是公司所有者的驕傲。ACME的主要業務是會計和審計——為一些精選的、可信的客戶服務。20世紀90年代中期,在資訊時代的誘惑下,ACME增設IT部門,構建起一個“21世紀的公司”所需的所有基礎設施——雖然它的核心業務依然是老式的,用勤奮工作的方式來處理文書和數字。
可惜一切好事都有盡頭,企業主在鄰近退休的時候,決定搬到佛羅里達州的博卡拉頓市,開始釣魚新事業,扮演起全職祖父的角色來。他不想出售公司,於是外聘一位CEO代為管理,公司仍然歸家族所有。
圖1-2中的組織結構圖呈現的是這位CEO(Conrad)眼中的公司。審計和IT是公司的兩大部門,大約各有100名員工(此圖已經大大簡化了)。另外還有一個“秘書處”——他們唯一的職責就是處理公司客戶堆積如山的文書。從某種程度上說,這完全是一個“狂人”的世界——有些年齡較長的審計員仍然稱呼秘書為“小姐”,儘管有的秘書已經50多歲了。部門之間為了資源和需求口角不斷,解決這些問題也需要花費很長時間、開無數次會議,從而犧牲了工作效率。
這種生意方式可與剛從名牌商學院畢業的CEOConrad不相符。他想打造一個現代的、以客戶為導向、快速反應的組織。他上任不久,便對ACME進行了公司重組。每一個客戶對應一個“業務經理”,由一個跨職能的團隊進行支持,負責從安裝伺服器到報稅的所有工作。原來的秘書處解散,分配到每個客戶區。從圖1-3中可以看到新的組織結構。
從表面上看,這個變化是好的。項目團隊終於開始了解他們的客戶;財務和IT人員意識到他們並非來自兩個不同的星球,終於開始對話,常規問題在幾個小時之內便可解決,而不是像以前需要耗費幾個星期。客戶也很滿意。但是表象之下,麻煩正在形成。