基本介紹
- 中文名:文化組學
- 外文名:cultur omics
- 類型:合併詞
- 屬性:數據
名詞解釋,項目研究,對比分析,文化組學 評價,
名詞解釋
“文化組學”從基因組學中得到啟發,一個研究人員小組設計出一種工具,該工具給出隨時間推移文化如何改變的定量數據。基因組學研究可分析海量數據,研究基因如何發揮作用和改變。這個新“文化組學”工具採用一種大規模的方法,研究隨時間推移單詞使用的頻率,用它來觀察人類的思想與文化的趨勢。
項目研究
“文化組學”項目始於2007年,當時,哈佛大學數學博士生艾略茲·利波曼·埃頓(Erez Lieberman Aiden)正在用數學的方法研究基因組學。2007年3月,他來到谷歌公司位於加州山景城的總部,敲響了谷歌研究部主任彼特·諾維格(Peter Norvig)的辦公室,目的是希望得到一些數據,並且能進入谷歌圖書系統。谷歌圖書是谷歌公司一項雄心勃勃但又有爭議的項目:掃描人類出版的每一本書的每一頁。
埃頓認為,通過分析過去幾個世紀文字或單詞在出版物中的增長、變化和衰落,研究人員有可能在大範圍內研究文化的演變。埃頓和麥可組成團隊。他們進化生物學中的數學工具用於書面語言的研究,比如,2007年,他們對英語動詞演變的研究登上了《自然》雜誌的封面,但是,他們從未挑戰過谷歌圖書所容納的海量數據。谷歌圖書擁有來自1500萬冊圖書的20萬億辭彙,這些圖書量相當於自1450年古登堡《聖經》出版以來人類所出版圖書量的12%。
對比分析
通過對比分析,埃頓和麥可發現,人類基因組的信息量只相當於一首有30億個字母的詩篇。
他們還量化分析了歷史長河中個人對文化的影響。比如,對“西格蒙德·弗洛伊德”(奧地利精神分析學家)和“查爾斯·達爾文”(英國生物學家)出現頻率的分析,揭示出文化智力持續演變的趨勢:在2005年,弗洛伊德已經失去陣地,達爾文最終超越了他。
對“N-Gram ”資料庫的分析還揭示出被歷史學家們忽視的模式。埃頓的妻子、哈佛醫學院學生帕瑞斯·埃頓領導的一個小組,分析了出現在20世紀上半葉德國書籍中的人名。結果發現,在納粹時代,大量的藝術家和學者被審查,看他們是“猶太人”還是“退化的人”,比如畫家巴勃羅·畢卡索。而且,利用 N-Gram對這些名人的追蹤還顯示,納粹時代,當他們的名字在德國書籍中銷聲匿跡時,卻仍然常常出現在英文書籍中。
當鑑別出這種政治壓制的信號時,他們分析了同一時間段里德語書籍中被提及的所有人的“成名軌跡”,並將他們按“壓制指數”排名,然後將包含這些人名的樣本送給以色列的一位歷史學家驗證。結果發現,在由壓制指數所鑑別的人中,超過80%的人確實被審查過,因為他們的名字被列入黑名單,從而證明這種數學方法是有效的。而且,更激動人心的是,他們還提出了不為歷史學家所知的壓制時代的犧牲者名單。
文化組學 評價
艾登是套用數學和基因組領域的專家,他說:“我們希望證明,利用數據分析解決人文學科問題是可能的。”他將這種方法稱作是“文化組學”(culturomics)。用戶可以自行下載這些數據, 並開發自己的搜尋工具。
藉助這個強大的資料庫,研究人員對名聲的持續時間進行了研究,並發現,名人在20世紀中葉書面材料中的名聲消失速度比19世紀早期快兩倍。“今後,所有人都將有7.5分鐘的成名時間。”他們寫道。
具體到發明創造,他們發現,在19世紀初,技術進步平均需要66年才能被主流文化接受,而在1880年至1920年間,則只需27年即可。
他們還追蹤了一些怪異的英語動詞是如何從最初不在過去式詞尾加“ed”(如learnt)演變成為通用的形式(如learned)的。他們發現,英語辭彙過去50年增加了70%,總數超過100萬個。他們還證明了,通過精準定位新興辭彙和過時辭彙,可以大大加快詞典的更新速度。
哈佛大學語言學家史蒂芬·平克(Steven Pinker)參與了這篇《科學》論文語言進化部分的研究,他20年來一直在從事英語語法和過去式形態的研究。“當發現他們擁有這樣一個資料庫時,我感到非常振奮,”他說,“我們太無知了。我不得不懷疑,如果這個資料庫早點出現,將會對語言產生何種影響。”
有關動詞變化的信息“使得結果更具說服力且更為完整。” 平克還補充道,“我們在這篇論文中撰寫的報告只是一個開始。”
平克表示,儘管人文學科領域通常都對量化分析持排斥態度,但他相信該工具以及與之類似的工具“將普及開來”。