作者簡介
維克托·邁爾-舍恩伯格(Viktor Mayer-Schönberger),生於奧地利薩爾茲堡。獲
哈佛大學法律學碩士,
倫敦政治經濟學院國際關係學碩士,奧地利薩爾茲堡大學法律系博士。現任牛津大學網路學院網際網路治理與監管專業教授,曾任哈佛大學甘迺迪學院國家公共政策專業副教授、哈佛信息政策監管項目負責人。
暢銷書作家,作品《大數據時代》一經出版即登上《
紐約時報》及《
華爾街日報》暢銷書榜,同時入選《金融時報》2013年度最佳商業圖書、
CNN財經年度最佳商業圖書。中文版獲2013年度CCTV中國好書。
肯尼思·庫克耶(Kenneth Cukier) 《
經濟學人》(The Economist)數據編輯,是一位著名的大數據發展評論員。
譯者簡介
目錄
006 序一 未來教育的形態
012 序二 大數據時代教育的新圖景
1、薄暮
003截然不同的教學形式
006數據的非凡效果
007大數據正在進入教育的方方面面
009有別於“講台上的賢能者”的傳統教育
010風投資金湧入教育領域
012大數據服務於各行各業
014大數據將為教育帶來巨大變革
2、改變
021令人愉快的雙贏設計
025小數據時代單向度的反饋
028電子教科書的優勢
030會“回話”的電子教科書
032教育機會均等的代價
034缺乏個性化的教學改革
035“一個尺寸適合一個人”
036補習班:適應性學習軟體的用武之地
040大規模定製:創建個人的“播放列表”
042理性對待機率預測
044機率預測日漸精準
045探尋“是什麼”而非“為什麼”
3、平台
051數據分析:可汗學院的大腦
053對數據的充分利用
055學校、班級、課本和課程是重要的數據平台
057教育系統太過保守
059大數據使教育資源得以鬆綁
060線上課程無法替代課堂教學
061規模空前的數據資料收集平台
063大學率先感受大數據的浪潮
065亞馬遜擊敗巴諾書店對教育的啟示
066大數據浪潮襲來,大中國小無一倖免
068數據分析:女學生何以後來者居上
070未來教育體系的特徵
4、後果
075正視大數據的黑暗面
077永久的過去
079過往的個人數據,能否成為主要評估依據?
081最大隱患:無法遺忘的舊數據
084無法駁斥的大數據預測
087備受爭議的教育分流
088與大數據同行的一大風險
090做好數據資料的管控
092算法專家:一個新角色的誕生
093謹慎使用個人數據
094不要讓過去完全決定我們的未來
5、破曉
099什麼原因讓學生中止線上課程的學習?
102絕非技術層面上的變革
103大數據為學習帶來三大改變
105確立多重安全措施
106大數據將從根本上改變教育
108認識世界的新方式
110淘汰過去的捷徑
112想像力遠比知識更重要
6、追問
117大數據與學校教育系統的重塑
121大數據關照下的數字鴻溝問題
124大數據時代背景下的教師與學校管理者
127大數據與求變且漸變的學校教育模式
131大數據的潛在威脅與可能的應對策略
134大數據的背後其實是人的問題
137 資料來源
151 譯者後記
序言
未來教育的形態
與
大數據同行的學習就是未來的教育,這既是書名的意義,也是本書的主題。“
大數據”一詞反映了人們愈益意識到我們大家留下的數字痕跡,就如“大數據”關注數據本身一樣。
哥倫比亞大學心理學教授鄧肯·沃茲(Duncan Watts)認為,有關人們行為和喜好的豐沛數據正改變著社會科學,使社會科學從數據最貧瘠的領域轉變為數據最豐富的領域。在從商務學到社會學再到文學這樣一個又一個領域中,我們獲取和解釋數據的能力得到迅速成長,同時也需要獲得新的工具。
與其他任何領域相比,這一點在教育領域或許顯得更為真實。多年以來,事實上是多個世紀以來,教育領域的決策從來就是在缺乏任何數據的基礎上作出的。常識(common sense)一直成為正常的決策資源,即使在常識導致消極結果的情況下也是如此,而常識其實只是習慣和一廂情願的混合物罷了。
邁爾-舍恩伯格和庫克耶寫到塞巴斯蒂安·迪亞茲(Sebástian Díaz)受數據驅動的關於學生矯正教育(remedial education)的發現:要求學生修讀全部大學課程可能確實會導致他們輟學而不是畢業。迪亞茲的這一發現與當前美國政策所鼓勵之事並不一致,而這種政策與現實之間的背離足以讓教育家們欲哭無淚。由此可見,如果僅通過常識來設計一種教育體系,只不過是在浪費時間和金錢,那就只會導致一種情況——正如作者所指出的——我們當前的政策或許正在浪費生命,而我們卻還沒有制定出可以取代它們的有效政策。
弄明白哪些教學技術確實會產生作用,而哪些教學技術不會產生作用,正是本書所探討的一場革命。
與大數據同行的學習意味著兩種迥異的學習過程。對於學生而言,他們是在一個同樣也在向他們學習的體系中學習著課程。這一體系知道學生何時需要加倍依賴於概念,知道何時需要繼續往下學習,還知道如何讓學生在每一天中平衡“溫故”和“知新”。這些學生是在伴隨著大數據而學習,因為在他們所身處的系統之中,有關他們如何從事與他人和課程目標相關之事的證據,可以在分秒之中產生,而不是需要一個學期或學年才能出現。
但是,教育工作者們也在伴隨著大數據而學習。我們第一次有機會來檢驗假設,來比較方法,來了解(而不只是猜測)什麼是有效的和什麼是無效的。反饋循環(feedback loop)對於學生來說將是一種改進,而對於教師來說則會是一種轉型。
克里斯·阿吉瑞斯(Chris Argyris)是一位組織理論專家,他介紹了學習型組織的理論。大多數組織採用被阿吉瑞斯稱為“單迴路學習”(single-loop learning)的模式,它們在學習中犯了錯誤之後才會努力去糾正。例如,當一所學校進行的一次考試或一堂課的難度過低或者過高時,學校就會確定問題並在下一次加以克服。這就是單迴路學習——犯了錯誤,將其抓住並予以糾正,爾後繼續前行。
“雙迴路學習”(double-loop learning)則與之不同。一個踐行雙迴路學習的組織會糾正自身的錯誤,但它還會做許多更重要的事情,包括分析其犯錯的原因。雙迴路的學習需要分析組織本身在反饋迴路中所使用的大量數據。本書中諸多有趣的故事都是關於雙迴路學習的,例如
薩爾曼·可汗(Salman Khan)在運用學生如何學習的數據時,他不只是在設計教學,而是在設計可汗學院本身。
邁爾-舍恩伯格和庫克耶認識到了這一巨大的進步。大多數組織習慣性地拒絕變革,而且並不認為這種變革將是迅速的或是由精英們領導的。只有當創新經常出現時,比如要改變人們過去受到不好的服務或根本沒有受到服務的狀況,這種變革才會發生:人們需要矯正教育,人們處在當前功能健全的機構之外,當前的教育制度讓所有年齡段的人感到失敗。
邁爾-舍恩伯格和庫克耶認為,這一變革最終將波及各行各業。從生物學界到籃球界,最初都會有一些員工在短期內抗拒數據驅動的分析,但在數據能夠影響結果的每一個領域,最終都會採納數據驅動的決策方法。教育機構同樣如此,一開始只有少數機構願意接受,但最終會擴展到全部。
正如作者所說:“信息技術作為進步的基礎是不容置辯的,但當下面臨的變革並不是技術層面上的。”當前的變革是
組織變革。要作出套用數據的決定,就不得不成為知道如何變革自身的那種組織,以便回應新信息,回應經常與傳統實踐相衝突的新信息。
我們第一次要求自己擁有理解學生正在做什麼的能力。我們能夠理解在最大規模情況下學生是如何學習的,理解在任何給定的學年中數以百萬計的各種數據。我們能夠理解在最小規模情況下學生是如何學習的,理解每一個個體在10分鐘的課程中是如何學習的,而不只是每一個個體是如何學習的。不同於舊有的調查世界和樣本,我們能夠連線上述兩類規模——大數據是數以億萬計的小數據的匯集。
高等教育的未來依賴於本書巧妙而有力地論證的特徵:教學的個性化、把有效努力從無效努力中分離出來的反饋循環,以及由大規模數據集的機率預測而產生的設計或體系。決定著教育之未來的,是那些更好地利用大數據來適應學習的組織。
被譽為“網際網路革命最偉大的思考者”
著有《認知盈餘:自由時間的力量》等暢銷書
試讀章節
令人愉快的雙贏設計
路易斯·馮·安(Luis Von Ahn)的外表與行為和大家身邊典型的美國大學生沒什麼兩樣。他喜歡打電子遊戲,喜歡飛快地駕駛他的藍色跑車,他就像現代的湯姆·索亞(Tom Sawyer),熱衷於差遣別人替他做事。但是人不可貌相,實際上,馮·安是世界上最傑出的計算機科學教授之一,而幫他做過事的,足足有10億人。
10年前,22歲的研究生馮·安參與創造了一項名為CAPTCHAs的技術,要求人們在註冊電子郵件等網路套用時輸入彎彎曲曲的文字,以證明進行此操作的是人類而非惡意灌水的程式。馮·安把CAPTCHAs的升級版(reCAPTCHA)賣給了谷歌,這個版本要求人們輸入扭曲文字的目的不僅是作驗證,更主要的目的,是為了破解“谷歌圖書掃描計畫”中那些計算機難以識別的文字。這是個聰明的做法,發揮了一項數據的兩種作用:線上註冊的同時識別文字。
在那之後,成為
卡內基梅隆大學(Carnegie Mellon University)教授的馮·安開始尋覓更多的“一石二鳥之計”——使人們提供的零散數據為兩種目的服務。於是,在2012年,他啟動了新的設計——多鄰國(Duolingo),通過網站和智慧型手機APP幫助人們學習外語。作為一個幼年在瓜地馬拉學習英語的人,馮·安對學習外語抱有共鳴,而更重要的是,多鄰國的教學方式非常巧妙。
它要求人們在同一時間翻譯一些較短的詞組,或者評價和修正其他人的翻譯。不同於一般翻譯軟體呈現其自創詞組的做法,多鄰國呈現的是需要翻譯的文檔中的真實句子,因此公司能夠從中獲取報酬。一旦有足夠的學習者能夠翻譯或驗證特定詞組,系統就會接受他們的譯文,並收集所有零散的句子,將其整合到完整的文檔之中。
多鄰國的客戶包括CNN和BuzzFeed等媒體公司,後者通過多鄰國的服務,翻譯用於其海外市場的相關內容。和reCAPTCHA一樣,多鄰國也是個令人愉快的“雙贏”技術:學習者免費獲得外語學習指導,同時製造具有經濟價值的產物作為回報。
此外,還有第三個益處,那就是多鄰國收集的“數據尾氣”(data exhaust),即由人們與網站之間的互動中衍生的副產品:如熟練掌握一門語言的某一方面需要多長時間、最合適的習題量是多少、落下幾天進度的後果等等。馮·安意識到,所有這些數據都可以採取某種方式加以處理,從而揭示出促進人們學習的最佳策略。在非數據環境中,做到這一點並不容易。然而,對於2013年間的每一天都有大約100萬訪問者,並且人均花費30多分鐘用於線上學習的多鄰國來說,巨大的用戶數量足以支撐此類研究。
馮·安最重要的發現是:關於“人們怎樣學得最好”的問題是錯誤的。重點不在於“人”怎樣學得最好,而是具體的“哪個”人。對此,他解釋說,針對最佳語言學習方法的實證研究數量很少,比方說,在許多理論中,主張先教形容詞,再教副詞,但幾乎沒有確鑿的數據支撐。他指出,即使存在相關數據,通常也是針對數百名學生的小規模研究所得,將之作為普遍的研究發現加以推廣,終究是不可靠的。為什麼不以多年來數以千萬的學習者為研究對象得出結論呢?多鄰國的出現,使這樣的研究成為可能。
馮·安在處理數據的過程中得到了一個重要的發現,即語言教學手段有效與否取決於學習者的母語以及他們將要學習的語言。以西班牙語使用者為例,通常,他們在學習英語的最初階段就會接觸到“he”“she”和“it”等代詞。然而馮·安卻發現,“it”一詞容易引起他們的迷惑和焦慮,原因是“it”很難翻譯成西班牙語。於是馮安進行了幾次測試,只教“he”和“she”,直到數周后堅持學習而不放棄的人數顯著增加,再開始“it”一詞的教學。這樣就能顯著提高堅持學習的人數。
他還有一些發現是有悖直覺的:女性的體育術語學得更好;男性更擅長學習與烹調和食物相關的單詞;在義大利,女性總體來說比男性在英語學習上表現得更出色。許多類似的發現始終在不斷湧現。
多鄰國的故事為我們呈現了大數據重塑教育的最有前景的方式之一。其中反映了大數據改善學習的三大核心要素:反饋、個性化和機率預測。
無法駁斥的大數據預測
第二個威脅也同樣嚴峻。以所有人為對象收集到的全面教育數據,將用於對未來進行預測:我們應該以這樣的速度、按這樣的順序學習;我們只有在晚上8點至9點間複習學習材料,才能有90%的可能性得到B,如果複習得早了,其可能性將會降至50%;等等。諸如此類的機率預測將會限制我們的“學習自由”,並有可能最終威脅到我們對生活中機遇的獲取。
大數據蘊含的巨大潛力在於推進
個性化學習、改善教材和教學,並最終提高學生的成績。數據應該被視為促進產品改良的反饋,而不是對產品使用者進行簡單評價的依據。在今天,被收集的有限數據幾乎都是用來評價學生的,即學習中的“消費者”。
我們評估可能的方案和潛在的成就:從高中提升課程的受理到高校錄取,再到研究生院的入學。但是此類基於有限數據的小數據預測,充滿了不確定性,因此招生委員會對這些數據的處理極其謹慎。委員們認識到數據展示的內容並不完善——那些以高分通過SAT考試的自大狂並不是憑藉真才實學,而僅僅是因為記住了複習指南——便積極地增加評估的主觀性,當他們意識到依賴數據可能造成以偏概全的結果時,會將主觀判斷置於數據決斷之前。
然而,大數據時代的預測精確度將遠遠超過現在。這向招生委員會和招聘人員等決策制定者施加了更多的壓力,使其更傾向於相信基於大數據的預測。在過去,我們可以辯稱所屬的分組不是特別適合自己,為某種情況找到開脫的理由。比如,我們有可能被分到“好學生,但是搞不定統計課”的群組中,並最終因此被經濟學專業拒之門外。但是我們仍然可以憑藉這樣的解釋說服別人:基於這一分組的預測於我們而言是不正確的,所以即使同組的其他成員會失敗,我們還是有可能獲得成功。因為該預測是基於“小數據”作出的,決策制定者往往傾向於相信當事人是“無辜”的,而當事人能夠通過協商為自己辯解。
而新的威脅在於,基於大數據的預測是如此準確、個性化程度如此之高,我們將不再因為名義上所屬的分組,而是實實在在的“自己”被問責。因此,任何藉口都可能不足以說服決策制定者站在我們這一邊。事實上,任人來作判定有可能完全地從決策過程中移除,取而代之是以機器算法為基礎的操作,包括讀取電子數據表、計算機率並作出有約束力的決定,而這一系列操作僅需耗時幾毫秒。
比如說,一些大學正在開展“電子顧問”(e-advisors)的實驗,這款大數據軟體系統通過數字處理提升學生的畢業率。自2007年
亞利桑那大學採用該系統至今,學生順利升學的比例已由77%上升到84%。在田納西州的奧斯汀州立大學,當學生選修“學位羅盤”(Degree Compass)軟體向其推薦的課程後,他們有90%的可能性得到與軟體預測一致的B以上的高分,而沒有獲益於“學位羅盤”的學生,獲得同樣分數的比例僅占60%。