國際知識發現和數據挖掘競賽(KDD-CUP)競賽是由ACM 的數據挖掘及知識發現專委會(SIGKDD)主辦的數據挖掘研究領域的國際頂級賽事。其中KDD的英文全稱是Knowledge Discovery and Data Mining,即知識發現與數據挖掘。
KDD Cup比賽由ACM協會的SIGKDD分會舉辦,從1997年開始,每年舉辦一次,目前是數據挖掘領域最有影響力的賽事。該比賽同時面向企業界和學術界,雲集了世界數據挖掘界的頂尖專家、學者、工程師、學生等參加,通過競賽,為數據挖掘從業者們提供了一個學術交流和研究成果展示的理想場所。
KDD Cup歷年的比賽題取自不同的挖掘領域,並都有很強的套用背景。KDD Cup的獲勝隊伍,將被邀請在當年舉辦的ACM SIGKDD Conference國際會議上提交論文並作技術報告,這些技術推動了數據挖掘行業不斷向前發展。
概述,組織者介紹,歷年競賽概覽,2012屆,2011屆,2010屆,2009屆,2008屆,
概述
數據挖掘是一個較新的交叉學科,隨著海量數據在各個行業的湧現,發揮了越來越大的推動作用,受到了廣泛的關注。全球的華人學者在這一研究領域扮演著舉足輕重的角色。國內也逐步孕育出了一支龐大的數據挖掘研究及開發隊伍,並且在最近幾年的KDD年會上有出色的表現。
組織者介紹
ACM(Association for Computing Machinery )美國計算機協會是一個世界性的計算機專業組織,創立於1947年,是世界上影響力最強的科學性及教育性計算機組織。ACM每年都出版大量計算機科學的高水平專門期刊,並在各項計算機專業領域都有分會,稱為SIG(Special Interest Group)。
ACM就像一個傘狀的組織,為其所有的成員提供信息,包括最新的尖端科學的發展,從理論思想到套用的轉換,提供交換信息的機會。正象ACM建立時的初衷,它仍一直保持著它的發展“信息技術”的目標,ACM成為一個永久的更新最新信息領域的源泉。ACM頒發“圖靈獎”給計算機領域做出傑出貢獻的人士。該獎項被稱為計算機領域的諾貝爾獎。
KDD Cup的主辦方是SIGKDD是ACM的數據挖掘分會,其全稱為ACM Special Interest Group on Knowledge Discovery and Data Mining,SIGKDD是國際數據挖掘界最著名的組織,其中KDD(Knowledge Discovery and Data Mining,知識發現與數據挖掘)一詞首次出現在1989年8月舉行的第11屆國際聯合人工智慧學術會議(IJCAI)上,由Piatetsky Sharpiro正式提出;1989-1994年間美國人工智慧協會共舉辦了4屆KDD國際專題討論會(89、91、93、94)。1995年,國際KDD組委把專題討論會更名為國際會議,並在加拿大蒙特婁召開了第1屆KDD國際學術會議,以後每年召開一次。1998年,ACM成立了KDD特殊興趣組SIGKDD,於1999年第五屆開始組織KDD學術會議。由於KDD的學科交叉性和廣泛套用性,吸引了來自統計、機器學習、資料庫、網際網路、生物信息學、多媒體、自然語言處理、人機互動、社交網路、高性能計算及大數據挖掘等眾多領域的專家、學者,KDD Cup的參賽隊伍、Conference的投稿量呈現逐年增加的趨勢,其行業影響力也越來越大。
SIGKDD的現任主席為Usama Fayyad(2009-now),前任主席包括Gregory Piatetsky Shapiro(2005-2008)、Won Kim (1998-2004)
KDD Cup每屆比賽會由企業或大學來進行協辦,協辦者通常會提供極有前沿套用價值的大規模數據作為挖掘樣本。作為公認的數據處理領域內的最高水平的賽事之一,歷年的競賽所用數據往往被數據挖掘從業者用作研究和開發的良好訓練數據。近幾年KDD-Cup的協辦單位包括:DonorsChoose(2014)、微軟公司(2013)、騰訊公司(2012)、雅虎公司(2011)、卡耐基梅隆大學(2010)、法國電信公司(2009)、西門子醫療(2008)。
歷年競賽概覽
2012屆
Track1任務:社交網路中的個性化推薦系統
根據騰訊微博中的用戶屬性(User Profile)、SNS社交關係、在社交網路中的互動記錄(retweet、comment、at)等,以及過去30天內的歷史item推薦記錄,來預測接下來最有可能被用戶接受的推薦item列表
KDD Cup 2012年優勝者:
冠軍:ACMClass@SJTU (上海交通大學ACM班)
亞軍:Shanda Innovations (盛大創新院)
季軍:SYSU_Wargreymon
Track2任務:搜尋廣告系統的pTCR點擊率預估
提供用戶在騰訊搜尋的查詢詞(query)、展現的廣告信息(包括廣告標題、描述、url等),以及廣告的相對位置(多條廣告中的排名)和用戶點擊情況,以及廣告主和用戶的屬性信息,來預測後續時間用戶對廣告的點擊情況
KDD Cup 2012年Track2優勝者:
冠軍:Catch Up (國立台灣大學)
亞軍:Opera Solutions (Opera Inc.)
季軍:Steffen Rendle
2011屆
Track1任務:音樂評分預測
根據用戶在雅虎音樂上item的歷史評分記錄,來預測用戶對其他item(包括歌曲、專輯等)的評分和實際評分之間的差異RMSE(最小均方誤差)。同時提供的還有歌曲所屬的專輯、歌手、曲風等信息
KDD Cup 2011年Track1優勝者:
冠軍:National Taiwan University (國立台灣大學)
亞軍:Commendo (Commendo Inc.)
季軍:InnerPeace (上海交通大學)
Track2任務:識別音樂是否被用戶評分
每個用戶提供6首候選的歌曲,其中3首為用戶已評分數據,另3首是該用戶未評分,但是出自用戶中整體評分較高的歌曲。歌曲的屬性信息(專輯、歌手、曲風等)也同樣提供。參賽者給出二分分類結果(0/1分類),並根據整體準確率計算最終排名
KDD Cup 2011年Track2優勝者:
冠軍:National Taiwan University (國立台灣大學)
亞軍:The Art of Lemon (中國科學院)
季軍:Commendo (Commendo Inc.)
2010屆
根據智慧型教學輔導系統和學生之間的互動日誌,來預測學生數學題的考試成績。該任務兼具實踐重要性和科學趣味性。競賽提供3個開發(develop)數據集和2個挑戰(challenge)數據集,每個數據集又分為訓練(train)部分和測試(test)部分。Challenge數據集的test部分被隱藏,參賽者需要開發一種學習模型,來準確預測這部分隱藏部分的成績
KDD Cup 2010年優勝者:
冠軍:National Taiwan University (國立台灣大學)
亞軍:Zhang and Su
季軍:BigChaos@KDD (Commendo Inc. and AT&T Labs)
2009屆
1、忠誠度:用戶切換運營商的可能性(Churn);
2、購買慾:購買新服務的可能性(Appetency);
3、增值性:客戶升級或追加購買高利潤產品的可能性(Up-selling)。
結果用AUC曲線來評估
KDD Cup 2009年優勝者:
Track1 (Fast Track):
冠軍:IBM Research (IBM研究院)
亞軍:ID Analytics Inc.
季軍:Old dogs with new tricks (美國西北大學David Slate教授, Peter W. Frey教授)
Track2 (Slow Track)
冠軍:University of Melbourne(墨爾本大學)
亞軍:Financial Engineering Group, Inc. Japan
季軍:National Taiwan University(國立台灣大學)
2008屆
醫學影像學的一個重要套用是乳腺癌的檢測。每年全球有46.5萬女性患者被乳腺癌奪走性命,但在1990年後通過引入X-射線進行檢測,能夠成功的在發病早期發現病兆並進行治療,成功降低了30%的疾病死亡率。傳統方式由放射學醫生來進行X相片的檢測,耗時耗力,而且為了提高檢測的準確率,往往需要多位醫生重複判讀圖像。
基於此背景,本屆賽題分為兩個Track,分別是設計計算機輔助檢測系統(Computer-Aided Detection,CAD),來判讀圖像是否含有乳腺癌病兆;以及設計二分分類器(binary classification),來決定某樣本是否需要醫生來進行重複判讀。