上海市數據科學重點實驗室(Shanghai Key Laboratory of Data Science)是數據科學領域首個政府支持的重點實驗室,2013年9月6日由上海市科委批准籌建。實驗室總體目標是發展成為國際數據科學研究的重要研究場所和數據科學人才培養基地,引領數據科學研究。
實驗室主要依託復旦大學計算機科學技術學院運行,是上海“推進大數據研究和發展三年行動計畫” 的重要組成部分,其主要研究方向是數據科學基礎理論、科學研究的數據方法、數據界探索和大數據技術套用等,還包括數據科學學科體系建設和人才培養。已聘請鄔江興院士、何友院士、陳左寧院士等國內從事計算機和信息技術研究和數據科學研究的相關專家組成學術委員會,指導實驗室的科研工作。
2017年上海市重點實驗室評估結果為良好。
基本介紹
- 中文名:上海市數據科學重點實驗室
- 外文名:Shanghai Key Laboratory of Data Science
- 隸屬機構:復旦大學
- 成立時間:2015年
- 實驗室主任:朱揚勇
創立背景,實驗室簡介,學術委員會,研究方向,數據科學基礎理論,數據界探索,數據技術及其套用,科研成果,學術論文,出版著作,承擔項目,國家重點基礎研究發展計畫(973計畫),國家高技術研究發展計畫(863計畫),國家重點研發計畫,國家科技重大專項,國家科技支撐計畫,國家自然科學基金,上海科學技術委員會項目,
創立背景
為配合上海市大數據三年行動計畫的實施,上海市科委在全市高校遴選資助設立“數據科學重點實驗室”,復旦大學相關科研團隊得到評估肯定。2013年9月6日由上海市科委正式下文批准籌建,總體目標是發展成為國際數據科學研究的重要研究場所和數據科學人才培養基地,引領數據科學研究。實驗室主要依託復旦大學計算機科學技術學院運行。
在揭牌儀式上,實驗室學術委員會主任鄔江興院士指出:“上海市科委和復旦大學的領導給大家創造一個機會,以數據科學作為研究重點和研究特色,設立重點實驗室,在全國走在前列,甚至可以說,在全世界也是走在前列。相信在上海市科委和復旦大學的強有力的支持下,上海市數據科學重點實驗室的工作會做得更好。”上海市科委基地處處長過浩敏發表了講話,指出:“上海市數據科學重點實驗室的揭牌和第一屆第一次學術委員會會議的召開標誌著上海依託復旦大學建設的實驗室的實質性啟動,也標誌著上海服務大數據的戰略研發平台正式落地。希望實驗室能夠立足中國、面向世界,開放式地開展工作。充分借鑑國際知名機構的運作經驗,積極探索科學運行機制和管理經驗,率先取得研究成果,實現技術跨越發展;率先建成數據科學技術創新人才的高地;率先建成一流科研研究機構,在國家新一輪創新發展的戰略上發揮作用。最大限度地集結資源形成合力,提高我們創新的效率,在國際數據科學領域能夠取得領先的成果,形成國際有影響力的國際知名的數據科學實驗室,成為上海科技發展領頭兵。”
實驗室簡介
上海市數據科學重點實驗室(Shanghai Key Laboratory of Data Science)是數據科學領域首個政府支持的重點實驗室,2013年9月6日由上海市科學技術委員會批准籌建。實驗室總體目標是發展成為國際數據科學研究的重要研究場所和數據科學人才培養基地,引領數據科學研究。
實驗室前身是復旦大學數據科學研究中心,成立於2007年,是國內首個致力於數據科學理論、方法和技術研究的機構,發表了一批高質量的論文。實驗室也重視技術套用,涉及金融、智慧型交通、醫療健康、智慧城市等多領域的大數據分析。
作為數據科學的倡導者,2009年發表了題為“Data Explosion, Data Nature and Dataology”的數據科學研究論文,並出版了第一本數據科學專著《數據學》(《Dataology and Data Science》),嘗試對數據科學進行了系統化的探討和描述,包括:定義數據界,指出數據界中人類面臨的主要問題,提出了數據界的一些科學問題:數據界有多大、數據以什麼方式增長、數據如何傳播、數據的真實性如何判斷、數據增長對人類的影響等;給出了數據科學的定義及其研究內容,數據科學與自然科學和社會科學之間的關係。並於2013年承擔了國內首個數據科學理論研究課題——上海市科委“數據科學基礎理論和學科體系研究”課題。在國際數據科學學術交流促進中具有重要的地位,創辦了“International Workshop on Dataology and Data Science”和“International conference on Data Science”。
實驗室作為上海大數據戰略的技術研發和支持中心,經濟社會發展的重要諮詢機構,承擔了《上海推進大數據研究與發展三年行動計畫(2013-2015年)》、上海市科委《大數據與雲計算重大創新工程》、《大數據與雲計算十三五規劃》、“大數據試驗場”十三五戰略規劃、上海大數據試驗場研發與轉化功能型平台建設方案等編制工作,參與了科技部《大數據重大工程建議》、《面向2030重大科技項目:大數據重大項目實施方案》的編制工作、策劃編寫了國內首套《大數據技術與套用叢書》(列入國家十二五、十三五重點圖書)。編著的中國工程院諮詢研究報告《長三角大數據產業發展戰略研究報告》上報國務院辦公廳、上海市政府,為政府決策提供依據。原創提出的大數據試驗場被列入18個上海市科創中心建設研發與轉化功能型平台之一。大數據試驗場的建設和使用,將在上海和國家大數據戰略中發揮重要作用。作為副理事長單位,獲批“大數據協同安全國家工程實驗室”;作為副主任單位獲批“大數據流通與交易技術國家工程實驗室”。
學術委員會
研究方向
數據科學基礎理論
研究數據相似性理論
數據相似性是衡量數據對象之間的關係、研究數據和分析數據的基礎。數據相似性理論研究包括:相似性的定義、相似性計算、相似性函式的性質及分類、相似性函式評估準則等。相似性理論的建立將解決數據挖掘和大數據分析技術中的核心問題,使得數據挖掘的適應性和可伸縮性大幅提高,並將影響數據領域的技術發展。
研究數據測度和數據代數
數據度量和計算是數據科學中的另一個基礎問題。一個正確完備的數據計算理論是數據科學的基礎之一,這需要研究和建立針對不同類型數據的代數體系。關於數據代數,目前已經有“關係代數”為關係型數據的計算提供理論依據。對於非關係型數據,需要定義“由數據集構成的集合上的度量方法和運算”,形成一定論域上的數據代數,包括:研究和定義數據集;定義數據集上的測度;定義“單位元”(“零元”、“麼元”)、數據運算(“加法”、“乘法”等),分析數據集的代數結構特性。如同關係代數為關係型數據的計算提供理論依據一樣,所建立的數據代數將為非關係型數據的計算提供理論依據,在複雜數據對象處理的技術上取得突破。
探索數據科學的研究方法
探索數據科學的研究方法
數據勘探、數據實驗、數據感知化是目前數據科學所需要研究的一些基本方法。數據勘探是勘探數據集的總體特性和結構,數據勘探方法研究包括數據集價值判斷、數據集分析方法選擇和數據集可訪問性分析。數據實驗用於驗證自然界和數據界(Datanature)的假說和規律,用於模擬人文與社會行為,也可以用於數據規律的發現,需要研究數據觀測的方法和工具、研究數據實驗的方法和工具、研究實驗評價和可重複性等問題。數據感知化是將數據轉化為通過視覺、聽覺、觸覺、嗅覺、味覺等方式可直接感知的形式。
數據界探索
數據基本規律研究
當人們將自然界和人類社會的科學研究成果以數據的形式存儲在網路空間時,對數據界的探索則是更高級的科學發現。數據界的大小、數據的增長方式、數據真實性、數據增長對人類社會的影響等等,是探索數據界的基本研究內容。
數據分類
數據分類是數據界探索的基礎之一,包括:研究分類標準,以達成在數據認識概念上的共識;建立數據本體,對整個數據界定義數據本體,在各元數據之間建立聯繫,即建立多種關於數據的本體(稱為數據百科全書),並建立這些本體概念的相似關係和聯繫,為數據的訪問和理解提供權威解釋;對已有的數據集根據分類標準和數據本體進行分類,形成人類認識數據界的基本類別。
數據界安全
研究網路空間的數據安全、數據主權問題;將數據科學的理論和方法套用于軍隊信息化建設,研究軍事數據學,將密碼研究方法等用於數據科學的研究,以豐富和發展數據科學的研究內容。
數據技術及其套用
科學研究的數據方法
目前,幾乎所有的科學研究都使用了計算機,在計算機系統中都存放有巨量的數據,科學研究面臨方法的變革和創新,需要研究基於數據和數據技術的科學研究方法,稱為科學研究的數據方法。科學研究方法從之前的“科學假設”→“科學實驗”→“實驗結果分析”→“證偽假設”→“科學假設”,轉變為“科學假設”→“數據獲取與整合形成數據資源”→“數據挖掘與分析”→“數據結果分析”→“科學實驗”→“實驗結果分析”→“證偽假設”→“科學假設”,從而利用數據提高科學研究的效果和效率。
領域數據學
現代科學研究需要多種研究方法的融合,例如,生物實驗方法和生物計算方法的融合,產生了生物信息學。如何將數據方法融合到具體領域的科學研究中是一個重要課題,需要探索數據密集型科學研究的共性問題,並在基礎較好的學科中開展實踐。除一般的理論和方法,對數據內容的很多研究將由各領域的科學家來進行,發展專門的理論、技術和方法,從而形成專門領域的數據學,例如:腦數據學、行為數據學、生物數據學、氣象數據學、金融數據學、地理數據學等等。
大數據複雜性
大數據的複雜性是制約大數據處理效率和效果的關鍵要素之一,也是大數據處理成為一個技術問題的重要因素。大數據複雜性分析需要從系統層面,運用系統科學的基礎理論與方法探索其機理、尋找基本方法體系(包括:研究數據集複雜性的建模理論、處理過程複雜性的約簡方法、知識體系複雜性的表示理論等),建立大數據處理、分析的過程模型。
大數據挖掘技術
通過分析大數據的複雜性以及大數據環境下產生的新數據挖掘需求,歸納、抽象和定義新型數據挖掘任務(例如數據網路挖掘、特異群組挖掘、圖挖掘等),提出相應的數據挖掘度量(例如特異度度量、興趣度度量等),建立針對複雜數據的新型挖掘模型,最佳化數據挖掘算法等,在形式化定義的基礎上形成新型數據挖掘理論體系和方法框架。
大數據套用
面向上海經濟建設和社會發展重大需求,開展科技成果轉化和產學研結合工作,研究數據技術在上海智慧城市建設中的套用,包括智慧交通、智慧醫療、智慧金融等各領域的套用,例如個性化線路推薦、數字醫院、移動醫療、區域醫療建設、輿情與市場行情異常波動分析等。
科研成果
學術論文
1.Yun Xiong, Yizhou Zhang, Xiangnan Kong, Yangyong Zhu. NetCycle+: A Framework for Collective Evolution Inference in Dynamic Heterogeneous Networks[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(8), 1547-1560.(CCF A類)
2.Zhang Y, Xiong Y, Kong X, et al. Deep Collective Classification in Heterogeneous Information Networks [C]. WWW, 2018: 399-408.(CCF A類)
3.朱揚勇,熊贇,廖志成,等.數據自治開放模式[J].大數據,2018,4(2),3-14.
4.沈逸,姚旭,朱揚勇.數據自治開放與治理模式創新[J].大數據,2018,4(2),14-20.
5.熊贇,朱揚勇.面向數據自治開放的數據盒模型[J].大數據,2018,4(2),21-30.
6.吳毅堅,陳士壯,葛佳麗,等.數據自治開放的軟體開發和運行環境[J].大數據,2018,4(2),31-41.
7.王智慧,周旭晨,朱雲.數據自治開放模式下的隱私保護[J].大數據,2018,4(2),42-49.
8.黃霖,黎源,汪星辰,等.數據自治開放的加密技術挑戰[J].大數據,2018,4(2),50-62.
9.陳德華,潘喬,王梅,等.數據自治開放套用平台設計與實踐[J].大數據,2018,4(2),63-71.
10.Jiang Q, Peng X, Wang H, et al. Understanding systematic and collaborative code changes by mining evolutionary trajectory patterns[J]. Journal of Software: Evolution & Process, 2017, 29(3): 1840-1861.(CCF B類)
11.Lin Y, Meng G, Xue Y, et al. Mining implicit design templates for actionable code reuse[C]. ASE, 2017:394-404.(CCF A類)
12.Qian W, Peng X, Yu Y, et al.O2O service composition with social collaboration [C]. ASE, 2017: 451-461.(CCF A類)
13.Sun G, Xiong Y, Zhu Y. How the passengers flow in complex metro networks ? [C]. International Conference on Scientific and Statistical Database Management (SSDBM). 2017:23.(CCF C類)
14.Wang J, Peng X, Xing Z, et al. Contextual Recommendation of Relevant Program Elements in an Interactive Feature Location Process[C]. SCAM, 2017: 61-70.(CCF C類)
15.Wang X, Zhang W, Wang Z, et al. Eunomia: Scaling concurrent search trees under contention using HTM[C]. ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming (PPoPP), 2017:385-399.(CCF A類)
16.Wei H, Yang C, Yu Q. Efficient graph-based search for object detection[J]. Information Sciences, 2017, 385-386:395-414.(CCF B類)
17.Yu Q, Wei H, Yang C. Local part chamfer matching for shape-based object detection[J]. Pattern Recognition, 2017, 65:82-96.(CCF B類)
18.Zhang W, Ji X, Song B, et al. VarCatcher: A framework for tackling performance variability of parallel workloads on multi-core[J]. IEEE Transactions on Parallel & Distributed Systems, 2017, 28(4):1215-1228.(CCF A類)
19.Zhang Y, Xiong Y, Liu X, et al. Meta-path graphical lasso for learning heterogeneous connectivities[C]. SIAM International Conference on Data Mining (SDM), 2017: .642-650.(CCF B類)
20.Zhang Y, Xiong Y, Kong X, et al. Learning Node Embeddings in Interaction Graphs[C]// ACM on Conference on Information and Knowledge Management. ACM, 2017:397-406.(CCF B類)
21.Zheng J, Peng X, Yang J, et al. CollaDroid: Automatic augmentation of android application with lightweight interactive collaboration[C]. ACM Conference on Computer Supported Cooperative Work and Social Computing (CSCW), 2017:2462-2474.(CCF A類)
出版著作
《旖旎數據——100分鐘讀懂大數據》
《大數據技術與套用叢書》
《大數據資源》
《大數據挖掘》
《數據學》
《生物數據整合和挖掘》
《大數據質量》
《城市道路交通狀態指數研究(大數據技術與套用)》
《智慧型化的流程管理》
《EEG Signal Analysis and Classification:Techniques and Applications》
《軟體工程:方法與實踐》
承擔項目
國家重點基礎研究發展計畫(973計畫)
移動套用惡意行為檢測控制的基礎理論與關鍵技術
非結構數據分析模型和算法的大規模實現
國家高技術研究發展計畫(863計畫)
記憶體計算系統軟體研究與開發
雲端和終端資源自適應協同與調度平台
以人為中心的智慧城市公共服務支撐技術與系統
面向多核/眾核系統的運行時支持技術與系統
網構化軟體生產、構造和復用技術與工具
建立基於臨床醫療信息共享的醫療決策支持系統
國家重點研發計畫
SKA科學數據處理關鍵技術研究
基於多源知識融合的軟體構造智慧型化方法與支撐環境
高端製造大數據管理關鍵技術研究與系統研製
國家科技重大專項
極地海洋環境監測數據管理與共享系統開發
民用飛機技術出版物全壽命管理技術研究與系統開發
雲存儲與雲備份功能開發與集成
國家科技支撐計畫
證券業雲平台研發與運營
國家自然科學基金
基於移動大數據的特異群組挖掘與行為預測
面向老年人健康的非干預式感知與持續計算研究
非獨立同分布數據的最優統計推斷
基於時間序列挖掘的階段式異常預測研究
大規模監測型時間序列歷史數據的查詢和分析關鍵技術研究
大數據環境下的證券市場操縱行為發現機理
面向大數據的數據一致性管理研究
大數據環境下的商務行為機理
融合文本內容與結構信息的話題分析方法研究
基於知識圖譜的普適融合理論與關鍵技術研究
基於大數據的類人智慧型關鍵技術與系統
基於區域醫療與健康大數據處理分析與套用研究
基於複雜性密碼學理論及套用若干問題研究
面向大規模知識圖譜的查詢處理關鍵技術研究
安卓套用開發中模式驅動的代碼推薦與完成技術研究
大數據環境下的管理決策創新研究
基於MapReduce的快速查詢和分析關鍵技術的研究
面向雲計算多媒體套用的體系結構研究
基於數值方法的大腦神經迴路與功能集團結構研究
圖像語義自動文本描述技術研究
基於模型的自治雲計算軟體關鍵技術研究
密碼協定和算法若干問題研究:理論及套用
支持高層決策和按需服務的軟體維護技術研究
特異群組挖掘算法研究
基於實體網路的查詢處理及其套用技術
移動套用軟體中用戶私有敏感數據的保護方法研究
上海科學技術委員會項目
音視頻樣本庫自動化標註關鍵技術研究
大數據試驗場數據挖掘算法庫開發
數據開放共享的理論與方法
政務知識庫構建及面向市民服務的套用關鍵技術研究
軌道交通大數據服務平台關鍵技術研究與示範
數據的自適應數學結構、表示及高效算法