百度大數據實驗室

百度大數據實驗室

2014年8月18日,聯合國與百度宣布啟動戰略合作,共建大數據聯合實驗室。據悉,聯合國開發計畫署與百度大數據聯合實驗室的目標是探索利用大數據解決全球性問題的創新模式。現實驗室研究方向為大規模聯邦深度學習、自動化深度學習、大數據科學理論等。

基本介紹

  • 中文名:百度大數據實驗室
  • 外文名:Big Data Laboratory
  • 開創時間:2014年8月18日
  • 聯合方:聯合國與百度
  • 重點:創新項目的研發
簡介,研究成果,近期文章發表,工作重點,套用,整體情況,特色,官方回應,

簡介

2014年8月18日,聯合國與百度宣布啟動戰略合作,共建大數據聯合實驗室。據悉,聯合國開發計畫署與百度大數據聯合實驗室的目標是探索利用大數據解決全球性問題的創新模式。
百度大數據實驗室
百度大數據實驗室成立儀式
百度大數據實驗室的吳海山博士卻將研究重點放在了如何利用時空大數據解決社會、經濟等問題,具有強烈的跨界屬性和現實意義。“我們希望通過數據和技術,來為推動國家和社會的積極變化貢獻我們微薄的力量。”對於吳海山及其團隊而言,這是他們工作的意義所在。
2018年1月,國際著名人工智慧專家浣軍加盟大數據實驗室,擔任大數據實驗室主任。
2019年9月,世界級學者竇德景教授加盟百度研究院,擔任大數據實驗室主任。

研究成果

一、空城計:基於百度大數據的中國住宅空置區檢測
中國到底有哪些地灶歡市方即將淪為幾近荒廢的"鬼城"?房屋空置率需要達到多少才是"鬼城"?一直以來,關於“鬼城”並沒有清晰的定義,但這並不妨礙它成為一個經久不衰舉蜜民達的話題。
人們所見的各種"鬼城"排行榜,大致分為兩種。第一種用城區人口與建成區面積的比值對城市進行排序,第二種用照片列舉各地一個個大量停滯的工程、空置的房屋。第一種排行方式的衡量尺度過於寬泛,無法到達更細微的層面,人們難以憑此準確判斷在城市內部發生了什麼,第二種排行方式往往輕易地成為媒體上的奇觀,卻沒有足夠的說服力。生活在大數據的時代,關於空城應該可以有更精確的判別方式。
2015年,百度大數據實驗室在全國範圍內做了一項"空城計"的考察,選取了“空城”程度較為嚴重的20個區縣進行可視化處理,每25個100*100格網中,若人數最套棕多的6個格線人數相加不足300,則顯示為紅色。最終以500米*500米的格線呈現該項考察的結果,結果呈現方式如圖1所示:
百度大數據實驗室
圖1
研究結果表明,"空城"程度較為嚴重的地區包括:海景房、江南旅遊小城、新城與市中心、三線轉探婆雄型城市、過渡中的城市暫時狀態。該研究被《麻省理工科技評論》評為年度十佳。
二、AutoDL自動化深度學習算法與平台
百度大數據實驗室主持開發了基於PaddlePaddle的AutoDL自動化深度學習算法與平台,第一次實現生成模型的全自去漿簽動深度神經網路結構設計,該技術在2019年7月3日、4日召開的“Baidu Create 2019”百度 AI開發者大會上進行了展示。此外,AutoDL與百度信息流合作,最佳化深度學習推理引擎,節省系統資源約10%,服務數億用戶。
AutoDL 的理念,用一句話來概括,就是「開放普惠 AI」,讓廣大中小企業、初創企業和個人能夠更方便地套用大數據和深度學習。現在,這些能力主要掌握在大公司研發中心或者朵捉勸高校中間,並未向中小企業和初創企業輻射,原因在於大數據分析和深度學習對硬體、軟體以及工程技術人員的能力要求都比較高。AutoDL的主要實現方式是:構建一個深度學習系統,可以根據硬體條件,套用場景和模態情形,自動設計並訓練附和匹配目標任務需求的模型。我們的願景是把如今的「深度學習模檔催匪喇型藝術品」變成「深度學習模型工業產品」,讓深度學習的模型能夠像工廠的產品一樣被大規模地生產出來。
硬體、套用場景和模態的多樣化使 AI 算法的維度空間極為龐大。想要儘可能探索這一空間,就必然要從手工設計模型,轉向自動化生產模型,快速高效地產生能夠適配不同硬體、支持不同場景、適應不同模態的深度學習模型。為了實現這些需求,實驗室將 AutoDL 分成三個部分,分別是 AutoDL Design,AutoDL Transfer 和 AutoDL Edge。AutoDL Design 根據用戶提供的數據集從頭設計全新深度學習模型。AutoDL Transfer 支持小數據建模,利用百度擁有的大量數據預訓練好的模型遷移到用戶具體的套用場景上。AutoDL Edge 將深度學習模型部署到擁有不同算力、記憶體資源的硬體上,滿足不同的能源消耗、回響時間需求。是 AI 和 IoT 的結合,是深度學習和邊緣計算的完美結合。如圖2所示
百度大數據實驗室
圖2

近期文章發表

  1. Jiang Bian*, Haoyi Xiong*, Yanjie Fu, and Zhishan Guo. MP2SDA: Multi-Party Parallelized Sparse Discriminant Analysis. ACM Transactions on Knowledge Discovery from Data, 2020, ACM.
  2. Baoxin Zhao*, Haoyi Xiong*, Jiang Bian, Zhishan Guo, Cheng-zhong Xu, and Dejing Dou. COMO: Widening Deep Neural Networks with COnvolutional MaxOut. IEEE Transactions on Multimedia, accepted, 2020, IEEE.
  3. Tao Jin, Siyu Huang, Ming Chen, Yingming Li, Zhongfei Zhang,SBAT: Video Captioning with Sparse Boundary-Aware Transformer ,IJCAI, 2020
  4. Ji Liu, Carlyna Bondiombouy, Lei Mo, and Patrick Valduriez,Two-phase Scheduling for Efficient Vehicle Sharing,2020,IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS.
  5. Jie An, Haoyi Xiong, Jun Huan, and Jiebo Luo. Ultrafast Photorealistic Style Transfer via Neural Architecture Search, 2020, AAAI.
  6. Xiao Zhang, Dejing Dou and Ji Wu. Learning Conceptual-Contexual Embeddings for Medical Text, 2020, AAAI.
  7. Yingzhen Yang et al. FSNet: Compression of Deep Convolutional Neural Networks by Filter Summary, 2020, ICLR 2020.
  8. Huijuan Xu, Boyang Li, Vasili Ramanishka, Leonid Sigal, and Kate Saenko. Joint Event Detection and Description in Continuous Video Streams. The IEEE Winter Conference on Applications of Computer Vision (WACV), 2019.
  9. Guoyun Tu, Yanwei Fu, Boyang Li, Jiarui Gao, Yu-Gang Jiang, and Xiangyang Xue. A Multi-task Neural Approach for Emotion Attribution, Classification and Summarization. IEEE Transaction on Multimedia, 2019.
  10. Hannah Kim, Denys Katerenchuk, Daniel Billet, Jun Huan, Haesun Park, and Boyang Li. Understanding Actors and Evaluating Personae with Gaussian Embeddings, 2019, AAAI.
  11. Xingjian Li, Haoyi Xiong, Hanchao Wang, Yuxuan Rao, Liping Liu, and Jun Huan. DELTA: Deep Learning Transfer using Feature Map with Attention for Convolutional Neural Networks, 2019, ICLR.
  12. Haoyi Xiong, Kafeng Wang, Jiang Bian, Zhanxing Zhu, Cheng-zhong Xu, Zhishan Guo, and Jun Huan.SpHMC: Spectral Hamiltonian Monte Carlo, 2019, AAAI.
  13. Ruosi Wan, Haoyi Xiong, Xingjian Li, Zhanxing Zhu, and Jun Huan. Towards Making Deep Transfer Learning Never Hurt, 2019, ICDM.
  14. Zhi Feng, Haoyi Xiong, Chuanyuan Song, Sijia Yang, Baoxin Zhao, Licheng Wang, Zeyu Chen, Liping Liu, and Jun Huan. SecureGBM: Secure Multi-Party Gradient Boosting. IEEE International Conference on Big Data, 2019.
  15. Yongliang Yang, Zhishan Guo, Haoyi Xiong, Yixin Yin, and Donald C. Wunsch. Data-driven Robust Control of Discrete-Time Uncertain Linear Systems via Off-policy Reinforcement Learning. IEEE Transactions on Neural Networks and Learning Systems, 2019.
  16. Haoyi Xiong, Wei Cheng, Wenqing Hu, Jiang Bian, Zeyi Sun, and Zhishan Guo. DBSDA: Lowering the Bound of Misclassification Rate for Sparse Linear Discriminant Analysis via Model De-Biasing. IEEE Transactions on Neural Networks and Learning Systems, 2019.
  17. Ruosi Wan, Mingjun Zhong, Haoyi Xiong and Zhanxing Zhu. Neural Control Variates for Monte Carlo Variance Reduction, 2019, ECML/PKDD.
  18. Zhishan Guo, Kecheng Yang, Sudharsan Vaidhun, Samsil Arefin, Sajal K. Das, and Haoyi Xiong. Uniprocessor Mixed-Criticality Scheduling with Graceful Degradation by Completion Rate. The 39th IEEE Real-Time Systems Symposium, Nashville, United States, 2018, RTSS.
  19. Haoyi Xiong, Wei Cheng, Yanjie Fu, Jiang Bian, Wenqinghu and Zhishan Guo. De-biasing Covariance-Regularized Discriminant Analysis. the 27th International Joint Conference on Artificial Intelligence, Stockholm, Sweden, 2018, IJCAI.
  20. Xin Xu, Minghao Yin, Haoyi Xiong, Bo Jin, and Yanjie Fu. Dr. Right+: Embedding-based Adaptively-weighted Mixture Model for Finding Right Doctors with Healthcare Experience Data. Proceedings of the 18th IEEE International Conference on Data Mining, Singapore, 2018, ICDM.
  21. Ashikahmed Bhuiyan, Abusayeed Saifullah, Nan Guan, Haoyi Xiong, Zhishan Guo. Energy-Efficient Multi-Core Scheduling for Real-Time DAG Tasks. ACM Transactions on Embedded Computing Systems, 2018.

工作重點

聯合實驗室的重點將會聚焦在創新項目的研發,並利用百度的大數據技術,對行業數據進行分析加工及趨勢預測,以更加科學地為聯合國制定發展策略提供建議。現階段,實驗室的研究重點是環保、健康兩大領域,未來還將針對教育、災害管理等人類發展的眾多議題展開深入研究。
簡單來說,時空大數據(Spatial-temporal big data)就是典型的時間和空間有關聯的數據,具體到百度而言,主要是用戶的搜尋、定位和移動軌跡數據。

套用

關於隱私
如何在大數據時代,在給用戶提供更好的服務的同時,還保護好用戶的隱私是個十分重要的問題。百度大數據實驗室的一個研究課題就是如何對用戶移動網際網路的時空數據進行加密,來更好的保護用戶的隱私。
關於環保
該實驗室的第一個環保解決方案是“百度資源回收筒”輕套用測試版。用戶通過打開手機百度,拍攝家中舊電子產品,包括電視、電冰櫃等,系統會通過圖像技術自動識別和現實產品類別和回收價格等信息,用戶填寫信息後,將由回收廠商上門回收電子產品。

整體情況

關注大規模機器學習算法和套用、大數據預測分析和垂直行業套用探索、帶結構大數據的算法研究、智慧型系統的研究等方向。實驗室分為北京和美國矽谷兩個分部。實驗室採用承諾承包制,你選擇的項目你負責。我負責關鍵架構,關鍵技術攻關和方向性的問題,路不能走錯。我們的大規模機器學習算法、深度學習技術、人機對話技術在業界都處於領先水平。

特色

百度大數據重在需求。在洞察用戶各種各樣需求上,百度的數據更勝一籌。在打通人和服務的連線上,可以更好反映用戶的服務需求。

官方回應

百度財務長李昕晢表示:“技術創新正在成為大數據時代的發展關鍵字,成為推動全球公益的關鍵力量。我們期待百度的平台優勢、百度的大數據技術,能夠幫助聯合國推進千年發展計畫更有效落地,應對全球發展問題;我們也期待越來越多的組織和個人加入到我們的行列中來,為中國乃至整個世界的可持續發展貢獻力量。”
聯合國助理秘書長、聯合國開發計畫署亞太局局長徐浩良也對此次合作表示出熱切期望:“大數據需要強大的夥伴關係,我們為聯合實驗室的啟動感到衷心的喜悅。它證實了我們的信念,即創新思路才能帶來可喜改變。聯合國已經認識到大數據技術的巨大潛力,該技術能夠在可持續發展領域推進社會創新,我們也歡迎百度這樣的合作夥伴繼續發揮其技術專長。”
此次發布會還同步發布了大數據聯合實驗室的第一個環保解決方案——“百度資源回收筒”輕套用測試版。用戶打開最新版手機百度,直接拍攝家中的舊電視、舊電冰櫃等電子垃圾,系統就會通過圖像技術自動識別、顯示電子垃圾類別和回收價格等信息;消費者填寫相關信息後,就會有正規回收廠商上門進行
硬體、套用場景和模態的多樣化使 AI 算法的維度空間極為龐大。想要儘可能探索這一空間,就必然要從手工設計模型,轉向自動化生產模型,快速高效地產生能夠適配不同硬體、支持不同場景、適應不同模態的深度學習模型。為了實現這些需求,實驗室將 AutoDL 分成三個部分,分別是 AutoDL Design,AutoDL Transfer 和 AutoDL Edge。AutoDL Design 根據用戶提供的數據集從頭設計全新深度學習模型。AutoDL Transfer 支持小數據建模,利用百度擁有的大量數據預訓練好的模型遷移到用戶具體的套用場景上。AutoDL Edge 將深度學習模型部署到擁有不同算力、記憶體資源的硬體上,滿足不同的能源消耗、回響時間需求。是 AI 和 IoT 的結合,是深度學習和邊緣計算的完美結合。如圖2所示
百度大數據實驗室
圖2

近期文章發表

  1. Jiang Bian*, Haoyi Xiong*, Yanjie Fu, and Zhishan Guo. MP2SDA: Multi-Party Parallelized Sparse Discriminant Analysis. ACM Transactions on Knowledge Discovery from Data, 2020, ACM.
  2. Baoxin Zhao*, Haoyi Xiong*, Jiang Bian, Zhishan Guo, Cheng-zhong Xu, and Dejing Dou. COMO: Widening Deep Neural Networks with COnvolutional MaxOut. IEEE Transactions on Multimedia, accepted, 2020, IEEE.
  3. Tao Jin, Siyu Huang, Ming Chen, Yingming Li, Zhongfei Zhang,SBAT: Video Captioning with Sparse Boundary-Aware Transformer ,IJCAI, 2020
  4. Ji Liu, Carlyna Bondiombouy, Lei Mo, and Patrick Valduriez,Two-phase Scheduling for Efficient Vehicle Sharing,2020,IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS.
  5. Jie An, Haoyi Xiong, Jun Huan, and Jiebo Luo. Ultrafast Photorealistic Style Transfer via Neural Architecture Search, 2020, AAAI.
  6. Xiao Zhang, Dejing Dou and Ji Wu. Learning Conceptual-Contexual Embeddings for Medical Text, 2020, AAAI.
  7. Yingzhen Yang et al. FSNet: Compression of Deep Convolutional Neural Networks by Filter Summary, 2020, ICLR 2020.
  8. Huijuan Xu, Boyang Li, Vasili Ramanishka, Leonid Sigal, and Kate Saenko. Joint Event Detection and Description in Continuous Video Streams. The IEEE Winter Conference on Applications of Computer Vision (WACV), 2019.
  9. Guoyun Tu, Yanwei Fu, Boyang Li, Jiarui Gao, Yu-Gang Jiang, and Xiangyang Xue. A Multi-task Neural Approach for Emotion Attribution, Classification and Summarization. IEEE Transaction on Multimedia, 2019.
  10. Hannah Kim, Denys Katerenchuk, Daniel Billet, Jun Huan, Haesun Park, and Boyang Li. Understanding Actors and Evaluating Personae with Gaussian Embeddings, 2019, AAAI.
  11. Xingjian Li, Haoyi Xiong, Hanchao Wang, Yuxuan Rao, Liping Liu, and Jun Huan. DELTA: Deep Learning Transfer using Feature Map with Attention for Convolutional Neural Networks, 2019, ICLR.
  12. Haoyi Xiong, Kafeng Wang, Jiang Bian, Zhanxing Zhu, Cheng-zhong Xu, Zhishan Guo, and Jun Huan.SpHMC: Spectral Hamiltonian Monte Carlo, 2019, AAAI.
  13. Ruosi Wan, Haoyi Xiong, Xingjian Li, Zhanxing Zhu, and Jun Huan. Towards Making Deep Transfer Learning Never Hurt, 2019, ICDM.
  14. Zhi Feng, Haoyi Xiong, Chuanyuan Song, Sijia Yang, Baoxin Zhao, Licheng Wang, Zeyu Chen, Liping Liu, and Jun Huan. SecureGBM: Secure Multi-Party Gradient Boosting. IEEE International Conference on Big Data, 2019.
  15. Yongliang Yang, Zhishan Guo, Haoyi Xiong, Yixin Yin, and Donald C. Wunsch. Data-driven Robust Control of Discrete-Time Uncertain Linear Systems via Off-policy Reinforcement Learning. IEEE Transactions on Neural Networks and Learning Systems, 2019.
  16. Haoyi Xiong, Wei Cheng, Wenqing Hu, Jiang Bian, Zeyi Sun, and Zhishan Guo. DBSDA: Lowering the Bound of Misclassification Rate for Sparse Linear Discriminant Analysis via Model De-Biasing. IEEE Transactions on Neural Networks and Learning Systems, 2019.
  17. Ruosi Wan, Mingjun Zhong, Haoyi Xiong and Zhanxing Zhu. Neural Control Variates for Monte Carlo Variance Reduction, 2019, ECML/PKDD.
  18. Zhishan Guo, Kecheng Yang, Sudharsan Vaidhun, Samsil Arefin, Sajal K. Das, and Haoyi Xiong. Uniprocessor Mixed-Criticality Scheduling with Graceful Degradation by Completion Rate. The 39th IEEE Real-Time Systems Symposium, Nashville, United States, 2018, RTSS.
  19. Haoyi Xiong, Wei Cheng, Yanjie Fu, Jiang Bian, Wenqinghu and Zhishan Guo. De-biasing Covariance-Regularized Discriminant Analysis. the 27th International Joint Conference on Artificial Intelligence, Stockholm, Sweden, 2018, IJCAI.
  20. Xin Xu, Minghao Yin, Haoyi Xiong, Bo Jin, and Yanjie Fu. Dr. Right+: Embedding-based Adaptively-weighted Mixture Model for Finding Right Doctors with Healthcare Experience Data. Proceedings of the 18th IEEE International Conference on Data Mining, Singapore, 2018, ICDM.
  21. Ashikahmed Bhuiyan, Abusayeed Saifullah, Nan Guan, Haoyi Xiong, Zhishan Guo. Energy-Efficient Multi-Core Scheduling for Real-Time DAG Tasks. ACM Transactions on Embedded Computing Systems, 2018.

工作重點

聯合實驗室的重點將會聚焦在創新項目的研發,並利用百度的大數據技術,對行業數據進行分析加工及趨勢預測,以更加科學地為聯合國制定發展策略提供建議。現階段,實驗室的研究重點是環保、健康兩大領域,未來還將針對教育、災害管理等人類發展的眾多議題展開深入研究。
簡單來說,時空大數據(Spatial-temporal big data)就是典型的時間和空間有關聯的數據,具體到百度而言,主要是用戶的搜尋、定位和移動軌跡數據。

套用

關於隱私
如何在大數據時代,在給用戶提供更好的服務的同時,還保護好用戶的隱私是個十分重要的問題。百度大數據實驗室的一個研究課題就是如何對用戶移動網際網路的時空數據進行加密,來更好的保護用戶的隱私。
關於環保
該實驗室的第一個環保解決方案是“百度資源回收筒”輕套用測試版。用戶通過打開手機百度,拍攝家中舊電子產品,包括電視、電冰櫃等,系統會通過圖像技術自動識別和現實產品類別和回收價格等信息,用戶填寫信息後,將由回收廠商上門回收電子產品。

整體情況

關注大規模機器學習算法和套用、大數據預測分析和垂直行業套用探索、帶結構大數據的算法研究、智慧型系統的研究等方向。實驗室分為北京和美國矽谷兩個分部。實驗室採用承諾承包制,你選擇的項目你負責。我負責關鍵架構,關鍵技術攻關和方向性的問題,路不能走錯。我們的大規模機器學習算法、深度學習技術、人機對話技術在業界都處於領先水平。

特色

百度大數據重在需求。在洞察用戶各種各樣需求上,百度的數據更勝一籌。在打通人和服務的連線上,可以更好反映用戶的服務需求。

官方回應

百度財務長李昕晢表示:“技術創新正在成為大數據時代的發展關鍵字,成為推動全球公益的關鍵力量。我們期待百度的平台優勢、百度的大數據技術,能夠幫助聯合國推進千年發展計畫更有效落地,應對全球發展問題;我們也期待越來越多的組織和個人加入到我們的行列中來,為中國乃至整個世界的可持續發展貢獻力量。”
聯合國助理秘書長、聯合國開發計畫署亞太局局長徐浩良也對此次合作表示出熱切期望:“大數據需要強大的夥伴關係,我們為聯合實驗室的啟動感到衷心的喜悅。它證實了我們的信念,即創新思路才能帶來可喜改變。聯合國已經認識到大數據技術的巨大潛力,該技術能夠在可持續發展領域推進社會創新,我們也歡迎百度這樣的合作夥伴繼續發揮其技術專長。”
此次發布會還同步發布了大數據聯合實驗室的第一個環保解決方案——“百度資源回收筒”輕套用測試版。用戶打開最新版手機百度,直接拍攝家中的舊電視、舊電冰櫃等電子垃圾,系統就會通過圖像技術自動識別、顯示電子垃圾類別和回收價格等信息;消費者填寫相關信息後,就會有正規回收廠商上門進行
check!

熱門詞條

聯絡我們