2015年1月,百度松果計畫正式啟動,百度希望聯合各大高校的專家學者通過校企合作的方式開展合作:首先,百度公司將在實際工作中有價值的技術問題對外發布,圍繞技術課題接收來自學術界的解決方案;其次,對優秀研究方案給予資金支持,同時將邀請優秀研究團隊派遣研究生到百度進行訪問研究。
松果計畫取名緣由:松樹長青,松果是松樹的果實,成熟后里面有松子,寓意百度與學校合作有價值的項目,收穫累累碩果。
基本介紹
- 中文名:百度松果計畫
- 發布時間:2015年1月
- 性質:校企合作項目
- 所屬:百度公司
- 面向人群:學術界的計算領域專家
背景,計畫簡介,研究課題,參與方式,往屆課題,往屆成果,百度第一屆主題研究,百度第二屆主題研究,百度第三屆主題研究,活動公告,
背景
社會的前進,很大程度上依賴於科學技術、科學研究的發展。而學術界的專家學者,鮮有機會接觸到網際網路企業所擁有的真實的海量數據、計算資源集成平台,這在一定程度上阻礙了科研的進步。為了幫助青年科學家獲得更多數據資源、計算資源及有效的科研成果轉化渠道,使學術界專家學者將其研究成果真正套用到產品中,服務於億萬網民。百度從2011年起,正式提出開放研究計畫。
計畫簡介
百度開放研究計畫,從2011年起至今已經成功舉辦三屆。該計畫面向學術界發布企業真實的技術挑戰,提供真實的數據資源、計算資源,邀請專家學者一起基於自身科研積累攻克難題。不僅協助計算機領域的專家學者有機會了解工業界真實的技術問題真實的套用環境,還能通過學界在計算機領域的精深研究,幫助百度技術部門解決技術難題,取得一舉兩得的效果。
2015年,百度開放研究計畫有了自己的名字“百度松果計畫”,對外發布。關於松果計畫,百度的目標是:通過與學術界合作,開展有價值研究,產生更多有影響力的技術成果,推動科技進步與社會發展。
研究課題
“松果計畫”繼續秉承“讓最聰明的頭腦挑戰最有價值的網際網路技術問題”的理念,將不定期在百度開放研究社區松果計畫板塊發布信息檢索類、自然語言處理類、語音識別類、圖像處理類、計算廣告學類、大數據分析和可視化類、測試分析類、體系結構類等領域的技術課題。
詳細技術課題百度將不定時發布於百度開放研究社區,希望有參與意向的學者關注。
參與方式
1. 技術課題在百度開放研究社區——百度松果計畫——課題發布 板塊上發布後,學者們可以考慮該課題是否與自身研究領域匹配、並確定是否有參與意向。
2. 有參與意向的學者,請在規定時間內,在百度松果計畫——資料下載板塊,下載《百度松果計畫——方案書模板》,按要求填寫後線上提交。
3. 就某個技術課題從學術界徵集的方案,將在百度內部進行比較和篩選,松果計畫的負責人也將及時向參與學者進行反饋。被選中的合作方案,將在百度松果計畫——活動公告 板塊上公布。
往屆課題
2014年開放研究發布包括信息檢索類、自然語言處理類、語音識別類、計算廣告學類、大數據分析和可視化類、測試分析類、體系結構類、個性化推薦類總計8大類技術課題。詳情如下:
- 信息檢索類問題
GBDT(Gradient Boosting Decision Tree)的並行化訓練研究
基於上下文信息的人物類圖片EPR(Entity,Property,Relation)標註
圖片摘要生成技術研究
網際網路圖文資源質量判定研究
本體及知件技術構建醫療領域知識庫和套用研究
- 自然語言處理類
基於網頁搜尋的知識挖掘算法研究
知識類網頁內容質量判定算法研究
基於知識圖譜的全網網頁知識標註
詞語上下文表示及語境建模研究
面向消費決策的情感分析技術研究
基於SNS(Social Networking Services)的事件觀點挖掘研究
面向計算廣告的網頁層次多分模型研究
實體類答案深度問答技術研究
基於機器學習的UGC產品反作弊技術研究
- 語音識別類
基於DNN和Bottleneck 特徵的語音識別系統
深度DNN建模的抗噪技術
- 計算廣告學類
基於因子模型的CTR(Click-Through Rate)預估新算法
線上廣告的多渠道歸因建模(multi-touch/channel attribution model)
在實時競價系統(RTB)中的廣告需求方平台DSP(Demand Supply Platform)客群劃分和出價策略 的研究
基於分散式圖模型的點擊預測模型
大規模異構競爭網路中傳播影響最大化研究
廣告點擊預測和流量促銷的研究
- 大數據分析和可視化類
數據分析和數據可視化研究
社區用戶關係及機器流量識別的研究
大規模UGC知識可視化研究
基於機器學習的圖書版式智慧型識別和轉化研究
- 測試分析類課題
軟體缺陷自動分類和管理技術研究
MySQL的性能缺陷發掘、建模及對比研究
有效提升MySQL性能的數據壓縮算法研究
- 體系結構類
包含存儲、I/0、計算在內的數據中心體系結構研究
基於PaaS的輕套用監控技術研究
搜尋引擎cache預取算法最佳化研究
- 個性化推薦類
不同數據稀疏度下協同算法比較研究
面向推薦的重大突發新聞挖掘算法研究
高質量推薦理由自動挖掘的研究
用戶興趣挖掘及問題的個性化推薦算法研究
往屆成果
百度第一屆主題研究
首屆“機器學習與數據挖掘”主題研究中,百度與全國各大高校和學術機構合作,成功開展了19個創新性研究項目。其中10個項目研究成果套用或部分套用到百度相關的產品中,兩篇論文被ACM SIGKDD 、AAAI兩個國際頂級學術會議錄用,通過主題研究項目和技術部門和同濟大學李國正研究員等老師開展多次技術交流。
提案研究題目 | 專家姓名 | 合作院校 |
主動學習結合半監督學習在大規模網頁/網站分類中的套用研究 | 唐珂 | 中國科學技術大學 |
基於Web數據的結構化語義關係挖掘 | 楊沐昀 | 哈爾濱工業大學 |
基於主題模型的事件-情感互動關係研究及事件演化分析 | 王厚峰 | 北京大學 |
基於協同過濾的文檔話題提取與建模 | 金城 | 復旦大學 |
高性能信息推薦算法設計 | 任飛亮 | 東北大學 |
面向複雜網際網路數據的安全半監督學習和主動學習方法的研究 | 詹德川 | 南京大學 |
圖像和文本數據的多標記學習研究 | 俞揚 | 南京大學 |
社交商務中基於用戶評論的廣告模型研究 | 鄭小林 | 浙江大學 |
Web頁面的分面分類模型與算法 | 鄭慶華 | 西安交通大學 |
針對大規模稀疏、強臨時性數據的個性化推薦系統算法設計 | 尤鳴宇 | 同濟大學 |
海量數據主題建模的快速學習算法研究與套用 | 曾嘉 | 蘇州大學 |
基於海量文本的主題自動分割技術研究 | 謝磊 | 西北工業大學 |
基於協同過濾的廣告關鍵字推薦算法 | 俞勇 | 上海交大 |
大規模社會網路環境下的情感挖掘研究 | 唐傑 | 清華大學 |
融合規則和機器學習的雙語術語對自動抽取研究 | 黃德根 | 大連理工大學 |
一種適用於Naïve Bayes的大規模線上特徵選擇與組合方法 | 李國正 | 同濟大學 |
基於規則與機器學習融合的用戶搜尋行為建模及其原型系統 | 劉偉 | 中國科學院 |
基於用戶領域知識的網路數據動力分析研究 | 趙季中 | 西安交通大學 |
大規模網路文本複製件檢測系統研究 | 鮑軍鵬 | 西安交通大學 |
百度第二屆主題研究
第二屆主題研究項目,百度與各高校共合作15個研究項目。幫助百度網頁搜尋測試部、個性化推薦部門、網際網路數據部、商務搜尋部、多媒體部、自然語言處理部等部門解決了多個技術難題。
提案研究題目 | 專家姓名 | 合作院校 |
如何基於用戶的興趣和能力分析進行更好眾測配 | 宋恆傑 | 南洋理工大學 |
機器學習在搜尋引擎效果測試和改進中的套用 | 張建忠 | 南開大學 |
多資源的摘要信息生成 | 黃德根 | 大連理工大學 |
弱標記信息下的大規模圖像標註研究 | 俞揚 | 南京大學 |
如何讓用戶直接獲取想要的查詢內容而不是一個個連結 | 蘭曼 | 華東師範大學 |
深層神經網路在語音識別中的套用 | 謝磊 | 西北工業大學 |
基於搜尋日誌的數據融合方法研究 | 曹海龍 | 哈爾濱工業大學 |
演化博弈在搜尋廣告中的研究 | 尤鳴宇 | 同濟大學 |
可擴展的Factorization Machine模型研究 | 鄭小林 | 浙江大學 |
基於主題模型的自然語言處理眾包平台任務分配研究 | 楊沐昀 | 哈爾濱工業大學 |
面向大規模多源數據融合的多模態機器學習技術研究 | 詹德川 | 南京大學 |
基於session的query變換數據挖掘研究 | 張婭 | 上海交通大學 |
如何對於大規模機器學習模型去做多來源數據融合 | 高陽 | 南京大學 |
基於Deep Learning的用戶意圖建模方法 | 李國正 | 同濟大學 |
基於本體映射的基於本體映射的多源數據融合與遷移學習 | 唐傑 | 清華大學 |
百度第三屆主題研究
第三屆主題研究項目——“挑戰最有價值的網際網路技術問題”,百度與各高校達成33個合作項目。共產出26項技術成果,並套用於百度產品中;12名訪問研究生“直通”進入百度;6篇論文被ACL、IEEE、ICDM、WWW等國際頂級會議及期刊錄用;4項專利發明布局未來。
提案研究項目 | 專家姓名 | 合作高校 |
基於上下文信息的人物類圖片EPR標註 | 朱建科 | 浙江大學 |
開放領域實體搜尋研究 | 文繼榮 | 中國人民大學 |
基於知識圖譜的自然語言問答技術研究 | 肖仰華 | 復旦大學 |
基於知識圖譜的全網網頁知識標註 | 黃書劍 | 南京大學 |
詞語上下文表示及語境建模研究 | 侯越先 | 天津大學 |
網路數據的質量分析與內容挖掘 | 吳 偶 | 中國科學院自動化研究所 |
基於深度學習的圖片摘要生成 | 朱文武 | 清華大學 |
基於用戶反饋的機器翻譯用戶滿意度評價方法 | 楊沐昀 | 哈爾濱工業大學 |
基於集成學習的UGC產品反作弊技術研究 | 鄒權 | 廈門大學 |
知識類網頁內容質量判定算法研究 | 林琛 | 廈門大學 |
社區用戶關係及機器流量識別的研究 | 李文捷 | 香港理工大學 |
時間上下文相關的ItemCF算法在百度知道問題答案推薦上的套用研究 | 鄭德權 | 哈爾濱工業大學 |
基於百度套用需求的MySQL資料庫線上故障預測方法研究 | 王鑫 | 天津大學 |
基於機器學習的弱標記軟體缺陷分類技術研究 | 黎銘/周志華 | 南京大學 |
基於局部正則化因子模型的CTR 預估新算法 | 唐傑/萬懷宇/方展鵬/周昕宇 | 清華大學 |
基於時間和渠道的混合加權歸因模型研究 | 趙勇 | 電子科技大學 |
面向多數據源、帶序多類的安全遷移學習方法研究 | 李宇峰/周志華 | 南京大學 |
面向計算廣告的短文本流層次多分模型研究 | 靳曉明 | 清華大學 |
競爭行為分析與傳播 | 羅平 | 中國科學院計算技術研究所 |
大規模醫療本體的構建和推理技術及其套用研究 | 漆桂林 | 東南大學 |
搜尋引擎快取預取與更新算法最佳化研究 | 李瑞軒 | 華中科技大學 |
GBDT的並行化訓練研究 | 黃宜華/顧榮/金磊 | 南京大學 |
基於數據集特徵分析的協同過濾模型選擇研究 | 張日崇 | 北京航空航天大學 |
重大突發新聞的早期預測與個性化推薦算法研究 | 崔鵬 | 清華大學 |
個性化推薦理由自動抽取研究 | 關毅 | 哈爾濱工業大學 |
微博事件觀點挖掘研究 | 楊建武 | 北京大學 |
有效提升MySQL性能的cache數據壓縮算法研究 | 王剛/劉曉光 | 南開大學 |
基於DNN-Bottleneckde語音識別系統 | 謝磊 | 西北工業大學 |
“異質”噪聲數據下基於深度DNN建模的抗噪技術 | 錢彥旻 | 上海交通大學 |
基於PaaS的輕套用監控技術 | 王千祥 | 北京大學 |
存儲融入計算高效能體系結構的研究 | 梁曉嶢/吳晨濤 | 上海交通大學 |
基於分散式並行Kalman濾波器的大規模數據動力學特性提取與分析 | 金學波 | 北京工商大學 |
詳情可見活動頁面
活動公告
請參見官方頁面