PaddlePaddle

PaddlePaddle

飛槳(PaddlePaddle)是百度自主研發的集深度學習核心框架、工具組件和服務平台為一體的技術領先、功能完備的開源深度學習平台,有全面的官方支持的工業級套用模型,涵蓋自然語言處理、計算機視覺、推薦引擎等多個領域,並開放多個預訓練中文模型。目前已經被中國企業廣泛使用,並擁有活躍的開發者社區生態。

PaddlePaddle同時支持稠密參數和稀疏參數場景的大規模深度學習並行訓練,支持千億規模參數、數百個節點的高效並行訓練。PaddlePaddle擁有多端部署能力,支持伺服器端、移動端等多種異構硬體設備的高速推理,預測性能有顯著優勢。目前PaddlePaddle已經實現了API的穩定和向後兼容,具有完善的中英雙語使用文檔。

基本介紹

  • 中文名:飛槳 
  • 外文名:PaddlePaddle
  • 產品定位:源於產業實踐的開源深度學習平台
  • 平台作用:開源深度學習平台
  • 隸屬公司:百度
  • 語言:C++、Python
  • 平台:Windows、MacOS、Ubutun、CentOS
  • 最新版本:v1.4
發展歷程,百度深度學習大事記,PaddlePaddle 核心框架版本疊代,產品優勢,工業級中文 NLP 算法和模型庫,支持稠密參數和稀疏參數超大規模分散式訓練,端到端的全流程部署方案,豐富的配套工具組件,完整的中文文檔,核心技術,核心框架Paddle Fluid,工具組件,服務平台,套用及落地,案例1:AI識蟲,案例2:標準高爾夫球場自動檢測,案例3:百度核心業務的視頻理解技術,案例4:百度核心業務驗證的推薦解決方案,更多案例,開發者生態,企業服務,教育生態,國家工程實驗室,WAVE SUMMIT 深度學習開發者峰會,億元算力支持計畫,

發展歷程

百度深度學習大事記

  • 2012年,百度將深度學習技術套用於語音識別、OCR等。
  • 2013年,百度開始研發深度學習框架PaddlePaddle,搜尋、鳳巢CTR預估上線DNN模型。
  • 2015年,百度發布全球首個NMT線上翻譯引擎,基於LSTM-CTC的聲學模型上線,開始自研更適配 NLP任務的通用深度學習框架。
  • 2016年,在百度世界大會上,百度宣布PaddlePaddle開源,這標誌著國內第一個開源深度學習平台的誕生。
  • 2017年,百度信息流推薦系統使用深度學習,並發布了新一代深度學習框架Paddle Fluid。
  • 2018年,PaddlePaddle 3.0升級為全面的深度學習開發套件;百度視覺模型、強化學習在 ActivityNet 2017/2018 kinetics、Google AI Open Images-Object Detection Track、NIPS AI for Prosthetics Challenge 等多項國際比賽中奪冠。
  • 2019年,首屆WAVE SUMMIT深度學習開發者峰會在北京召開,PaddlePaddle深度學習平台全面升級,發布中文名稱:飛槳;PaddlePaddle助力百度視覺團隊在多目標追蹤挑戰的MOT16和ICME人臉106關鍵點檢測比賽中奪冠。

PaddlePaddle 核心框架版本疊代

  • 2018年 7月,Paddle Fluid v0.14發布——提供從數據預處理到模型部署在內的深度學習全流程的底層能力支持。官方首次開源CV/NLP/語音/強化學習等10個模型。
  • 2018年 10月,Paddle Fluid v1.0穩定版本發布——提供更穩定、向後兼容的API,易用性大幅提升。提供 MacOS 下的多種安裝方式,新增對Python 3.5的支持。並開源8個CV、NLP 方向主流模型。
  • 2018年11月,Paddle Fluid v1.1發布——支持千億規模稀疏參數大規模多機異步訓練。移動端預測新增Mali GPU、Adreno GPU、FPGA等硬體支持。開源5個推薦領域模型,大幅最佳化CV、NLP模型的訓練速度和顯存占用。
  • 2018年12月,Paddle Fluid v1.2發布——CPU多機異步訓練升級包括worker異步並發和IO、通信最佳化在內多項功能,整體吞吐大幅提升。支持Python 3.6及以上全版本。模型庫新增圖像分類任任務的預訓練模型、語言模型任務新增基於cudnn的LSTM實現、分散式word2vec模型。
  • 2019年3月,Paddle Fluid v1.3發布——統一Executor和ParallelExecutor接口,正式發布AnalysisConfig 預測接口,支持計算圖分析、運算元融合等最佳化;模型庫新增發布PaddlePaddle視頻模型庫,提供5個視頻分類經典模型以及適合視頻分類任務的通用骨架代碼;新增支持NLP語義表示BERT模型,支持多機多卡訓練,支持混合精度訓練,訓練速度對比主流實現提升50%+;發布大規模稀疏參數伺服器Benchmark。
  • 2019年4月,Paddle Fluid v1.4發布——正式發布模型壓縮工具包PaddleSlim和模型預測服務Paddle Serving,全面提升PaddlePaddle部署能力。正式發布視頻分類工具包,覆蓋主流視頻分類模型;正式發布PaddleNLP,工業級中文NLP工具與預訓練模型集。正式發布PaddleHub預訓練模型管理工具,提供包括預訓練模型管理、命令行一鍵式使用和遷移學習三大功能。發布業界頂尖超大規模並行能力,包括大規模稀疏參數伺服器解決方案、工業級數據處理、頻寬不敏感訓練能力等。

產品優勢

工業級中文 NLP 算法和模型庫

涵蓋文本分類、序列標註、語義匹配等多種NLP任務的解決方案,擁有當前業內效果最好的中⽂語義表示模型和基於用戶大數據訓練的應⽤任務模型,且同類型算法模型可靈活插拔。
強大的百度NLP工具集強大的百度NLP工具集

支持稠密參數和稀疏參數超大規模分散式訓練

支持稠密參數和稀疏參數超大規模分散式訓練支持稠密參數和稀疏參數超大規模分散式訓練
基於百度海量規模的業務場景實踐, PaddlePaddle同時支持稠密參數和稀疏參數場景的超大規模深度學習並行訓練,支持千億規模參數、數百個節點的高效並行訓練。

端到端的全流程部署方案

覆蓋多硬體、多引擎、多語言,預測速度超過其他主流實現。同時,還提供了模型壓縮、加密等工具。
端到端的全流程部署方案端到端的全流程部署方案

豐富的配套工具組件

提供AutoDL Design、PaddleHub、PARL、VisualDL、EDL組件。

完整的中文文檔

PaddlePaddle 是首家完整支持中文文檔的深度學習平台。文檔覆蓋安裝、上手和 API 等,為國內開發者建立了友好的生態環境。

核心技術

PaddlePaddle是集深度學習核心框架、工具組件和服務平台為一體的技術領先、功能完備的開源深度學習平台。
PaddlePaddle全景圖PaddlePaddle全景圖

核心框架Paddle Fluid

Paddle Fluid提供覆蓋深度學習開發、訓練、預測及部署全流程的服務。
特點一:提供豐富的官方支持模型集合
PaddlePaddle開源了經過60多個真實業務場景驗證的官方模型,涵蓋視覺、NLP、推薦等AI 核心技術領域,是官方支持模型最多的深度學習平台。
PaddlePaddle官方支持模型PaddlePaddle官方支持模型
特點二:超大規模並行深度學習平台能力
提供多機CPU 參數伺服器訓練方法,全面支持大規模異構計算集群,同時支持稠密參數和稀疏參數場景的超大規模深度學習並行訓練,支持千億規模參數、數百個節點的高效並行訓練。
特點三:高性能部署和集成方案
提供Paddle Serving和Paddle Mobile推理引擎,兩行Python代碼可調用的自動化模型壓縮庫。

工具組件

PaddleHub
PaddleHub是預訓練模型管理框架,通過命令行接口,便捷獲取PaddlePaddle 生態下的預訓練模型; 無需編寫代碼,命令行一鍵完成預訓練模型預測;藉助PaddleHub Finetune API,使用少量代碼就可完成遷移學習。
PARL
PARL是基於PaddlePaddle的深度強化學習框架,具有高靈活性和可擴展性,支持可定製的並行擴展,覆蓋DQN、DDPG、PPO、IMPALA 、A2C、GA3C 等主流強化學習算法。通過8 塊GPU 拉動近20000個CPU 節點運算,將近5 個小時疊代一輪的PPO 算法加速到不到1 分鐘。
AutoDL Design
AutoDL Design可以讓深度學習來設計深度學習,AutoDL 包含網路結構自動化設計、遷移小數據建模、適配邊緣計算三個部分。開源的AutoDL Design 網路結構自動化設計技術設計的圖像分類網路在CIFAR10 數據集正確率達到 98%,效果全面超過人類專家,居於業內領先位置。
VisualDL
VisualDL是深度學習可視化工具庫,它可以幫助開發者方便地觀測訓練整體趨勢、數據樣本質量、數據中間結果、參數分布和變化趨勢、模型的結構,更便捷地處理深度學習任務。

服務平台

AI Studio
百度AI Studio是一站式深度學習開發平台,集開放數據、開源算法、免費算力三位一體,為開發者提供高效學習和開發環境、高價值高獎金的競賽項目,支撐高校老師輕鬆實現AI教學,並助力企業加速落地AI 業務場景。
EasyDL
EasyDL 為零算法基礎的企業用戶和開發者提供高精度的AI 模型定製服務,已
在零售、工業、安防、醫療、網際網路、物流等20 多個行業中落地套用。

套用及落地

案例1:AI識蟲

紅脂大小蠹是危害超過35 種松科植物的蛀乾害蟲,自1998 年首次發現到2004 年,發生面積超過52.7 萬平方公里, 枯死松樹達600 多萬株。且在持續擴散,給我國林業經濟帶來巨大損失。AI 識蟲是北京林業大學、百度、嘉楠、軟通智慧合作的面向信息素誘捕器的智慧型蟲情監測系統。
套用方案:
通過PaddlePaddle訓練得到目標檢測模型YOLO v3識別紅脂大小蠹蟲,遠程檢測病蟲害情況。
這套檢測系統的套用大幅降低蟲情監測的人力成本,識別準確率能達到90%,原本一周的工作量只需一個小時即可完成。
AI識蟲套用方案AI識蟲套用方案

案例2:標準高爾夫球場自動檢測

隨著高爾夫球運動在我國的興起,關於高爾夫球場大量占用土地資源、污染環境、耗水量大且公益性差的爭議越來越多。開展高爾夫球場用地監測,對發現新增高爾夫球場、核查清理整治效果具有重要意義。
套用方案:
套用PaddlePaddle Faster R-CNN 模型,結合特徵提取網路VGG16 及區域建議網路(Region Proposal Network,RPN)實現高爾夫球場的檢測。檢出準確率達到88%,相比傳統方式,識別率提升90倍。
標準高爾夫球場自動檢測套用方案標準高爾夫球場自動檢測套用方案
標準高爾夫球場自動檢測效果圖標準高爾夫球場自動檢測效果圖

案例3:百度核心業務的視頻理解技術

視頻理解技術可以多維度解析視頻內容,理解視頻語義,自動分類打標籤,極大節省人工審核效率,節約成本;同時精準用戶推薦,提升體驗效果。
套用方案:
基於PaddlePaddle 框架,採用two-stage 訓練策略,涵蓋2D/3D-CNN 模型,序列模等,對視頻自動分類、打標籤,提取視頻語義向量。
基於PaddlePaddle的視頻理解技術套用效果圖基於PaddlePaddle的視頻理解技術套用效果圖
百度Feed 流視頻全流量自動分類,可全免人審,在百度搜尋,百度雲VCA 系統中也有套用。

案例4:百度核心業務驗證的推薦解決方案

個性化推薦能力在市場上被廣泛套用並在最佳化用戶體驗方面發揮著極其重要的作用。而個性化點擊率預估模組是實現個性分發的重要手段。但對於擁有超大規模用戶體量、海量內容庫及所伴隨的最高可達百億級別用戶點擊日誌的推薦系統,如何處理擁有自膨脹特點的海量特徵數據及需要高頻率疊代的模型,成為了推薦系統是否成功的核心關鍵。
套用方案:
PaddlePaddle 通過提供一種高性價比的多機CPU 參數伺服器訓練方法,可有效地解決超大規模推薦系統、超大規模數據、自膨脹的海量特徵及高頻率模型疊代的問題,擁有超大吞吐量及高效率。
基於PaddlePaddle的個性化推薦套用方案基於PaddlePaddle的個性化推薦套用方案
基於真實的推薦場景的數據驗證(1.4 億總樣本數中統計得到1.8 億獨立特徵,平均每條樣本117 個特徵,單條樣本平均1k 稀疏特徵量),PaddlePaddle 在100 節點*10 執行緒/ 節點的情況下,吞吐量可達60 萬~ 140 萬/s,每小時可處理20 ~ 50 億數據,且達到batch size 為512的情況下90%的加速比,已經在百度搜尋、百度糯米、好看視頻、百度地圖、百度翻譯中套用。

更多案例

  • 智慧招聘——簡歷職位智慧型匹配系統
使用PaddlePaddle搭建的Gated Model(GQM),是基於CNN、DSSM、C-DSSM等算法的文本匹配模型,實現企業與求職者雙方需求的高效率匹配。
  • 智慧城市——樓宇設備智慧型管理
通過基礎運行積累的大數據結合深度學習算法提高機電系統運行效率,合理設計日常保養策略,完成及時的故障預警、保養提醒,實現智慧型運營。
  • 智慧零售——生鮮進貨量智慧型預測
利用商超生鮮的歷史銷售數據,提取出多個影響銷量的條件、使用DNN神經網路建立銷量預測模型、使用到包括位置、時段、節假日、天氣等70個維度,200+特徵。
  • 智慧城市——AI控煙
基於百度PaddlePaddle開源平台的深度學習能力,對數萬張吸菸動作圖片進行了43次深度學習模型訓練,可實現對吸菸動作的識別,通過視頻監控的數據從人群中識別出正在吸菸的人,將其圖像提取並標註保存。
  • 智慧農林——桃子分揀
智慧型桃子分揀機集成了圖像分類模型,並利用機械完成桃子分揀自動化。有效提升桃子分類揀出的準確率及工作效率,節省大量桃農工作人力。
  • 趣味生活——猜拳機
小度猜拳手通過使用深度卷積神經網路技術訓練出能夠識別用戶出拳結果的模型,該模型可以識別石頭、剪刀、布的手勢。在用戶出拳過程中,系統會不斷採集用戶的手勢圖片,並分析可能的出拳結果,在可信度度達到一定數值後完成對應的出拳。
  • 精密零件智慧型質檢機
使用深度學習技術,識別模型的適應性極大提升,對於不同的零件,只需要提供標註好的樣本數據,即可快速完成一個新零件或者新缺陷的識別模型開發。

開發者生態

企業服務

黃埔學院——為中國產業界培養首席AI架構師
培養深度學習架構師,培育深度學習產業落地人才,打造中國深度學習核心技術圈:
  • 百度深度學習T10 架構師面對面深度交流。
  • 解鎖百度核心業務中深度學習落地的關鍵Know-How。
  • 剖析百度AI 生態企業中業務與深度學習結合的典型案例。
  • 助力企業使用AI 思維、AI 工具、方法技術解決實際業務問題。
AI快車道—企業深度學習實戰營
1000家企業深度學習技術套用支持計畫,為企業提供一條AI業務轉型的快車道:
  • 深度學習案例套用剖析現場。
  • 所學即所用的算法Code Live。
  • 百度高T 的深度學習技術方案諮詢。
  • 直通黃埔學院的報名通道。
全天候技術支持
  • 24小時GitHub技術答疑。
  • 百度AI技術生態扶持。
  • 優秀產業套用探索更有專家共同難點攻克。

教育生態

深度學習工程師認證
2018年,百度聯合深度學習技術及套用國家工程實驗室、中國軟體行業協會,共同發布中國第一個深度學習工程師能力評估標準。2019年,百度向社會開放“深度學習工程師”認證考試,並提供相應的學習解決方案。
深度學習工程師認證深度學習工程師認證
深度學習師資培訓班
教育部新工科建設專項支持,百度與頂級高校聯合打造精品課程,助力高校AI專業教師培養,截止2019年5月,已開辦4期,共培訓200+高校400名老師。
  • 實踐型課程設計:理論基礎+高強度代碼實踐,教師技術水平72 小時飛躍式提升。
  • 配套教學材料:包含專業教材、授課課件、配套實驗、實踐平台,助力教師高效開課。
  • 參訓教師經驗交流:開課思路與教學法研討,從輸入到輸出,解鎖高校AI 教學新思路。
  • 教育部專項基金:“協同育人” 科研基金累計發放超過200 萬元,支持教師開課。
AI Studio教育版
提供教學管理與實訓平台,深入促進實踐型AI人才培養,已累計入駐140+高校。
  • 線上教學環境:雲端集成免安裝,聯網可用。
  • 免費算力支持: CPU/GPU 資源免費提供,降低高校開課門檻。
  • 內置教學實驗:豐富教學實驗案例,從入門到進階,一應俱全。
  • 實用教學管理:完備實用的教學管理功能,助力專業課堂教學。
深度學習線上課程
課程包含快速入門、基礎知識、各領域經典模型、PaddlePaddle實戰四大課程版塊,涵蓋Python、數學、機器學習、深度學習理論與實戰等多種內容方向,滿足不同水平開發者對於線上課程的多元需求。
校園賽事
1、AI算法賽
為機器學習、深度學習、數據科學人才準備的算法挑戰排名賽事。大賽面向全球開發者招募,參加比賽的選手使用PaddlePaddle挑戰賽題,根據算法精度成績排名。基於AI Studio已開辦多場比賽:2018機器閱讀理解技術競賽、2018百度之星開發者大賽、無人車車道線檢測挑戰賽、NLP常規賽。
2、產業套用賽
由企業貢獻真實業務數據、業務難題,聯合PaddlePaddle舉辦創造更優算法,並套用於業務的的賽事。
3、校園創意賽
面向全球各高校各專業的創意產品套用賽事。多為開放式賽題,要求參賽者根據不同視角,結合PaddlePaddle技術開發不同的智慧型套用。
出版物
百度技術學院聯合深度學習技術及套用國家工程實驗室、北航人工智慧專家共同撰寫《PaddlePaddle深度學習實戰》。書中詳細描述神經網路的各個細節,深入講解算法性能最佳化的思路和技巧,幫助讀者深入理解深度學習的精髓。
深度學習教育聯盟
深度學習教育聯盟為合作教育機構提供機構認證、講師認證、課程與案例聯合研發、品牌扶持等全方位的支持。已有UAI、歐若教育、景略集智等十幾家企業,成為深度學習教育聯盟夥伴。
1、協同育人項目
以產業和技術發展的最新需求推動高校人才培養改革,教育部組織企業支持高校共同開展產學合作協同育人項目。
2、布道師計畫
現有的深度學習布道師隊伍由10位深度學習專家組成,他們享有官方榮譽認證,體驗百度最新深度學習各項技術,各類特色技術活動綠色通道。

國家工程實驗室

2017年2月,國家發展和改革委員會正式批覆,由百度牽頭聯合清華大學、北京航空航天大學、中國電子技術標準化研究院、中國信息通信研究院,共同籌建深度學習技術及套用國家工程實驗室。PaddlePaddle依託深度學習技術與套用國家工程實驗室,與國內多家科研機構及高校合作研發的深度學習技術,為深度學習研究者、企業和開發者提供功能全面的開源深度學習平台。

WAVE SUMMIT 深度學習開發者峰會

WAVE SUMMIT深度學習開發者峰會由深度學習技術及套用國家工程實驗室與百度聯合主辦,會上,來自百度、英特爾、華為、清華大學、北京航空航天大學等公司及高校的科學家及人工智慧專家共同探討深度學習時代的技術方向及產業前景,同時,開源深度學習平台PaddlePaddle發布多項新特性及服務,為深度學習開發者提供利器。

億元算力支持計畫

2019年4月23日,在首屆WAVE SUMMIT 2019深度學習開發者峰會上,百度宣布了AI Studio算力支持計畫,開放價值一億元的免費算力資源,助力開發者成功。免費算力主要以兩種模式提供,第一種是一人一卡模式,V100的訓練卡包括16G的顯存,最高2T的存儲空間。另外一種是遠程集群模式,PaddlePaddle提供高性能集群,供開發者免費使用,登入AI Studio即可使用。

相關詞條

熱門詞條

聯絡我們