百度百舸 · AI異構計算平台

百度百舸 · AI異構計算平台

在2021年6月3日百度智慧型計算峰會上,百度智慧型雲發布百度百舸 · AI異構計算平台,打造專業的AI基礎設施,為AI任務加速。

在2022年9月7日百度雲智峰會上,百度宣布升百度百舸AI異構計算升級跨入2.0時代。百度百舸2.0在AI計算、AI存儲、AI容器等模組上,能力進行了增強,功能進行了豐富,同時全新發布AI加速套件。

基本介紹

  • 中文名:百度百舸 · AI異構計算平台
  • 定義:百度智慧型雲在2021年6月發布百度百舸 · AI異構計算平台
公司信息,AI計算,AI存儲,AI加速,AI容器,行業智慧型化升級,百度百舸 + 文心大模型實踐,百度百舸 + 自動駕駛實踐,百度百舸 + 生物製藥實踐,百度百舸+智算中心實踐,新聞動態,

公司信息

百度是擁有強大網際網路基礎的領先AI公司,全球四大AI公司之一。百度百舸 · AI異構計算平台,是百度智慧型雲將百度的AI工程能力面向市場推出的解決方案,支持PaddlePaddle、TensorFlow、Pytorch等主流開發框架,可以滿足推薦、無人駕駛、NLP等各類AI業務需求。
百度百舸是面向AI原生雲(AI-Native Cloud)時代打造的AI基礎設施(AI IaaS),由AI計算,AI存儲和AI容器等三大部分組成,可以承載大量數據的處理、超大模型的訓練、高並發業務的推理,為AI任務加速。

AI計算

AI計算提供了強大的計算和網路能力。百度自研的X-MAN超級AI計算機,是四路AI伺服器,支持GPU、百度崑崙等AI異構晶片,能夠滿足各類負載對算力的需求。同時,X-MAN超級AI計算機配置了百度太行·智慧型網卡和InfiniBand VPI網卡,可以與雲上其他產品靈活組網,以及組建高性能AI集群。相比傳統集群,高性能集群可將AI訓練的線性加速比提升至90%以上。

AI存儲

AI存儲提供了大量數據的存儲和高速處理能力。並行檔案存儲PFS,專注於AI計算場景,支持百GB吞吐、亞毫秒級時延和百萬級IOPS。快取加速RapidFS,進一步提升AI計算速度,可使訓練過程中的GPU利用率提升至95%以上。 通過數據的生命周期管理,並行檔案存儲PFS中的冷數據可以下沉至對象存儲BOS中,實現數據的冷熱分層。對象存儲BOS作為數據湖存儲,提供了六級存儲方案,將大量數據的存儲成本降到最低。同時,PFS可以透明地載入對象存儲BOS中的數據完成預熱,大幅減少I/O等待時間。

AI加速

百度智慧型雲推出的存訓推一體化加速方案,全面加速了數據湖存儲訪問、分散式訓練和推理效率。數據湖存儲加速RapidFS,這是一個分散式快取系統,可以加速數據集訪問,訓練效率提升5~10倍。分散式訓練加速,能有效提升分散式訓練的性能,在典型模型場景下吞吐提升50%~150%。在模型完成訓練進行部署後,通過推理加速,提升AI套用的回響速度。在典型模型場景下時延降低40%~60%。

AI容器

AI容器提供了雲原生環境下AI訓練和推理加速能力,能夠成數倍提升AI異構資源利用率。
AI容器可以對接任何Kubernetes容器平台,針對AI場景下的資源管理和任務調度等進行了增強。GPU容器虛擬化,支持1/2,1/4等細粒度資源管理,具備算力和顯存的共享和隔離特性;任務調度,具備CPU/GPU等拓撲感知的能力,可以為任務分配最佳算力;加速引擎,能夠支持千卡規模的通信加速。
百度百舸2.0在業界率先推出了雙引擎GPU容器虛擬化方案,可以滿足各類場景的要求,提升GPU資源利用率。這個雙引擎GPU容器虛擬化方案,包括核心態和用戶態兩種虛擬化方案。
在完成各個模組的升級後,百度百舸2.0的優異性能,在測試結果中得到了充分展現。在2022年6月30日發布的MLPerf Trainning v2.0的榜單中,百度百舸和百度飛槳聯合提交的BERT Large模型GPU訓練性能結果,在同等GPU配置下排名第一,超越了高度定製最佳化且長期處於榜單領先位置的NGC PyTorch框架。百度百舸和百度飛槳的組合方案比其他結果快5%-11%不等

行業智慧型化升級

百度百舸 + 文心大模型實踐

百度百舸在行業智慧型化升級的深化過程中發揮了重大作用。百度百舸支持了文心大模型的落地。這是全球最大中文單體模型,2600億參數規模。
百度百舸提供了千卡規模、單集群EFLOPS級別的算力,配備了1.6Tbps的高速網路,提供百萬IOPS的並行檔案存儲系統。通過AI容器提供的容錯、架構感知等手段,為文心大模型的訓練提供了穩定的運行環境,滿足長時間周期的業務需要。
百度百舸 · AI異構計算平台
百度百舸 + 文心大模型實踐

百度百舸 + 自動駕駛實踐

在自動駕駛領域,百度百舸為用戶提供了軟硬一體的智慧型基礎設施。在高性能的智慧型基礎設施基礎上,百度智慧型雲針對自動駕駛算法、通過顯存卸載、運算元融合、梯度融合等手段,可以將Transformer算法訓練吞吐提升了1.5倍以上,加速了自動駕駛的研發進程。

百度百舸 + 生物製藥實踐

在生科醫療領域,百度百舸提供高性能生物計算的平台,作為高通量藥物發現的引擎,可以滿足EB級大量數據、千億級參數的大模型訓練,使得蛋白質結構的預測模型的疊代周期,從過去月級別提升至天級別。
其中,高性能網路為大規模的集群訓練提供微秒級的通信時延。通過算力統一調度,滿足不同場景的算力需求。同時,藉助數據湖存儲和對象存儲之間打通後的能力,為用戶降低數據存儲成本一半以上。

百度百舸+智算中心實踐

基於百度百舸的智算中心,能夠提供普惠多元的AI算力,支持AI套用的大規模發展,做到產業的全場景覆蓋,推動城市數字經濟的高速發展。
最近,百度智慧型雲-崑崙芯(鹽城)智算中心落地汽車產業重鎮鹽城,可為鹽城周邊的智慧型經濟發展提供龐大的AI算力和大量的數據處理能力,加速智慧型化升級。
該智算中心將成為當地科技創新的動力源泉,向長三角區域源源不斷地輸出最前沿的科研創新成果。

新聞動態

2021年6月3日,百度智慧型雲發布旗下AI異構計算平台“百度百舸”。
2022年9月7日,百度宣布升級推出百度百舸2.0。百度百舸2.0在AI計算、AI存儲、AI容器等模組上,能力進行了增強,功能進行了豐富,同時全新發布AI加速套件。
2023年1月10日,舉行百度Create大會暨百度AI開發者大會。

相關詞條

熱門詞條

聯絡我們