Apache Doris

Apache Doris概述

Apache Doris 最早是誕生於百度廣告報表業務的 Palo 項目，2017 年正式對外開源，2018 年 7 月由百度捐贈給 Apache 基金會進行孵化，之後在 Apache 導師的指導下由孵化器項目管理委員會成員進行孵化和運營。目前 Apache Doris 社區已經聚集了來自不同行業近百家企業的 300 余位貢獻者，並且每月活躍貢獻者人數也接近 100 位。 2022 年 6 月，Apache Doris 成功從 Apache 孵化器畢業，正式成為 Apache 頂級項目（Top-Level Project，TLP）。

Apache Doris 如今在中國乃至全球範圍內都擁有著廣泛的用戶群體，截止 2022年 6月， Apache Doris 已經在全球超過 500 家企業的生產環境中得到套用，在中國市值或估值排行前 50 的網際網路公司中，有超過 80% 長期使用 Apache Doris，包括百度、美團、小米、京東、位元組跳動、騰訊、網易、快手、微博、貝殼等。同時在一些傳統行業如金融、能源、製造、電信等領域也有著豐富的套用。

Apache Doris可以滿足多種數據分析需求，例如固定歷史報表，實時數據分析，互動式數據分析和探索式數據分析等，令數據分析工作簡單高效。

Apache Doris特性

性能優異：自帶高效的列式存儲引擎，減少數據掃描量的同時還實現了超高的數據壓縮比。同時Doris還提供了豐富的索引結構來加速數據讀取與過濾，利用分區分桶裁剪功能，Doris可以支持線上服務業務的超高並發，單節點最高可支持上千QPS。更進一步，Apache Doris 結合了向量化執行引擎來充分發揮現代化CPU並行計算能力，輔以智慧型物化視圖技術實現預聚合加速，並可以通過查詢最佳化器同時進行基於規劃和基於代價的查詢最佳化。通過上述多種方式，實現了極致的查詢性能。
簡單易用：支持標準ANSI SQL語法，包括單表聚合、排序、過濾和多表Join、子查詢等，還支持視窗函式、Grouping Set等複雜SQL語法，同時用戶可以通過UDF和UDAF等自定義函式來拓展系統功能。除此以外，Apache Doris 還實現了MySQL協定兼容，用戶可以通過各類客戶端工具來訪問Doris，並支持與BI工具的無縫對接。
架構精簡：系統只有Frontend（FE）和Backend（BE）兩個模組，其中FE節點負責用戶請求的接入、查詢計畫的解析、元數據存儲及集群管理等工作，BE節點負責數據存儲和查詢計畫的執行，自身就是一個完備的分散式資料庫管理系統，用戶無需安裝任何第三方管控組件即可運行起Apache Doris 集群，並且部署和升級過程都非常簡易。同時，任一模組都可以支持橫向拓展，集群最高可以拓展到數百個節點，支持存儲超過10PB的超大規模數據。
穩定可靠：支持數據多副本存儲，集群具備自愈功能，自身的分散式管理框架可以自動管理數據副本的分布、修復和均衡，副本損壞時系統可以自動感知並進行修復。節點擴容時，僅需一條SQL命令即可完成，數據分片會自動在節點間均衡，無需人工干預或操作。無論是擴容、縮容、單節點故障還是在升級過程中，系統都無需停止運行，可正常提供穩定可靠的線上服務。
生態豐富：提供豐富的數據同步方式，支持快速載入來自本地、Hadoop、Flink、Spark、Kafka、SeaTunnel等系統中的數據，也可以直接訪問MySQL、PostgreSQL、Oracle、S3、Hive、Iceberg、Elasticsearch等系統中的數據而無需數據複製。同時存儲在Doris中的數據也可以被 Spark、Flink 讀取，並且可以輸出給上游數據套用進行展示分析。

Apache Doris

基本介紹

Apache Doris概述

Apache Doris特性

Apache Doris技術概述

適用場景

相關產品

相關詞條

熱門詞條