BitSail

BitSail

BitSail是位元組跳動旗下引擎的數據集成引擎,於2022年10月26日正式開源。

BitSail支持20多種異構數據源間的數據同步,並提供離線、實時、全量、增量場景下的全域數據集成解決方案,目前服務於位元組內部幾乎所有業務線,包括抖音、今日頭條等大家耳熟能詳的套用,同時也支撐了火山引擎多個客戶的數據集成需求。

基本介紹

  • 中文名:比特航行
  • 外文名:BitSail
簡介,發展歷史,

簡介

BitSail是位元組跳動旗下的數據集成引擎,於2022年10月26日正式開源。
BitSail支持20多種異構數據源間的數據同步,並提供離線、實時、全量、增量場景下的全域數據集成解決方案,目前服務於位元組內部幾乎所有業務線,包括抖音、今日頭條等大家耳熟能詳的套用,同時也支撐了火山引擎多個客戶的數據集成需求。

發展歷史

2018-2019 年是 V1.0 版本,團隊基於 Flink Batch 構造了異構數據源之間的批式同步通道,主要用於將線上資料庫導入到離線數倉,和不同數據源之間的批式傳輸。
V1.0 相當於起步階段,團隊主要遇到的困難在於,當時的 Flink 1.5 版本在批處理這塊還不是很成熟,存在諸如批資源無法及時釋放等問題。為此團隊深入了解 Flink 項目源碼和核心,對批處理相關的機製做了大量改進。
2020-2021 年數據集成引擎演進到 V2.0 版本,團隊基於 Flink 構造了 MQ-Hive 的實時數據集成通道,用於將訊息佇列中的數據實時寫入到 Hive 和 HDFS,在計算引擎上做到了流批統一。
現在位元組跳動數據集成引擎已經演進到 V3.0 版本,增加了流式 CDC 和實時數據湖集成,完成了湖倉一體的數據集成引擎的構建。與此同時,在架構層面也開啟了面向雲原生和開源的演進,針對 K8s 雲原生調度做了比較多的定製最佳化。
在數據湖選型上,團隊基於對 Flink 和 Hudi 的技術積累和風險預判,最終選擇了用 Flink+Hudi 的流式集成方案。

相關詞條

熱門詞條

聯絡我們