オープンソースのデータパイプラインプラットフォーム「Airbyte」

大量のデータを扱っている企業であれば、アプリケーションやAPIやデータベースなどのデータ発生源からのデータをデータウェアハウスやデータレイクにコンスタントに送っているだろう。データの抽出、ロード、変換を行うプラットフォームとして、FivetranStitchdataなどがある。

Airbyteは、オープンソースのデータパイプラインプラットフォームを開発している。FivetranやStitchdataのオープンソースによる代替システムが興味深いのは、コネクタの作成とメンテナンスに大量のリソースを必要とするためだ。とりあえずデータパイプラインを作ったが、大きなチームがない、という状況ならエントリーは難しい。

確かに既存のデータパイプラインも、SalesforceやStripe、Marketo、SendGridといった多くの人気ソースや、RedshiftやSnowflake、BigQueryといったデスティネーションとの何十という統合をすでに提供している。

しかし従来型のデータパイプラインプラットフォームでは、サポートされていない小さなサービスがたくさんある。それらすべてをインポートできないのであれば、ビジネスの部分的な姿しか把握できないかもしれない。

そこで多くの企業が、自分たちのアプリケーションのためにカスタムされたコネクタを開発し、提供している。Airbyteはオープンソースのアプローチにより、ユーザーのコミュニティを育て、何千というオープンソースのコネクタを作ってメンテナンスできると考えている。ある会社がカスタムされたコネクタを作ったら、別の会社がそれを利用し、改良して、それをコミュニティに還元する。

共同創業者でCEOのMichel Tricot(ミシェル・トリコット)氏は「誰かがコネクタを使っていてそれが壊れていることに気がついたら、それをコミュニティ全体のために直すことができる」と語る。

当初、Airbyteのチームは、マーケティングデータにフォーカスしたプロダクトからスタートした。Y Combinatorを受講し、その後、新型コロナウイルスのために方針を変更している。「新型コロナの世界では、マーケティングの予算もない」と共同創業者のJohn Lafleur(ジョン・ラフルール)氏はいう。

AirbyteのコネクタはDockerのコンテナの中で動くため、それぞれが互いに独立している。コネクタのアップデートやリフレッシュはマニュアルでスケジュール可能で、それらを個々にモニターすることもできる。

現在、46のコネクタがある。Airbyteはそれらの認証作業に取り組んでいる。250社が現在Airbyteを利用している。

カテゴリー:ソフトウェア
タグ:Airbyteオープンソース

画像クレジット:Samuel Sianipar/Unsplash

原文へ

(翻訳:iwatani、a.k.a. hiwa