メモリ中心型の分散ストレージでビッグデータのワークロードを超高速化するAlluxioが本番稼働を開始

BIERE, GERMANY - JULY 01: Close-up of cables and LED lights in the new data center of T-Systems, a subsidiary of Deutsche Telekom AG on July 01, 2014, in Biere, Germany. T-Systems is the largest German and one of the largest European IT services companies. (Photo by Thomas Trutschel/Photothek via Getty Images)

大規模なストレージサービスをハードディスクではなく主にメモリで提供するAlluxio(元Tachyon)が、Andreessen HorowitzらによるシリーズAのラウンドで750万ドルを調達した。そして今日(米国時間10/26)同社は、その、オープンソースでメモリ中心型分散ストレージプラットホームのベータを終えて、初めての商用製品ローンチした

Alluxioが企業に提供するソリューションは、大量データの統一化によるアクセスの高速化、データストアの安定性、そして堅牢・安全性の実現だ。今、多くの企業が抱える膨大な量のデータは、社内のさまざまなストレージシステムや、ときには外部クラウドにも、ばらばらに保存されている。有意なデータ分析ができるためには、それらのすべてにアクセスしなければならないが、その無計画な、分散というより散乱散在状態では、高速なアクセスと分析はほとんど不可能である。

Haoyuan Liが創業したAlluxioは、SparkやMapReduceなど既存の優れたコンピュートフレームワークを活用して(下図)、それらすべてのデータを単一のネームスペース(名前空間)のもとに一本化し、データの散乱を単一の分散ストレージシステムに変貌させる。そのストレージのアーキテクチャは層状(三層構造)であり、とくに、利用頻度の高いデータはコンピューターのメモリに収める。それらに次ぐ利用頻度のデータはSSD、そしてその他は従来的なハードディスクに収容する。いわばAlluxioは、ビッグデータワークロードのための、きわめて高度なキャッシュシステムだ、と考えられる。

このソフトウェアは最初、UC BerkeleyのAMPlabで開発され、ファイルシステムはHadoopと互換性がある。多くの(ときには何千台もの)マシンに分散している大量のデータを保存するための、今や標準的な方法が、Hadoopのファイルだからだ。

screenshot-2016-10-26-at-14-07-14

今日Alluxioがベータを終了してローンチするソフトウェアには、Enterprise EditionとCommunity Editionのニ種類がある。オープンソースのプロジェクトの多くがそうであるように、Alluxioも有料サポートや高度な特殊機能が収益源だ。Alluxioのエンタープライズプロダクトの場合は、高可用性が得られるセットアップ、セキュリティ、データのレプリケーションなどがそれだ。

Community Editionは無料で利用できるが、このバージョンも証明されテストされ、さまざまなファイルシステムに対応している(Amazon S3, Google Cloud Storage, OpenStack Swift, Red Hat Ceph, Huawei FusionStorageなどなど)。またコンピュテーションフレームワークとしては、Apache Spark, Apache Hadoop, Apache MapReduceなどが使える。AlluxioのWebインタフェイスからサービスを管理できる点も、Enterprise Editionと変わらない。Community Editionにないものは、有料サポートのほかに、レプリケーションとケルベロス認証だ。

ユーザーには、Alibaba, Baidu, Barclay’s Bank, CERN, Huawei, Intelなどが顔を連ねる。たとえばBaiduの場合は、あちこちのデータセンターに散在していた数ペタバイトのデータに対する対話的なアドホッククエリのパフォーマンスが、Alluxioの技術により、従来の15分から30秒に改善された。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))