大規模なストレージサービスをハードディスクではなく主にメモリで提供するAlluxio(元Tachyon)が、Andreessen HorowitzらによるシリーズAのラウンドで750万ドルを調達した。そして今日(米国時間10/26)同社は、その、オープンソースでメモリ中心型分散ストレージプラットホームのベータを終えて、初めての商用製品をローンチした。
Alluxioが企業に提供するソリューションは、大量データの統一化によるアクセスの高速化、データストアの安定性、そして堅牢・安全性の実現だ。今、多くの企業が抱える膨大な量のデータは、社内のさまざまなストレージシステムや、ときには外部クラウドにも、ばらばらに保存されている。有意なデータ分析ができるためには、それらのすべてにアクセスしなければならないが、その無計画な、分散というより散乱散在状態では、高速なアクセスと分析はほとんど不可能である。
Haoyuan Liが創業したAlluxioは、SparkやMapReduceなど既存の優れたコンピュートフレームワークを活用して(下図)、それらすべてのデータを単一のネームスペース(名前空間)のもとに一本化し、データの散乱を単一の分散ストレージシステムに変貌させる。そのストレージのアーキテクチャは層状(三層構造)であり、とくに、利用頻度の高いデータはコンピューターのメモリに収める。それらに次ぐ利用頻度のデータはSSD、そしてその他は従来的なハードディスクに収容する。いわばAlluxioは、ビッグデータワークロードのための、きわめて高度なキャッシュシステムだ、と考えられる。
このソフトウェアは最初、UC BerkeleyのAMPlabで開発され、ファイルシステムはHadoopと互換性がある。多くの(ときには何千台もの)マシンに分散している大量のデータを保存するための、今や標準的な方法が、Hadoopのファイルだからだ。
今日Alluxioがベータを終了してローンチするソフトウェアには、Enterprise EditionとCommunity Editionのニ種類がある。オープンソースのプロジェクトの多くがそうであるように、Alluxioも有料サポートや高度な特殊機能が収益源だ。Alluxioのエンタープライズプロダクトの場合は、高可用性が得られるセットアップ、セキュリティ、データのレプリケーションなどがそれだ。
Community Editionは無料で利用できるが、このバージョンも証明されテストされ、さまざまなファイルシステムに対応している(Amazon S3, Google Cloud Storage, OpenStack Swift, Red Hat Ceph, Huawei FusionStorageなどなど)。またコンピュテーションフレームワークとしては、Apache Spark, Apache Hadoop, Apache MapReduceなどが使える。AlluxioのWebインタフェイスからサービスを管理できる点も、Enterprise Editionと変わらない。Community Editionにないものは、有料サポートのほかに、レプリケーションとケルベロス認証だ。
ユーザーには、Alibaba, Baidu, Barclay’s Bank, CERN, Huawei, Intelなどが顔を連ねる。たとえばBaiduの場合は、あちこちのデータセンターに散在していた数ペタバイトのデータに対する対話的なアドホッククエリのパフォーマンスが、Alluxioの技術により、従来の15分から30秒に改善された。