Hapyrusがこのほど立ち上げたFlyDataは、ペタバイトサイズにまでスケールできるデータウェアハウスサービスAmazon Redshiftへの、データのアップロードとマイグレーションを自動化してくれる。
Amazonの主張では、アナリストたちが今日使っているものと同じSQLベースのビジネスインテリジェンスツールを使って各種サイズのデータセットを分析するとき、Redshiftならクェリのパフォーマンスを高速化できる、という。Hapyrusの協同ファウンダKoichi Fujikawaによると、同社のサービスであるビッグデータルータを使用すると、Redshiftをさらに効果的に利用でき、HadoopとHiveを使うよりもお得である。HadoopとHiveの組み合わせは、データの処理分析環境として、これまで多くの人に高く評価されてきた。
FlyDataはバックグラウンドで動き、データをRedshiftに運ぶ。Fujikawaによると、HapyrusはAWS上に仮想プライベートクラウドをセットアップする。顧客は自分の仮想プライベートネットワークをそれに統合してデータを転送する。
Hapyrusは、InformaticaやTalendなどと競合する。現在はAWSとの統合がメインだが、今後はさまざまなソースのデータを統合できるようになる。Fujikawaの説明では、InformaticaやTalendは大企業の、主にオンプレミスのシステム向けに、複雑なデータ統合化ソリューションを提供している。しかし、“弊社は、Redshiftのようなクラウド成分に対するデータ統合化サービスを、企業のサイズを問わず提供する。スタートアップでもよいし、比較的大きな企業でもよい”、と彼は語った。
Fujikawaによると、RedshiftはHadoop+Hiveよりも10倍速くできる。H+Hの顧客たちは、毎日行う日常的なデータ処理をもっと高速に行える代替製品を求めている。H+Hを使っていると、クェリの時間と費用が大きな経営妨害要因として彼らの前に立ちはだかる。
しかし、Redshiftそのものにも複雑性はある。それについてルームレンタルのAirbnbは次のように語る:
まず、Redshiftにロードするデータは、すでにS3やDynamo DBの中にある必要がある。デフォルトのデータロードはシングルスレッドなので、相当長時間かかることもある。データを分割してパラレルでロードすると速いことをわれわれは見つけた。
Airbnbのナード的なブログには、Hadoopにある機能がRedshiftにない、と書かれている。しかしRedshiftはデータアナリストたちに好まれているため、もっぱらそれだけを使っている場合が多い。Airbnbのブログ記事は最後の方で、RedshiftとHadoopは意外と互換性が高いのではないか、とも書いている。
しかしDrawn to Scaleの協同ファウンダBradford Stephensは、“RedshiftはデータウェアハウスだからVerticaやGreenplum、AsterData、Impala、Hadapt、CitusDataなどと比較すべきだ”、と言っている。“Hadoopとは全然違うものだ”、と。
スタートアップたちの売上や利益は大企業に比べると微々たるものだが、しかしときにはHapyrusのような企業が出現して、Amazon Web Servicesの新しい使い方によって、独自の顧客ベースを堅実に築いていく。ビジネスの一件々々の額は小さくても、その技術力はユニークで高い。
Hapyrusは500 Startupsの育成企業で、DeNA(年商40億ドルのインターネット企業)の協同ファウンダShogo Kawadaなど高名な日本のエンジェル投資家たちから、エンジェル資金を獲得している。
[原文へ]
(翻訳:iwatani(a.k.a. hiwa))