GPUの並列処理でSQLクェリを超高速化するBlazingDB、AWSのGPUインスタンスなどを利用

blazingdb1

顧客データを数ペタバイトも集めるのはクールだけど、でもそれをどうやって有効利用するのか? BlazingDBは、大量のGPUを使ってデータベースに対するSQLクェリを高速化する。同社はTechCrunch Disrupt SFのBattlefieldコンペで、そのソリューションの無料のコミュニティエディションを披露した。

複雑なSQLクェリは、実行時間が長すぎてこっちが眠ってしまいそうになることもある。それは、クェリをCPUが実行していて、必要十分なスケーリングができないからだ。

BlazingDBの協同ファウンダーでCEOのRodrigo Aramburuはこう言う: “サーバーをスケールアップすることはできるが、リニアー(線形)な処理の場合、効果的なサーバーの増設は難しい”。

データベースにGPUを使うのは、なかなかおもしろい。GPUは大量のタスクを並列に動かせるから、一部の限られた種類のタスクにとってはとても有利だ。とくに今では、画像処理や機械学習のアプリケーションでGPUが多用されている。でも、データベースでGPUを使うという話は、今回が初めてだ。

クラウドコンピューティングのおかげで、大量のデータをデータベースに保存することは、とても簡単になった。でも企業のデータベースは今では、アナリティクス(データ分析)のダッシュボードやビジネスインテリジェンスのためのツールなどを構築するためにも使われている。

このような、データベースの高性能な利用が求められる場面が、BlazingDBの出番だ。短時間で、集計をしたり、述語を使ったり、データベースの大量のエントリーを操作しなければならない。同社が顧客を受け入れ始めたのは2016年の6月だが、すでにFortune 100社に挙げられる大企業数社がBlazingDBを使っている。

Aramburu曰く、“彼らがそれまで使っていたツールはSQLの処理に数時間を要していたが、うちのツールなら数分だ。BlazingDBは何千ものコアを使って大規模な並列処理を行う”。

BlazingDBが実際に使うのは、Amazon Web ServicesやIBMのSoftLayer、Microsoft AzureなどのGPUインスタンスだ。だから企業はサーバーを(少なくとも今のところは)自分で管理する必要はないが、大量の機密データを扱うような企業はサーバーの自己管理を選んでもよい。

“うちのインフラストラクチャは、サーバーの種類やタイプを特定しない”、とAramburuは語る。“われわれが構築したコードベースは、そのための問題解決に尽力しているから、けっこう複雑だ”。

顧客は、そのほかのSQLデータベースと同じく、BlazingDBにプログラムでアクセスできる。たとえばPythonでETLのスクリプトを書いて、BlazingDB上のデータにアクセスしてもよい。

今BlazingDBのチームは6名だ。同社は今、大企業の顧客を獲得していくための概念実証の構築を、計画している。一方BlazingDBには無料のコミュニティエディションもあるから、ちょっと遊んでみることもできる。

SQLデータベースの企業というと、あまりセクシーには響かないが、BlazingDBがやってることはおもしろい。今、多くの企業がデータ駆動型になりつつあるが、BlazingDBは大量のデータから意味を見つけ出す作業を助ける。

  1. blazingdb21.jpg

  2. blazingdb2.jpg

  3. blazingdb31.jpg

  4. blazingdb11.jpg

  5. blazingdb12.jpg

  6. blazingdb3.jpg

Q&A

Q: これまでのどんなツールより速いようだが、切り替えの費用は?
A: コネクタを提供していますから、データが数テラバイトあっても、切り替えはかなり容易です。

Q: 御社のスライドにはDeepMindが登場するけど、AlphaGoもGPUを使っているからか?
A: あれはとても多層的なニューラルネットワークを使っていますが、それはGPUの集合で構成されています。

Q: このソリューションの欠点は何か?
A: トランザクション型のデータベースではないことです。その方面では、そんなに速くありません。また、SQLの規格のすべてを実装してはいません。ウィンドウファンクションやストアプロシージャはありません。

Q: 類似特許は存在していないか?
A: 特許については詳しくないんですけど、既存のSQLツールをGPU利用バージョンに改装しているところは、いろいろあります。われわれは、スクラッチから(ゼロから)スタートしました。

disrupt

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

AWSの新サービスKinesis AnalyticsはリアルタイムストリーミングデータをSQLで分析できる

aws_logo

AmazonのクラウドコンピューティングプラットホームAWSが今日(米国時間8/11)、リアルタイムのストリーミングデータをSQLのクェリで容易に分析できるツール、Kinesis Analyticsを立ち上げた。Kinesis Analyticsは、AWSのリアルタイムストリーミングデータプラットホームKinesisを利用するユーザー向けだ。デベロッパーは、Kinesisを使ってストリーミングデータを取り込み、それを自分たちのアプリケーションで使用する。

Kinesis Analyticsを使えば、入ってくるデータを継続的なSQLクェリでフィルタしたり操作することによって、データをアプリケーションがすぐにでも使える形にできる。

AWSのチーフエヴァンジェリストJeff Barrが今日書いているところによると、通常のデータベースクェリは基本的に静的なデータを見る。しかしストリーミングデータに対してKinesis Analyticsでクェリするようになると、このモデルは二義的になる。“クェリは長期にわたって行われ、その間にデータは、新しいレコードや観察結果、ログのエントリーなどとして毎秒何度も々々々変わる。データをそんな動的なものとしてとらえるようになると、クェリによるそれらの処理がとても理解しやすいことが、分かるだろう。パーシステントな(持続的な)クェリを作って、次々と到着するレコードを処理するのだ”、と彼は語る。

2016-08-11_0907

Kinesis Analyticsの主な対象はリアルタイムデータだが、ときには、ちょっとした遅れを挿入したり、到着したデータを集めてバッチ処理した方が、その集まったデータに見られるトレンドを見つけやすくなる。そんなユースケースのためにKinesis Analyticsでは、“ウィンドウ(窓)”をセットできる。窓には三種類あり、周期的なレポート用にはタンブリングウィンドウ、モニタしてトレンドを見つける用途にはスライディングウィンドウ、この二つでだめなときには、時間間隔を任意に設定できるカスタムウィンドウを作れる(何らかの対話性に基づく間隔でもよい)。

Kinesis Analyticsは、AWS Lambdaのように、サーバーレスで処理を行うAWSのプロジェクトの一環だ。このサービスの標準的なユースケースはIoTのアプリケーションだと思われるが、そのほかに、オーディエンス追跡システムや、広告の取り替え処理、リアルタイムのログ分析などにも好適だ。しかもSQLがそのまま使えるので、特殊なSDKをインストールしたり、新しい言語を勉強する必要はない。

このサービスは現在、AmazonのEU(アイルランド)、US East(ノース・ヴァージニア)、US West(オレゴン)の各リージョンで使える。料金は処理量に応じての従量制だ。処理量の単位は、仮想コア一つ、メモリ4GBの仮想マシン一台相当とする。それは、アメリカのリージョンでは1時間あたり11セント、アイルランドのデータセンターでは12セントだ。ただし料金は可変であり、たとえば追加のデータをバーストで処理するような場合には変わる。デフォルトの料金は、毎秒1000レコードというデータ取り込み量を想定している。サービスのスケールアップ/ダウンは、必要に応じて自動的に行われる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

インメモリデータベースのMemSQLがシリーズCで$36Mを調達、ビッグデータの優等生に投資家が殺到

23827490171_fb0198e989_k

インメモリデータベースのMemSQLが今日、シリーズCで3600万ドルを調達したことを発表した。新規の投資家REVとCaffeinated Capitalがラウンドをリードし、既存の投資家Accel Partners, Khosla Ventures, Data Collective, IA Ventures, およびFirst Round Capitalも参加した。

2011年にY Combinatorを卒業したMemSQLは、リアルタイムのビッグデータ分析という分野で活躍するスタートアップで、ほかにHortonWorks, Cloudera, Couchbase, SAP Hana, MongoDBなどもこの分野の主力選手たちだ。MemSQLの協同ファウンダーEric Frenkielによると、今回のラウンドは参加を希望する投資家が多すぎて、一部のコンペティターの評価額が下がってる中でのその現象はきわめて異例だ、という。

“ビッグデータの市場は今急速に、主記憶とApache SparkやKafkaのようなソフトウェアを使うリアルタイム処理に移行しつつある。企業はMemSQLを利用して、データのリアルタイムストリームを作り、分析できる”、と彼は語り、加えて、“ビッグデータ企業の多くが、オープンソースのモデルで投資家の高い期待に応えようとして、苦戦している。しかもそのやり方は、結構高くついている”、と述べた。MemSQLには、そのデータベースの無料バージョンはあるがソフトウェアはオープンソースではない。

Frenkielによると、同社の現在の顧客の中には、Pinterest, Comcast, Akamai, Kellogg’sなどがいる。

今回の新しいラウンドは、2014年の3500万ドルのシリーズBに次ぐ資金調達だ。同社の調達総額は、これで8500万ドルになる。計画では今回の資金は、“技術、営業、サポート、マーケティングなどすべての分野で成長を加速していくために”、使われる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ストリーミングSQLデータベースPipelineはデータベースへの連続的なリアルタイム出力をサポート

16248892298_94c1d92ada_h

PipelineDBはY Combinatorの2014年冬季の出身だが、そのストリーミングSQLデータベース製品のオープンソースバージョンを今日(米国時間7/7)一般公開した。商用バージョンのリリースは今年の後期の予定だ。

このオープンソースのデータベースはSQLのクェリを連続的にストリーミングで流し、結果のテーブルを次々と保存する。協同ファウンダのDerek Nelsonはこう説明する: “連続的な処理とリレーショナルのストレージを一体化しているので、ストリーム処理をしながら、別途、外付けのストレージシステムを管理しなくてもよい”。

典型的なユースケースは、分析やモニタリングを継続的に行って結果を逐次、リアルタイムで報告するもの。たとえばeコマースのサイトが行うA/Bテストは、結果のログを翌日見るのではなく、刻々と変わっていく状態をリアルタイムで見ることができる。

Nelsonの主張によると、このプロダクトは、通常のデータベース作成過程であるETL(extract, transform and load…データを取り出す、変形する、ロードする)を不要にする。PipelineDBはこれら全体を一つの流れにすることによって、リアルタイム化する。

また、他のストリーミングプロダクトのように特別のプログラミング言語を必要とせず、誰もがおなじみのSQLのクェリを使うから、企業ユーザなどでもPipelineDBを今日からすぐに使える、というところが多いはずだ、と彼は言う。

Nelsonは、前にAdRollで仕事をしていたときに、クェリとその結果の連続的ストリーミング、というアイデアを発想し、いつかそのためのツールを作ってやろう、と思っていた。そして同社を辞めてから、念願のツール作りに取り組み、PipelineDBが生まれた。

オープンソースで出すことに決めたのは、実用上の理由からだ。まず第一に、実動プロダクトだけだと、新米のスタートアップが顧客企業の信頼を得ることが、なかなか難しいこと。ソースがオープンであれば、企業はそれを見て、彼らのプロダクト(PipelineDB)に納得することができる。

第二に、Nelsonの説では、Facebook、Google、Amazonといった巨大テクノロジ企業はすべてオープンソースがベースだから、そういうところへプロプライエタリなプロダクトを持ち込んでも、勝ち目はない。

“Y Combinatorに参加したことは、とても良かった”、とNelsonは語る。クラスの中で突出してテクニカルな企業だったため、ちょっと異端者だったが、商業的なプロダクトと競合しなかったため、楽でもあった。

彼によると、YCに参加したためコネができ、多くの企業と営業以前の会話ができたし、またYCのパートナーたちから知恵と経験談を授かった。そういうことの価値が、ものすごく大きかった、と彼は言う。

本日オープンソースのプロダクトをリリースしたことにより同社は、新たな一歩を踏み出すことができた。

PipelineDBはシード資金は獲得しているが、その額は公表していない。投資家は、SV Angel、Data Collective、Paul Buchheit、Susa Ventures、TenOneTen、および数名のエンジェルたちだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

分散データベース管理のNuoDBが拡張シリーズBで$14.2Mを調達

マサチュセッツ州ケンブリッジの、分散データベースの管理を専門とするNuoDBが、ヨーロッパで二番目に大きいソフトウェア企業Dassault Systèmesが率いるラウンドにより、1420万ドルを調達した。それまでの投資家Morgenthaler VenturesHummer Winblad Venture Partners、そしてLongworth Venture Partnersらもこのラウンドに参加した。

この新たなラウンドは実は同社の2012年のシリーズB1000万ドルの拡張で、トータルでは2620万ドルの資金調達になる。NuoDBによると、2013年には同社はサービスの一般公開と最初の顧客獲得に注力した。それに続く今年は、営業とマーケティングチームの構築に力を入れたいため、新たな資金調達をすることを決めた。

データベースアーキテクトJim StarkeyとCEOのBarry Morrisが創業したNuoDB は2010年にローンチし、同社のデータベース関連プロダクトは2013年1月に一般公開された。すでにそのときで顧客企業は25社あり、今ではAutoZone、DropShip Commerce、ゲームデベロッパZombie Studiosなどの有料顧客のほか、全世界で約11000のデベロッパが無料のNuoDB Developer Editionを利用している。今年は売上を少なくとも300%伸ばしたい、と同社は言っている。

従来のデータベースと違ってNuoDBは分散システムの上で仕事をし、それらに”耐久性のある分散キャッシュ“を使わせることによって自在なスケールアウトと~~インを可能にし、安価なコモディティハードウェア(x86機)と仮想マシンが使えるようにしている。同社の主張によると、そのシステムには単一障害点が存在しないそうだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


SkySQLがオープンソースの関係データベースMariaDBのサポート強化で$20Mを調達, AWSユーザにもサービスを提供

SkySQLが、同社のMariaDBのサポートを強化するために2000万ドルを調達した。この、急成長しているオープンソースの関係データベースを、最近はWikipediaも採用した。今回の投資ラウンドはIntel Capitalが仕切り、California Technology VenturesやFinnish Industry Investment、Open Ocean Capital、Spintop Private Partnersなども参加した。

これまでMariaDBは主に技術者コミュニティのプロジェクトだったが、今年はWikipediaがその基盤的SQL技術として採用し、またFedoraやOpenSuseのようなメジャーなLinuxディストリビューションも基本パッケージの一環として採用した、とSkySQLのCEO Patrik Sallnerは述べる。今回の投資ラウンドはSkySQLのMariaDB開発努力が認められた証でもあり、また、主要なMySQL代替製品の位置を獲得したことをも、示している。

新たな資金はオープンソースプロジェクトMariaDBの開発継続と、サポートの充実、そしてMariaDBデータベースサーバをスケールするための商用製品の開発に充てられる。たとえばSkySQLはそのサポート業務の一環として企業によるMySQLからMariaDBへの移行を支援し、バグフィックスなどのサポートサービスを提供している。また今後は、NoSQLデータベースとの統合も強化していく。MySQLは、そのパフォーマンスの良さとトランザクション機能により、スタンダードにのし上がった。NoSQLはそのスケールアウト機能(分散化展開)により、ユーザを増やしている。この二つのデータベース技術の組み合わせは”NewSQL”と呼ばれるトレンドになっており、SkySQLはそれを自己の商機としてねらっている。

MySQLは、スケーラビリティが弱点とされ、Amazon Web Servicesのようなクラウドサービスには向かないと言われていた。最近のデータベースは、複数のサーバに共有される形での開発と展開が必要とされる。FacebookやGoogleなどはそのためのスキルを持っているが、多くの中小企業は持ち合わせていない。しかしそのようなスケーリングの能力がMariaDBには最初からあり、またそのサポートをSkySQLが提供する。

そこで昨年の9月にSkySQLは、Amazon Web Services上のデータベースをスケールするサービスを立ち上げた。対象はデータベース管理者だが、企業のデータベース環境をクラウド環境へ展開するための技術的スキルのない、エンドユーザを主にねらっている。このサービスはIT管理者に管理コンソールを提供して、インスタンスの管理、ネットワーク上の個々のノードの隔離と再構成、バックアップ、リストアなどを行わせる。このような高度な管理業務は、よほど強力なデータベース管理技術のある企業でないと、自前でやるのは無理である。

同社のデータベース技術はマスマーケットで受け入れられるにふさわしい、歴史的背景を担っている(MySQLスピンオフ)。4月に同社はMySQL ABチームのオリジナルメンバーを抱えるMonty Programと合併し、MariaDBを今後強力に支えていくためのスタッフを得た。

しかし今、データベース業界は多様化と競争が激化している。そしてデベロッパたちは、NoSQLのシンプルさと展開の容易さを好むようになっている。しかしデベロッパが欲するものは、アプリケーション開発のできるかぎりの短期化だ。アプリケーション開発がますます手工芸でなくなりつつある今は、開発の迅速性がより一層求められるようになっているのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))