DataStaxがCassandraデータベースのためのKubernetesオペレーターをローンチ

米国時間3月31日、オープンソースのApache Cassandraプロジェクトを支える商用企業DataStaxが、データベースのクラウドネイティブバージョンを動かすために同社が開発したKubernetesオペレーターをオープンソースで発表した。

DataStaxの最高戦略責任者である Sam Ramji(サム・ラムジ)氏が2019年にGoogleから来て最初に取り組んだのが、KubernetesとCassandraに関して顧客、パートナー、コミュニティメンバーの動向をつかむことだったが、そこでわかったのはサポートが驚くほど限定的だったことだった。

一部の企業はKubernetesのサポートを自分たちで構築していたが、DataStaxには自社サポートと呼べるものがなかった。KubernetesはGoogleで生まれ、そして現在、DataStaxはコンテナ化を熱心に推進している。そこでラムジ氏は、顧客がKubernetesの利用を始めやすくするためのオペレーターがDataStaxにあるべきだと考えた。

「オプションとしてコミュニティに提供しているKubeオペレーターの特別な点は、オペレーターをCassandra向けに一般化して、どこでそれを実装しても使えるようにしたことだ」とラムジ氏はいう。

ラムジ氏によると、多くの企業が独自にKubernetesを運用している企業の多くは、それらは各社の固有の要求に向けて独自化されている。それはそれで結構だが、同社がCassandra上に構築しているため、幅広いユースケースにアピールできる一般的なバージョンを開発したいと考えていたという。

Kubernetesでは、オペレーターはDevOpsチームによるパッケージングの仕方、アプリケーションの管理とデプロイの仕方、それを正しく動かすために必要なインストラクションなどの指示を与える。DataStaxが今回作ったオペレーターは、Cassandraを幅広い前提条件で実行するために特別に作成ししたものだ。

Cassandraは強力なデータベースで、他のデータベースがダウンしても動き続ける。そこでAppleやeBay、Netflixなども主要なサービスを実行するために使っている。この新しいKubernetesの実装により、コンテナ化したアプリケーションとしてCassandraを動かしたいという人は誰でも利用できるようになり、Cassandraをモダンな開発領域へと押し上げられるようになる。

同社はまた、新型コロナウイルス(COVID-19)のためデータベースの利用が増えて苦労している技術者を助ける無料のヘルプサービスを発表した。彼らはそのプログラムを「Keep calm and Cassandra on(落ち着いて、Cassandraを動かそう)」と呼んでいる。Cassandraのようなシステムの稼働の維持を任されている技術者をサイトリライアビリティエンジニア(SREs、サイトの信頼性を維持するエンジニア)と呼ぶ。

ラムジ氏の説明によると「この新しいサービスは完全無料のSRE間のサポート通話だ。我々のSREたちは世界中どこからのApache Cassandraユーザーからの電話に対応する。需要増に対応しようとしているCassandraのバージョンは何でもよい」という。

DataStaxは2010に創業され、PitchBookのデータによるとこれまで1億9000万ドル(約206億円)を調達している。

関連記事:DataStax Lands $106M In Series E Funding(未訳)

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

Amazonが100以上の消費者サービスをOracleからAWSに移行

AWSOracle(オラクル)は互いにやり合うことが好きだが、このところAmazon(アマゾン)の優勢が続いているから、実はAmazonはOracleの顧客だったと認めざるをえない状況になってしまった。というのも、米国時間10月15日のAWSのブログ記事で同社は、Oracle for AWSを廃止して最後のOracleデータベースを実質的に閉鎖したと発表した。

それは具体的には、7500近くのOracleデータベースに保存されていた75PB(ペタバイト)のデータだ。この移行を発表するブログ記事でAWSのJeff Barr(ジェフ・バー)氏で「このデータベース移行作業が完了したことをご報告できてとても嬉しい。Amazonの消費者事業がついに、その最後のOracleデータベースを廃止した。ただしOracleと密接に結びついている一部のサードパーティアプリケーションは移行しなかった」と書いている。

これまで数年かけて同社はデータベースのOracle離れを進めてきたが、Amazonほどの巨大企業になると移行は容易な作業ではない。しかし、バー氏によると移行すべき理由がたくさんあったという。「何千ものレガシーのOracleデータベースを管理しスケールするために費やす時間があまりにも大きすぎた。データベースの管理者たちは、差別化のための高度な仕事ではなく、データの保存量が増えトランザクションレートが高くなると、とにかく無事に動いていることを確認するだけのために大量の時間を消費した」と彼は書いている。

100あまりの消費者サービスがAWSのデータベースに移された。その中には、AlexaやAmazon Prime、Twitchなど顧客対応のツールもある。AdTechやフルフィルメントのシステム、外部決済、発注など社内的ツールも移った。これらはいずれも、Amazonの中核を支える重要なオペレーションだ。

それぞれのチームが、OracleのデータベースをAmazon DynamoDBやAmazon Aurora、Amazon Relational Database Service(RDS)、Amazon RedshiftなどAWSのデータベースに移した。どれを選ぶかは、それぞれのニーズや要求に応じて各グループに任された。

Oracleに問い合わせたが、この件についての回答はなかっった。

関連記事:AWSはアグレッシブに世界制覇を目指す――エンタープライズ・コンピューティングで全方位路線

画像クレジット: Ron Miller

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

AmazonのDynamoDBにマシン効率で勝るScyllaDBとは?

オープンソースのデータベースはたくさんあるが、NoSQLのScyllaDBは、ほかならぬAmazonのユーザーを惹きつけることによって自らを差別化しようとする。米国時間9月11日に同社は、Amazonの顧客の同社製品への移行を促進するためにAmazonのDynamoDB用のマイグレーションツール(移行ツール)を発表した。

大胆な策だが、でもScyllaはフリーでオープンソースのプロダクトとその有料バージョンを軸としながら、常に大物プレーヤーのあとを追う性癖がある。この前は、分散NoSQLデータベースCassandraのユーザーをScyllaDBに移行させるためのツールを作った。

CEOのDor Laor(ドオール・ラオール)氏によると、DynamoDBの顧客は今やコードをほとんど書き換えずにScyllaDBに移行できる。「今日DynamoDBを使ってる人でも、その同じドライバーと同じクライアントコードを使える。というより、クライアントコードは1ビットたりとも変える必要がない。アクセスを、Scyllaが動いている別のIPアドレスにリダイレクトするだけだ」とラオール氏は言っている。

AmazonのDynamoDBのユーザーがわざわざScyllaDBに移行する理由な何だろう。同氏によると、ハードウェアをもっと効率的に使っているので高速かつ安価な体験を提供するからだ。ゆえに、同じワークロードを少ないマシンでしかも高速に動かせる。もちろんコスト低減に寄与する。

同社はシリーズCのエクステンション(追加)としてEight Roads Venturesがリードするラウンドにより2500万ドルを調達した。これまでの投資家Bessemer Venture PartnersとMagma Venture Partners、Qualcomm Ventures、そしてTLV Partnersも参加した。これでScyllaの調達総額は6000万ドルになる。

同社は創業から6年めで、今の顧客にはComcastやGE、IBM、Samsungなどがいる。ラオール氏によるとComcastはCassandraを400台のマシンで動かしていたが、Scyllaでは同じワークロードをわずか60台で動かせたそうだ。

ラオール氏のデータベース歴は長いが、それはCassandraやDynamoDBなど個別の製品を使うというレベルではない。彼によると「主な目標はデフォルトのNoSQLデータベースになることだ。ビッグデータやリアルタイムのワークロードを抱える人たちが、真っ先にScyllaDBを考えるようにしたい。そうやって、デフォルトになれるだろう」とのこと。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

MongoDBのGlobal Clustersを利用するとデータの地理的配置が楽にできる

MongoDBAtlasは、クラウド上のマネージドデータベースサービスだ。マネージド(managed, 管理つき)というのは、データベースのセットアップやメンテナンスは全部Mongoが面倒見るので、デベロッパーがそのレベルで苦労する必要はない、という意味だ。今日(米国時間6/27)同社は、このやり方をさらに一歩前進させて、顧客がデータの所在(地理的配置)を細粒度でコントロールできる、Global Clustersと呼ばれる機能を発表した。

これによりユーザー企業はクラウドプロバイダーを自由に選び、そしてAtlasが動くMongoDBのデータベースからは世界のデータのどの位置にも移動できるようになる〔後述〕。MongoDBのCTOで協同ファウンダーのEliot Horowitzの説明によると、クラウドプロバイダーはどこの誰であってもよい。データの位置ポリシーを設定し、クラウドベンダーとデータセンターの場所を選び、その結果をグラフィカルな世界地図(下図)の上で見ることができる。それでOKなら、Mongoがバックグラウンドで自動的にデータを移動し、そのときシャットダウンは不要だ。

Global Clustersのインタフェイス。スクリーンショット提供: MongoDB

今月発効したEUのGDPRに見られるように、多くの国がデータ主権(data sovereignty)の証拠を求める。でも企業がそのような規則に自力でコンプライアンスすることは、難題である。Horowitzによると、彼はAtlasのための地理的パーティションを作ったが、それは技術的にものすごい苦労だった。しかしそれをこのようなサービスとして提供することによって、データのマイグレーションを小企業でもできるようになり、彼らは最初から(データに関し)地理的な粒度を持てることになる。

彼曰く: “圧倒的に数が多いのは小企業だが、彼らも今では、大型のWebサイトと互角に競争できると感じているし、最初からレベルの高いサービスを提供できる。しかもそのために、エンジニアのチームを雇う必要もない”。

Mongoから見てこのやり方が優れているのは、ユーザー企業自身が全世界的なデータセンターを構築しなくてもよいことだ。AWS, Microsoft, Googleなどメジャーなパブリッククラウドプロバイダーがグローバルなロケーションを持っているから、それに乗っかるだけでよい。

“データセンターはクラウドプロバイダーが持ってる、というところがクールだね。ユーザーが必要とするリージョンを持ってるクラウドプロバイダーを、選べばよいのだ”、と彼は言う。

Atlasのユーザーは今日からこの機能を利用できる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Google Cloudのマネージドデータベースサービスがクラウドサービスとしての機能を充実

Googleがクラウドから提供しているデータベースが今日(米国時間4/25)、アップデートされた。画期的な新製品に生まれ変わったわけではないけど、それらのアップデートはすべて、企業がクラウドへ移行するときに経験するさまざまな痛点に対処している。

Googleのプロダクト管理のディレクターDominic Preussによると、Googleは長年、データベースの世界における思想のリーダーを自負している。思想のリーダーとは言ってもこれまでは、Bigtableに関するペーパーなどが主で、実際の製品で示す思想ではなかった。しかし最近では、グローバル分散データベースCloud Spannerが示すように、市場でもその姿が目立つようになった。

Preussによると、Googleのエンタープライズユーザーは彼らの既存のワークロードをクラウドへ移すことから始めるところが多い。しかしそれが一巡したら、新しいアプリケーションをクラウドに載せようとする。そしてそのとき求めるのが、クラウドのプロバイダーがアプリケーションやインフラの管理を肩代わりしてくれる、いわゆるマネージドサービスだ。

今日の発表も、エンタープライズに、彼らが求めるある種のマネージドデータベースサービスを提供していくことがメインのテーマだ。

まずそれは、ベータでローンチされるCloud Memorystore for Redisだ。これは完全に管理されるインメモリのデータストアで、大きなバッファリングをインメモリのキャッシュでやりたい、などのニーズに応える。

ビッグデータワークロード用のNoSQLデータベースサービスCloud Bigtableに、新しい機能が加わった。その、いずれregional replication(リージョナルレプリケーション)という正式名で呼ばれることになる機能は、オンプレミスのワークロードにApache Cassandraを使っていたエンタープライズに、Google Cloudにおけるその代替系を与える。そして、この、異なるゾーンにまたがるレプリケーションにより、Google Cloudに保存するデータの可用性と耐久性が高くなる。

今回のアップデートには、Cloud SQL for PostgreSQLのSLAにおける可用性を99.95%にすることも含まれる。またCloud Spannerには、コミットのタイムスタンプがつく。

Googleのクラウドデータベース周辺には、今後どんな新メンバーが登場するのか。Preussはその答を言わないが、今同社はエンタープライズができるだけ多くのワークロードをクラウドへ移行できるようにしたい、と考えているそうだ。つまり、マネージドサービスが今後も増える、ということだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

オープンソースの分散グラフデータベースDgraphが$3Mを調達しv.1.0にやっと到達

【抄訳】
このところ人気が盛り上がっているDgraphは、オープンソースの分散グラフデータベースで、デフォルトのクェリ言語としてFacebookのGraphQLをベースとする同社独自のGraphQL+-を使用する。今日(米国時間12/19)同社は、Bain Capital Venturesらから300万ドルの資金を調達したことを発表した。そのほかの投資家として、Atlassianの協同ファウンダーMike Cannon-Brookes, Blackbird Ventures, AirTreeなどの名が挙げられている。同社はこれを機に、その主製品であるデータベースがバージョン1.0に達したことを発表した。なお、300万ドルという額面には、昨年のシード資金110万ドルも含まれている。

DgraphのファウンダーManish JainはこれまでGoogleでWeb検索と知識グラフ(ナレッジグラフ)プロジェクトを担当していた。【中略】〔資金調達の経緯〕

Jainによると、グラフデータベースは長年、既存のリレーショナル・データベースを補完する二次的なデータベースとみなされていた。しかし最近では、アプリケーションがますます複雑になるにつれて、いろんなものともののあいだの、大量の関係を表現し追跡する必要性が生じてきた。となると当然、グラフデータベースの出番だ。Jainの予想では、今後ますます、多くの企業がDgraphのようなプロダクトをメインのデータ格納庫として使用するようになるだろう。グラフデータベースは、速さでリレーショナル・データベースに負けないだけでなく、いろんな形の関係性を表現できる柔軟性があるからだ。

DgraphがNeo4などの競合製品より優れているとJainが信ずるのは、それが最初から分散データベースとして構築されているからだ。投資家も同意見で、Bain Capital Venturesの専務取締役Salil Deshpandeは、昨年同社のシードラウンドに参加したとき、こう述べた: “今あるグラフデータベースは本物の分散ではない。それらはノードが一つなら立派に動くが、ノードが複数になると、いろんなアーキテクチャ的ハックに頼らなければならないから、スケールしない”。

Dgraphのプロジェクトは2015年にスタートし、これまでバージョン1.0に達していなかったが、それでもかなりの数のデベロッパーがプロダクションで(本番で)使ってきた。現在のユーザーは、ゲームサービス、広告、フィンテック企業などで、ユースケースは不正ユーザーの検出などだ。このほか、検索エンジンやIoT、医学研究、機械学習、AIなどのユースケースも多い。

Jainによると、プロジェクトをオープンソースにしたのは熟考を重ねた結果だ。Apacheライセンスにしたのは、エンタープライズユーザーに受けが良いからだ。彼によると、このようなプロジェクトが十分な採用数に達するためには、オープンソース以外の道はない。“Uberが使い始めたら、新しいユーザーがどっと増えるだろうね”、と彼は言う。

収益源としては、近くリリースするDgraphのエンタープライズバージョンが軸だ。それはクローズドソースで、同社がホストするバージョンだ。Jainは冗談半分で、それぞれの顧客のそれぞれ独特な環境の面倒をいちいち見てあげるよりも、サービスをこっちでホストした方が楽だ、と言う。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

GoogleのCloud Spannerデータベースがマルチリージョンをサポート、年間ダウンタイム累計5分未満を約束

Googleのグローバルな分散データベースCloud Spannerが今日(米国時間11/14)アップデートされ、マルチリージョン(複数リージョン)がサポートされた。データベースを複数のリージョンにまたがって複製しても、レイテンシーは増えず、良好なパフォーマンスが保証されるという。また、サービス水準合意(Service Level Agreement, SLA, サービス品質保証)も、顧客が満足すると思われる方向へ改定された。

上記後者(新SLA)によると、Cloud Spannerデータベースは99.999%(five nines)の可用性が保証される。Cloud SpannerのプロダクトマネージャーDeepti Srivastavaによると、これは年間のダウンタイムに換算すると5分未満となる。

“システムの可用性と効率を高める改造を行ったので、サービスにそのことが反映されると期待される”、と彼女は述べる。なお、Cloud Spannerは、このようにサービスとして提供される前には、AdWordsなどGoogle内部のプロダクトで使われていた。今でもそうだから、GoogleにとってAdWordsがダウンしたら直接、売上に響く。だからまずGoogleにとって、それはダウンタイムがあってはならない。今では同社の人気サービスの多くが、Cloud Spannerを使っている。

“それは、Googleが動かしているミッションクリティカルなアプリケーションの最前線でテストされている”、とSrivastavaは説明する。

しかしこれまでは、複数リージョンにまたがるサポートが欠けていたので、Cloud Spannerを一箇所に置くことしかできなかった。それが、今日のマルチリージョンサポートの発表で変わった。ユーザー企業は、データベースをエンドユーザーに近いところに置けるようになる。それにより当然、レイテンシーが減り、応答性が良くなるだろう。

Cloud Spannerは今年の初めにベータで提供されたが、それはまるでマジックのように思えた。それは、SQLデータベースのようなトランザクションの一貫性と、NoSQLデータベースのスケーラビリティを兼備している。この両者が揃うことは稀であり、今日ではEvernoteやMarketoなどもCloud Spannerを利用している。

Googleは、Cloud Spannerの導入はわずか4クリックで完了、と謳っているが、既存のデータベースを移行する場合はそう簡単ではないだろう。Srivastavaによると、それはシステムのタイプ次第だ、という。まったく新しいアプリケーションのために新たに導入するのは簡単だが、Cloud Spannerを使うために既存のデータベースシステムのアーキテクチャを変えなければならない場合は、それなりの時間がかかるだろう、と彼女は語る。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

データベースの健康長寿を守るCockroach LabsがシリーズBで$27Mを調達、複製の粒度をさらに細かく

“自分を複製することによって生き延びるデータベース”…Cockroach LabsのCEO Spencer Kimballは、同社の覚えやすい社名とその価値命題の関係をこう説明する*。エンタープライズ・サービスは混みあった市場だが、Cockroachはテクノロジー世界の高名なVCたちに愛されてきた。今日(米国時間5/10)は2700万ドルのシリーズB資金を、Redpointがリードし、Benchmark, GV, Index Ventures, そしてFirstMarkが参加したラウンドで調達した。〔*: cockroach, ゴキブリ, グローバルな熱核戦争に生き残る唯一の高等生物がゴキブリだ、と言われる〕。

同社のプロダクトCockroachDBは、最適化によってデータベースのダウンタイムを極小にするオープンソースのサービスだ。あなたがどこかのWebサイトを訪れるたびに、あるいは銀行口座をチェックするたびに、大好きなSNSにログインするたびに、あなたが必要とする情報をそれらのサイトのデータベースが提供する。

CockroachDBは文字通りあの昆虫のように自分自身を複製してそこら中に拡散するから、単一の無防備な標的になることがない。ゴキブリは、全生物が滅びる最後の世界大戦にも生き残る。同社はこの機能のことを、マルチアクティブ・アベイラビリティ(multi-active availability, 多重活性可用性)と呼ぶ。あなたの会社の製品やサービスが、どれだけ広範囲に採用されていても、致命的エラーを抑止することはつねに最優先事項だ。

新たな資金の導入に加えてCockroachは今日(米国時間5/10)、そのプロダクトのバージョン1.0を公式に発表した。Kimballによると、ベータ期間、あるいはそれよりも前から、スタートアップたちを中心とする熱心な顧客たちは、まだ正式なデプロイには適さないとされる段階のサービスを実装してきた。それは一見怖い話だが、この三年間同社がやってこれたのも、熱心なコミュニティのおかげだ。

“5か月後に1.1、その後は6か月ペースでアップデートしていく”、とKimballは語る。

最初GitHub上の(==オープンソースの)プロジェクトだったCockroachだが、今後は有料のエンタープライズユーザーを収益源にしていく予定だ。その有料バージョンには、エンタープライズのサポートのほかに、分散バックアップと分散リストアの機能が含まれる。大量のデータを管理し重要な業務を抱えるユーザーには、必須の機能だ。

中国の複合テクノロジー企業Baiduは、Cockroachの初期からの顧客のひとつだ。同社はこれまでCockroachのテスト役を買って出て、一日に20億のINSERTを処理し、それと並行して、悪夢のようなシナリオの数々をシミュレートしてシステムの自己回復力をテストしてきた。

Kimballが語る、年内に実現したい課題は、営業チャネルの拡大などのありきたりのものではなく、彼が地理的分割(geo-partitioning)と呼ぶ機能の実装だ。それは、カラムのレベルでの複製を地理的に細かい粒度で行う、という、複製のコントロールの細分化だ。

Cockroachが自分をGoogleのCloudSpannerから差別化する大きな要因が、オープンソースだ。地理的分割も、大きな差別化要因になるだろう。複製の細粒度化によってレイテンシーが減るだけでなく、データの独立性(他に侵されないこと)もよりしっかりと守られる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

MongoDBのクラウド上のデータベースサービスAtlasに無料プランが登場してフリーミアムに

MongoDBは今でも主力製品のNoSQLデータベースで有名だが、しかし昨年同社は、Atlasという、管理サービスつきのデータベースサービスを立ち上げた。そのクラウドサーバーは、AWS上で動いている。立ち上げ時点では有料サービスのみだったが…AWSの使用料も払わなければならないから当然か…、今日からはMongoDBを勉強したいデベロッパーや、これから新しいアプリケーションのプロトタイプを作る、といった人たちのために、無料サービスの提供を開始する。

無料プランには当然ながら制約もあり、たとえばストレージは512MBしか使えない。でも、可用性の高いAtlasのクラスターにアクセスできる点では有料プランと同じで、しかも、保存されている、あるいは転送時の、データは暗号化される。だからストレージが小さい点をのぞけば、サービスの内容は有料プランと変わらない。MongoDBをこれから勉強しよう、というユーザーにとっては、ストレージのサイズもこれぐらいで十分だろう。

無料プランがなぜこんなに遅れたのか、という問いに対してMongoDBのクラウドプロダクト担当VP Sahir Azamはこう答える: “無料プラン(Free Tier)のユーザー体験を、最初から本格的なものにしたかった。最初に立ち上げた有料プランも、販促のための無料利用の部分がかなりあり、デベロッパーはかなり気軽に完全なプロダクトを体験できた。そして彼らからのフィードバックが、無料プランでも高可用性とモニタリングと主要なセキュリティ機能をを提供すべき、という確信をわれわれに与えた。そのほかの機能やツールについても、それらをすべて提供すべき、という確信が得られた。つまりこれまでの有料ユーザーからのフィードバックを見るかぎり、ユーザー体験のクォリティーという点から、有料バージョンと完全に同じものを提供すべき、という結論にならざるを得なかった”。

また、今日同時にローンチしたデータマイグレーションツールmongomirrorにより、既存のMongoDBのデプロイメントをAtlasへ移せる。このツールは、将来的にはクラウド上のツールとしてAtlasから提供される予定だ。

Atlasの利用状況についてMongoDBは詳しい数字を明かさないが、“全世界の数千の企業で使われている”、とだけ言った。その中には、オンラインデートサービスeHarmonyや、バイオテックのThermo Fisherなどが含まれる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

コンテンツ・アドレッサブルで多バージョン分散データベースNomsのAttic Labsが$8.1Mを調達

1-lsdbfqbeg_rcgnidp40dia-1

サンフランシスコのAttic Labsが今日(米国時間8/2)立ち上げたNomsは、新しい分散データベースで、その‘新しさ’はGit, Camlistore, ipfs, bupなどからヒントを得ている。同社の今日の発表では、GreylockがリードするシリーズAで810万ドルを調達し、Nomsなどのプロジェクトの継続が可能になった。Harrison Metalなどのエンジェル投資家たちも、このラウンドに参加した。

Attic Labsが初耳の人でも、ほとんどの人が、ここのチームが関わったプロジェクトのどれかを、使ったことがあるはずだ。たとえば協同ファウンダーのAaron BoodmanはGreasemonkeyの作者だし、Google Chromeの開発リーダーでもあった。もう一人の協同ファウンダーRafael WeinsteinもChromeの開発(等々)に関わり、チームのほかのメンバーたちも、Chrome、Chrome OS、ECMAScript(JavaScriptのスタンダード)などで仕事をしている。

では、Nomsは、これまでのデータベースとどこが違うのか? チームが主張するのは、今日のデータベースはその多くが、“データを単一時点の存在”と捉えている。たとえばある欄がアップデートされると、アップデートされた時点の値がその欄の値に(次にアップデートされるまで)なり、前の値を知ることは困難である。今のデータベースを分散化することは可能でも、利用する側にとってそれは単なる単一のデータ集合であり、分散にユーザーレベル、アプリケーションレベルの意味は何もない。

そこでBoodmanが今日の発表声明で書いているのは、Nomsはたぶん、Gitと比較すると分かりやすいだろう、ということだ。GitのようにNomsでもユーザーはデータをレプリケート(複製)でき、複数のマシンの上でオフラインでエディットし、それらのエディットを再びシンクする(BoodmanとWeinsteinはAvantGoなどのシンクサービスの仕事をしたこともある)。Nomsでは、ヴァージョニングとエディットが破壊的でない〔前のバージョン、前のエディットが消えない〕。ただしGitと違うのは、保存するのが定型データだけで、テキストファイルは保存しない。主に、非常に大きなデータ集合をサポートすることが目的だ。

そのため、Nomsはとくに、大量のデータをインポートする業務に向いている(自動的に重複エントリを一つにする)。また、複数のソースからのデータを組み合わせ結びつけるタスクにも合う(データの変形が簡単にできる)。そしていちばん得意なのは、そんなユースケースで必ず必要になる、大きなデータセットのシンクだ。

Boodmanは次のように書いている: “Gitがソフトウェアの世界をほとんど一晩で席巻してしまったのは、分散が本質であるためにソースコードが複数のコンピューターや組織、そして人びとのあいだを、とてもなめらかに移動し、それによって、すごく充実したコラボレーションが可能だからだ。世界は、データをなめらかに共有し、密なコラボレーションのできる方法を必要としている、と思う。それを実現する自然で必然的な方法は、コンテンツでアドレシングできる(content-addressed)〔日本語Wiki〕、非集中型で、シンク能力のあるデータベースだ”。

今日の投資の結果として、GreylockのJerry ChenがAttic Labsの取締役会に加わる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Microsoftはビッグデータ分析とその応用プロダクトでApache Sparkに総賭けの姿勢

microsoft_cloud_logo

Microsoftが今日(米国時間6/6)、オープンソースのクラスターコンピューティングフレームワークApache Sparkに、本格的にコミットしていく、と発表した

昨年、Sparkのエコシステムの浅瀬でちょっと足を濡らしてみたMicrosoftは、本日、いくつかのSpark関連サービスのプレビューを終えてそれらを公式ローンチし、またR Server for Hadoopのオンプレミスバージョンが今後はSparkベースになる、と発表した。R Serverの‘R’は、今人気がますます盛り上がっている、ビッグデータ分析とモデリングのためのオープンソースの言語Rを指す。

spark-logo-trademark

さらにMicrosoftは、R ServerのAzureクラウドバージョンR Server for HDInsightがこの夏の終わりごろプレビューを終えて一般公開される、と発表した。なおSpark for Azure HDInsightは今すでに一般公開されていて、Hortonworksによる管理を伴うSparkサービスがサポートされる。MicrosoftのビジネスインテリジェンスツールPower BIも、今ではSpark Streamingをサポートし、ユーザーはリアルタイムデータをSparkから直接Power BIへプッシュできる。

これらの発表はすべて、Microsoftが“Sparkへの幅広いコミットによってMicrosoftのビッグデータ分析プロダクトを強化する”、と述べる方針の実現(の一環)だ。プロダクトはPower BIやR ServerだけでなくCortana Intelligence Suiteも含まれる。こちらはMicrosoftの複数のビッグデータ分析サービスを併用し、いくつかの機械学習ツールも利用するシステムだ。〔Cortana参考サイト

今週サンフランシスコで行われるSpark SummitでMicrosoftは、Google, Baidu, Amazon, Databricksなどなどと共にスポットライトを浴びる気でいる。その席でMicrosoftは、同社がSparkに今どれだけ入れ込んでいるか、その情報をシェアする、と約束している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

インメモリデータベースのMemSQLがシリーズCで$36Mを調達、ビッグデータの優等生に投資家が殺到

23827490171_fb0198e989_k

インメモリデータベースのMemSQLが今日、シリーズCで3600万ドルを調達したことを発表した。新規の投資家REVとCaffeinated Capitalがラウンドをリードし、既存の投資家Accel Partners, Khosla Ventures, Data Collective, IA Ventures, およびFirst Round Capitalも参加した。

2011年にY Combinatorを卒業したMemSQLは、リアルタイムのビッグデータ分析という分野で活躍するスタートアップで、ほかにHortonWorks, Cloudera, Couchbase, SAP Hana, MongoDBなどもこの分野の主力選手たちだ。MemSQLの協同ファウンダーEric Frenkielによると、今回のラウンドは参加を希望する投資家が多すぎて、一部のコンペティターの評価額が下がってる中でのその現象はきわめて異例だ、という。

“ビッグデータの市場は今急速に、主記憶とApache SparkやKafkaのようなソフトウェアを使うリアルタイム処理に移行しつつある。企業はMemSQLを利用して、データのリアルタイムストリームを作り、分析できる”、と彼は語り、加えて、“ビッグデータ企業の多くが、オープンソースのモデルで投資家の高い期待に応えようとして、苦戦している。しかもそのやり方は、結構高くついている”、と述べた。MemSQLには、そのデータベースの無料バージョンはあるがソフトウェアはオープンソースではない。

Frenkielによると、同社の現在の顧客の中には、Pinterest, Comcast, Akamai, Kellogg’sなどがいる。

今回の新しいラウンドは、2014年の3500万ドルのシリーズBに次ぐ資金調達だ。同社の調達総額は、これで8500万ドルになる。計画では今回の資金は、“技術、営業、サポート、マーケティングなどすべての分野で成長を加速していくために”、使われる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Apache Cassandraデータベースを商用提供してきたDataStaxが昨年のAurelius買収の成果によりグラフデータベースをメニューに加える

shutterstock_222839971

DataStaxが昨年、グラフデータベースのAureliusを買収したときは、それは同社のDataStax Enterpriseプロダクトにグラフデータベースの機能を加えたいからだと思われたが、今日(米国時間4/12)同社はその目標を実現し、DataStax Enterprise Graphのリリースを発表した。

このエンタープライズグラフプロダクトはDataStax Enterpriseプロダクトセットに完全に統合され、これまでのキー・バリュー(key-value)、表形式、およびJSONドキュメントモデルに加え、初めてグラフオプションが顧客に提供される。

Kaiser PermanenteやCambridge Intelligence、Linkuriousなど10社による2か月の綿密なベータを経て同社は、このプロダクトをついに一般公開できることになった。この新しいグラフデータベースは、Aureliusが開発したオープンソースのグラフデータベースTitanがそのベースだ。

DataStax Enterprise Graphは複数のプロダクトで構成され、それらにはグラフデータベースを動かすDataStax Enterprise Server、管理部位DataStax OpsCenter、グラフを視覚化するDataStax Studio、多様な言語をサポートするDataStax Driver(s)などがある。

Graph visualization in DataStax studio.

グラフを視覚化するDataStax Studio(写真クレジット: DataStax

 

グラフデータベースはいくつかの点で、関係データベース(リレーショナルデータベース)と異なる。関係データベースでは複数の表のあいだの関係を定義し操作できるが、あまりにも複雑なデータや大量のデータになると、それらを十分な実用レベルで扱うことはできない。データ集合が大きくなり、さまざまなデータ間の関係が複雑になると、企業はそれらを無理なく表現し操作できる方法を求めるようになり、そこにグラフデータベースの出番がある。

いちばんよく知られているグラフデータベースは、FacebookのSocial Graphだろう。それは、あなた自身とあなたの友だちとの結びつきを表現する。このほか、たとえばAmazonのようなeコマースのサイトでは、ある製品とその関連製品の結びつきを表すために、この技術を利用している。Amazonで買い物をした人は、誰もがその機能を気に入るだろう。また医学の分野では、たとえば患者の症状とさまざまな疾病との結びつきを調べたり、クレジットカード会社は異常事と多様な犯罪的行為との関連を調べたりする。グラフ構造で表現するのがふさわしいデータ間の複雑な関係は、まだまだ、いろいろありえる。

DataStaxは社員が400名あまりいて、その実態はオープンソースのApache Cassandraデータベースのいわば商用部門だ。Cassandraへのコントリビューションも強力に行っており、また多様なサポートとより高度な機能を求める企業顧客向けには、そのエンタープライズバージョンをサポートしている。〔Cassandraのドキュメンテーションの多くがDataStax上にある。〕

同社は2010年にローンチし、これまでにおよそ1億9000万ドルを調達している。最近の資金調達は、2014年の1億600万ドルのラウンドだった。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

BIサービスのTableauがドイツのHyPerを買収してビッグデータ分析を高速化

shutterstock_1301396992

BIサービスのTableauが、ドイツの先進的データベース企業HyPerを買収したことを発表した。Tableauのねらいは、彼らの技術を自社のプロダクト集合に組み入れることだ。

Tableauはビジネスインテリジェンスとデータ分析の企業として、企業顧客が自分たちのデータからインサイトを得ることを助けている。大学の研究から生まれたHyPerのデータベース技術は、Tableauのすべてのプロダクトのパフォーマンスを向上させる。Tableauのエンジニアリング担当シニアディレクターPatrice Pellandは、そう説明する。

“HyPerはダイアモンドの原石だ。ミュンヘン工科大学(Technical University of Munich, TUM)の研究チームがそれを開発した”、とTableauは述べている。

Tableauは実は、この若い企業に前から注目していた。最初に発見したのは、データベース技術に関する学界の場だった。その技術が姿をなしてくるにつれてTableauは、それが同社のBIサービスによくフィットしていることが分かってきた。

HyPerがTableauに持参する能力の中には、データ分析の高速化がある。それは、データセットのサイズとは無関係であり、トランザクションのシステムと分析システムを一体化してプロセスをスピードアップする。またその多様な分析能力は、定型データと非定型データの両方をサポートし、ビッグデータの分析に威力を発揮する。

まだ生まれたてほやほやのHyPerは資金もなく、Tableauが買収しようとしたとき、顧客もいなかった。買収の条件をTableauは公表していないが、Tableauのスポークスパーソンによると、“それは現金以外の取引なので公表はできない”、という。つまり、おそらくそれは1億ドルに満たない価額と思われるが、まだ新生児のような企業だから、それも当然かもしれない。

HyPerのトップは、TUMの二人の教授で、これまで院生たちとともに研究を続け、HyPerデータベースシステムの開発に至った。Tableauも数年前に、大学(スタンフォード)の研究プロジェクトから生まれた。つまり両者は‘大学発’というルーツを共有する。二人の教授は当面コンサルタントとして仕事を続け、プロジェクトに関わった4人のPhDは、ミュンヘンに設けられるTableauのR&D部門を担当する。

そのオフィスは今後拡張する予定だが、最初何名の社員でスタートするかは、公表されていない。

今現在、彼ら新しい社員たちは、シアトルにあるTableauの本社を訪れて、技術者たちとHyPerのデータベース技術とTableauのプロダクトとの統合について、話し合っている。

これはTableauの二度目の買収だ。“うちの企業をもっと良くする機会はいつも探しているが、企業文化という重要なものがあるので、買収にはつねに慎重だ”、とPellandは述べる。

なお、Tableauは2013年に上場し、昨年7月には一株127ドル44千とという高値をつけた。しかし今週水曜日(米国時間3/9)の時間外では、42ドル64セントと落ち込んでいる。今年のテクノロジー株は年初から良くないが、Tableauの下げは激しすぎる。

〔ここにグラフが表示されない場合は、原文を見てください。〕

[graphiq id=”3oaS89DzStf” title=”Tableau Software Inc. (DATA)” width=”700″ height=”414″ url=”https://w.graphiq.com/w/3oaS89DzStf” link=”http://listings.findthecompany.com/l/14692592/Tableau-Software-Inc-in-Seattle-WA” link_text=”Tableau Software Inc. (DATA) | FindTheCompany”]

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Webスケールのサービスを作るためのキモ中のキモ、それは(とくにデータベースの)抽象化層だ

holygrail

[筆者: Salil Deshpande](Bain Capital Venturesの専務取締役で、主にインフラストラクチャのソフトウェアとオープンソースが専門。)

顧客は品物やサービスに今すぐ自分のいるところからアクセスしたいと欲するから、サーバーはリクエストの洪水になり、膨大な量の並列処理と応答能力が求められる。そこで今や、どんなタイプの企業も、“Webスケールの”*システムを作ることに力を入れている。〔*: Web-scale, “Web大の”。〕

Webスケールのシステムは最初、FacebookやGoogleのような巨大なサービスが必要とした。しかし今では、どんなサイズの企業でもこのスローガンを唱えている。Webスケールのアーキテクチャで作られたシステムは、その柔軟性とスケールとパフォーマンスで顧客を幸福にするから企業にとって必須である、と信じられている。

しかし、さまざまなテクノロジーの重なりの全体の中では、とくにデータベースが、Webスケールを構築するための最難関の隘路として目立っている。

それは単純に技術的難関であるだけでなく、データベースが当然のように持っている性格でもある。…データというものはACIDな特性を持ち、複数のサーバーに亙って複製される場合でも、いや、さまざまなデータセンターに分散していても、一貫性と保存性を維持しなければならない。そこでデータベース、とりわけ関係データベース(リレーショナルデータベース)は、Webスケールのの技術の重なり(“技術スタック”)の中でのアキレス腱であり続ける。データベースがアプリケーションのパフォーマンスを左右し、そして顧客が毎日体験するのはデータベースではなくてアプリケーションなのだ。

ぼくのVC稼業は今年で10年になるが、その過程で幸運にも、さまざまな関連技術に投資することにより、このアキレス腱の恩恵にたっぷりと与(あずか)ってきた。アプリケーションサーバーのSpringSourceに投資した。エンタープライズサービスバスのMuleSoftや、CassandraによるNoSQLデータベースDataStax、Redis NoSQLデータベースRedis Labs、インメモリコンピューティングファブリックHazelcast、JavaとScalaのためのマイクロサービスプラットホームAkka、AWS Lambda的なマイクロサービスアーキテクチャIron.io、などなどにも。これらはどれも、直接的または間接的に、データベースというアキレス腱の痛みを和らげていたが、痛みそのものと対決してはいなかった。

初めてWebスケールのの技術を作った彼らGoogleやFacebookは、従来からの(関係)データベースの問題を、抽象化層(abstraction layer)を作って解決した。彼らはそれを“データアクセスレイヤ”(data access layer)と呼び、それをアプリケーションとデータベースのあいだに置いた。

アップタイムに関しては多くの場合、データベースがシステムのいちばん弱い急所だ。

抽象化層は、そのぶん処理の負担は増えるけれども、これまであったアプリケーションとデータベースのあいだの1:1の結びつきを切るので、アップタイムとパフォーマンスを改善する。このような分離、このような離散的な技術の層は、アプリケーション開発を単純化し、Webスケールの利点をデータベースにももたらすので、今ではシステムとアプリケーションをスケールするときのベストプラクティスとされている。柔軟性(負荷耐性)とスケールとパフォーマンスが上がるからだ。

データベースの抽象化層と相前後して、一種のトレンドのように、さまざまな技術が“抽象化”され、あるいは“仮想化”された。サーバー仮想化やソフトウェア定義ネットワーク(SDN)、WebレベルにおけるWebロードバランサなどはいずれも、アプリケーションと低レベルとのあいだの1:1関係を破り、アップタイムとパフォーマンスにおけるWebスケールのの利点をもたらす。

データベースのレベルでは、抽象化層が提供する重要な利点により、データベースの欠点の一部が克服される。このような、データベースをロードバランスするソフトウェアは、たとえば、フェイルオーバーとスケールアウト(分散化)とスループットの高速化をを透明に可能にする。

上の、“透明に”がとくに重要だ。こういった能力をすべて、アプリケーションやデータベースに変更を加えずに獲得することが、キモ中のキモである。

初期のインターネット企業が“データアクセス層”を着想したときは、デベロッパーたちが抽象化層の仕様や特性に合わせてアプリケーションを書き換えなければならなかった。でも、アプリケーションとデータベースの仲を取り持つネットワークレベルの透明なプロキシなら、コードの書き換えやアーキテクチャの変更は要らない。このこともやはり、キモ中のキモである。

以下は、Bain Capital Venturesにおけるインフラストラクチャソフトウェアのプラクティスだ。うちのベンチャー資金の半分以上はこれらに投じられている。データベースのレベルにおける抽象化は、いろんなところで進展している:

  • 代替データベース
  • プロキシを作るデータベースベンダ
  • Webロードバランサ企業が彼らのプロダクトのSQLバージョンを作る。そして、
  • スタートアップは目的指向(purpose-built)のシステムを作る

以上はどれも、抽象化方式の価値を認知し、それをベースにしている。最初のWebスケールの企業がまさにそうだったし、これらのベストプラクティスは今では99%の企業を助けている。しかも彼らのほとんどは、数百名のエンジニアと数百万のドルを投じて抽象化層を自作してはいない。

われわれは4年前に、ScaleBaseに投資した。そこは、目的指向のデータベース抽象化ソフトウェアを作っているスタートアップだ。この企業の技術的資産は今ではScaleArcがオーナーになり、そこにはわれわれも最近投資をした。この技術は、データベースというアキレス腱に挑戦し、それを解消する。

調査会社のGartnerが最近、抽象化アーキテクチャに向かうこのトレンドを特集している。そこで同社は、“SQLロードバランシング”を、その最新の“ITサービスの継続性誇大宣伝賞”の一員に加えた。その報告書の中でGartnerは、ITショップが求めるべきソフトウェアの特質を次のように推奨している:

  • 複数のデータベースをサポートしている
  • クラウドでもオンプレミスでも快調に動く
  • セキュリティで妥協をしていない

アップタイムに関しては多くの場合、データベースがシステムのいちばん弱い急所だ。Webスケールを構築するテクノロジーの全体的な重なり(“スタック”)の中では、データベースがいちばん難しい部分だからだ。われわれは、全員がFacebookでもGoogleでもないから、内部のエンジニアだけで問題を解決できない。その代わり、データベース抽象化ソフトウェアが企業にWebスケールの能力を与える。彼らが必要とする、柔軟性とスケールとパフォーマンスを。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

ストリーミングSQLデータベースPipelineはデータベースへの連続的なリアルタイム出力をサポート

16248892298_94c1d92ada_h

PipelineDBはY Combinatorの2014年冬季の出身だが、そのストリーミングSQLデータベース製品のオープンソースバージョンを今日(米国時間7/7)一般公開した。商用バージョンのリリースは今年の後期の予定だ。

このオープンソースのデータベースはSQLのクェリを連続的にストリーミングで流し、結果のテーブルを次々と保存する。協同ファウンダのDerek Nelsonはこう説明する: “連続的な処理とリレーショナルのストレージを一体化しているので、ストリーム処理をしながら、別途、外付けのストレージシステムを管理しなくてもよい”。

典型的なユースケースは、分析やモニタリングを継続的に行って結果を逐次、リアルタイムで報告するもの。たとえばeコマースのサイトが行うA/Bテストは、結果のログを翌日見るのではなく、刻々と変わっていく状態をリアルタイムで見ることができる。

Nelsonの主張によると、このプロダクトは、通常のデータベース作成過程であるETL(extract, transform and load…データを取り出す、変形する、ロードする)を不要にする。PipelineDBはこれら全体を一つの流れにすることによって、リアルタイム化する。

また、他のストリーミングプロダクトのように特別のプログラミング言語を必要とせず、誰もがおなじみのSQLのクェリを使うから、企業ユーザなどでもPipelineDBを今日からすぐに使える、というところが多いはずだ、と彼は言う。

Nelsonは、前にAdRollで仕事をしていたときに、クェリとその結果の連続的ストリーミング、というアイデアを発想し、いつかそのためのツールを作ってやろう、と思っていた。そして同社を辞めてから、念願のツール作りに取り組み、PipelineDBが生まれた。

オープンソースで出すことに決めたのは、実用上の理由からだ。まず第一に、実動プロダクトだけだと、新米のスタートアップが顧客企業の信頼を得ることが、なかなか難しいこと。ソースがオープンであれば、企業はそれを見て、彼らのプロダクト(PipelineDB)に納得することができる。

第二に、Nelsonの説では、Facebook、Google、Amazonといった巨大テクノロジ企業はすべてオープンソースがベースだから、そういうところへプロプライエタリなプロダクトを持ち込んでも、勝ち目はない。

“Y Combinatorに参加したことは、とても良かった”、とNelsonは語る。クラスの中で突出してテクニカルな企業だったため、ちょっと異端者だったが、商業的なプロダクトと競合しなかったため、楽でもあった。

彼によると、YCに参加したためコネができ、多くの企業と営業以前の会話ができたし、またYCのパートナーたちから知恵と経験談を授かった。そういうことの価値が、ものすごく大きかった、と彼は言う。

本日オープンソースのプロダクトをリリースしたことにより同社は、新たな一歩を踏み出すことができた。

PipelineDBはシード資金は獲得しているが、その額は公表していない。投資家は、SV Angel、Data Collective、Paul Buchheit、Susa Ventures、TenOneTen、および数名のエンジェルたちだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

企業のデータソース(何百ものデータベース!)をひとつにまとめるTamrが$25.2Mを調達

shutterstock_227718223

今、多くの企業のデータは、複数の、それぞれ孤立したデータベースの上にバラバラに存在している。マサチューセッツ州ケンブリッジのTamrは、そういうバラバラなデータベースを統一して、それらを“人間が理解できる”単一のデータ集合にする。同社は今日(米国時間6/19)、シリーズBで2520万ドルの資金を調達したことを発表した。

その投資家たちは、いつものシリコンバレーのVCではない。CEOで協同ファウンダのAndy Palmerによるとそれは、同社のミッションの真価を理解している戦略的投資家たちのグループだ。その具体的な面子(めんつ)は、Hewlett Packard Ventures、Thomson Reuters、MassMutual Ventures、そしてそのほかの匿名の投資家たちだ。これまでの投資家NEAとGoogle Venturesも参加し、これで同社の調達総額は4240万ドルになった。

Palmerの信念によるとTamrは今後、GoogleがWebにもたらしたような大きなインパクトを、企業世界に与えていく。GoogleがWebページを見つけるアルゴリズムでトップに立ったように、Tamrはデータベースを見つける*アルゴリズムで先頭に立つつもりだ。〔*: 大量&雑多なデータベースを抱える企業が多く、欲しいデータがどこにあるのか分からない場合も多い(後述)。〕

えっ、企業のデータベースがWebページの数ほどもあるのか、と思ってしまうが、しかしPalmerによると、大きな企業ほど、古いデータベースをいっぱい抱えていて、どれに何があるかを知ってた人はとっくの昔に退社している。中には流出するとやばいデータもあるから、この、どこに何があるか分からないという状況はきわめて危険だ。また、今日のビッグデータ分析のトレンドに乗って、データから価値を取り出すこともできない。

“Oracleのインスタンスが数十、データベースの数は数百、という企業がとても多い。テーブルの数は数千〜数万だろう。しかも現状では、それらをカタログ(目録作成)し、それぞれに何があるかを知る方法がない”、とPalmerは語る。

Tamrは、その企業のすべてのデータソースを一望できるカタログ(目録)を作り、今会社には、どこに何のデータがあるか、分かるようにする。そこからさまざまな価値を導けるが、最近とくに重要なのは、データの流出を防止するためのセキュリティだ。万一流出事件があった場合でも、何がいつやられたかは分かる。それまでの状態では、事故が起こったことすら、誰にも分からない。

“データの透明性は、企業の必須要件のひとつだ。いまうちに何があるのか、分かっていなければ、それが消失しても消失したことが永遠に分からない”、とPalmerは説明する。

このカタログ作成作業は、企業の細かい内部事情への理解や配慮を要するので、顧客側との共同作業になる。Tamrとしては、出向社員や出張社員のような形が多くなるので、新たに得られた資金の最大の使途はエンジニアの増員、その次が営業とマーケティングの充実だ。営業も必然的に、痒いところに手が届く、細かいコンサルティングセールスにならざるをえない。営業のサービス的な側面を充実させるためには、顧客と一緒に仕事ができるサードパーティを育てることも重要だ。Palmerは、“パートナーを教育訓練するための明確なプロセスを確立する必要がある”、と語っている。

大企業の顧客でとくに重要なのが、サプライヤーのカタログを作って、どこから、何を、いつからいつまで、いくらで仕入れていたかをはっきり知ることだ。部品、原材料、工具、機械などの‘物’だけでなく、無形の人的サービスもある。これを、過去から現在まで総合的なデータ集合として一望できない大企業が、けっこう多い。データがあちこち分散していて、しかも何がどこにあるか誰も知らないからだ。

サプライヤーと並んで重要なのが、顧客だ。何を、だれ(どこ)に、いつからいつまで、なんぼで売ったか、その取引に関し付随条件や特殊状況はあったか、…。企業は顧客に関するこれら360度のビューを得たいと願っているのだが、これまた、分断化しているデータソースからそんな情報を得るのは難しい。Tamrなら、その問題も解決できるだろう。

今の同社の10数社の顧客の中には、ToyotaやGE、Novartis、それに投資家のThomson Reutersがいる。

現在Tamrは、ケンブリッジとサンフランシスコを合わせて55名の社員がいるが、今後はまず、後者のまだ小さなオフィスに20〜30名を増員し、さらに1年半後の総社員数100名を目指したい、という。

同社のファウンダPalmerとMichael Stonebrakerは、かつてVertica Systemsを立ち上げた人たち。Verticaは2011年にHPが買収した

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

MongoDBが既存のデータ視覚化ツールやBIアプリケーションと接続するためのコネクタを発表

shutterstock_130139699

オープンソースのデータベースプラットホームMongoDBが今日(米国時間6/2)、ニューヨークで行われた同社のMongoDB Worldカンファレンスで、いくつかのアップデートを発表した。その中には、Tableauなどのデータ視覚化ツールの統合も含まれる。

MongoDBは従来のRDBと違って非定型データを扱える自由性があるため、今では多くの企業のアプリケーションで利用されている。それが、MongoDBを使う主な理由の一つだが、でもデータを視覚化することが必要になると、これまで使ってきたデータ視覚化ツールで非定型データを扱うのは難しい。MongoDBのストラテジー担当VP Kelly Stirmanは、そう説明する。

彼曰く、“それらのアプリケーションが現代的と言われるのは、従来の行(row)と列(column)のデータベースでは扱えない豊富なデータ構造を使うからだ”。

その便利で現代的なMongoDBがもたらした予期せざる結果に対応するため同社は、BI(ビジネスインテリジェンス)やデータ視覚化ツールと接続するためのコネクタを発表し、後者の一つの例として同社のパートナーTableauを紹介するとともに、そのほかのツールでもコネクタが同様に使えることを明言した。

“Tableauは弊社のパートナーだが、しかしコネクタは、IBMのCognosやSAPのBusinessObjects、Microsoft Excelなど、そのほかのツールとの互換性もある。そのコネクタはSQLベースのODBCツールとの互換性もあるから、ほとんど何にでも対応できる”。

Stirmanはさらに加えて、“何百万ものユーザがこれらのアプリケーションを毎日のように使っているが、これまでそれらは、MongoDBとは断絶した世界だった”、と語る。そこで新たなコネクタが、両世界を橋渡しすることになる。

これまで、既存のデータ視覚化ツールでMongoDBとそのデータを扱うためには、大量のプログラミング努力を要し、そのために費やす時間と費用は膨大だった。しかし、“コネクタを使えば、既存の視覚化ツールが、あいだにレイヤを必要とせず、MongoDBのデータにアクセスできるようになる”、と彼は説明する。

同様の発表を先週、Salesforce.comも行ったが、それは今回のMongoDBのケースとは逆で、外部データをSalesforceの視覚化ツールWaveで、Salesforceのデータと共に視覚化するためのコネクタだ。

MongoDBの場合と同じく、それまでは、プログラミングで苦労すれば外部データをWaveで見ることは可能だった。そしてSalesforceも今回のMongoDBと同じく、外部との円滑な接続性を実現することはベンダ自身の責任だ、と悟ったのだ。両社が作ったコネクタにより、データソースと視覚化ツールとのあいだのデータ移動やデータアクセスが、簡易化された。

MongoDB 3.2には、コネクタのほかに、REST対応の暗号化や、データベースアドミンのためのGUIなども導入される。その一般公開は、今年の第四四半期の予定だ。

MongoDBはこれまで、投資家たちの関心を大いに集め、総額で3億ドルあまりを調達している。最近のラウンドは、なんと、今年の1月のシリーズGで、8000万ドルを獲得している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

毎秒1400万回のライト(write)を行うNoSQLデータベースFoundationDB、ACIDの条件も満たす

データベースはテクノロジ産業の背骨だ。地味で目立たない存在だが、とても重要で、壊れたり改ざんされたりすると、たいへんなことになる。だから、データベースに関わる者は用心深い。これまで長年、企業目的で安心して使えるのはビッグスリー(Oracle、IBMのDB2、そしてたぶんSQL Server)だけ、とされていた。その後MySQLやPostgreSQLなどのオープンソース製品が、十分使えると認められた。そして最近の5年間で、データベースの界隈はおもしろくなってきた。

まず、歴史を回顧しよう。世紀のかわり目ごろにかけて、フォーマルに構造化・正規化され、SQLのさまざまな変種によってクェリされる関係データベースは、開発を助けるよりもむしろ妨害する、と見なす人びとがますます多くなった。その後の10年間で、さまざまな新しいデータベースが咲き乱れ、とりわけ、Webサイズの大きなデータ保存能力を必要とするGoogleは、BigTableMegastore、Spannerなどの分散データベース・ソリューションを次々と作り出した。

さらにその間Apacheは、CassandraHBase、そしてCouchDBを作り、ClustrixはMySQLをリプレースするプラグアンドプレイでスケーラブルなソリューション(NewSQL)を生み出し、Redisは多くのRails(などの)アプリケーションが必ず使う成分になった。そしてとりわけMongoDBは、批判の声も大きい中で、スタートアップたちのあいだでたいへんな人気者になった。とくに批判されたのは、ライトロック(write lock)をかけるためにデータベース全体にまたがる複数のライトの並行処理ができないことだったが、ありがたいことにその制約は近くかなり解消されるらしい。なお、ぼく自身はデベロッパとしてMongoDBを扱ったことがあるが、MongoDBのファンではない。

しかしこれらの、いわゆる“NoSQLデータベース”と呼ばれるデータベースの新しい波は、興味をそそることは確かだけれど、本当に真剣に取り上げているのは、一部の最先端のスタートアップや、ほんのひとにぎりの夢想家だけだ。データベースはきわめてミッションクリティカルな計算機資源だから、その安定性と安全性にすこしでも懸念があってはならない。データベースがデータとトランザクションの完全性を保証せず、いわゆるACIDなトランザクション“をサポートしないのなら、そのようなデータベースには、企業などで毎日実用システムを扱っているデータベース技術者は関心を持たない:

[ツイート訳: ACIDの保証は要らなくても、AとDを提供できないストレージエンジンは、最初から検討に値しないわね。]
[ツイート訳: ベンチマークしているときに糞して自分のデータを壊すストレージエンジンもあるわ。なんでベンチマークで壊れるのよ。]

MongoDBはACIDに対応していない。Cassandraもだ。Riakも、Redisも、等々々々。NoSQLデータベースは本質的にACID準拠でありえない、という説もあった。でもそれ嘘だ。GoogleのMegastoreは基本的にACIDであり、同社のSpannerはさらに良い。しかしMegastoreはGoogleの上でしか使えないから、あの独特のクセのあるApp Engineプラットホームで自分の全アプリケーションを構築する気でもないかぎり、採用は難しいだろう。

というわけで、2年前のTechCrunch Disruptのブースで”NoSQL, YesACID”(NoSQLだけどACID対応)というスローガンを掲げたFoundationDBという企業を見つけたときは、とても気になった。同社はACID完全対応1のキー-ヴァリュー(key-value)データベースを作って、その上に標準SQLのレイヤ(層)をかぶせる、という離れ業をやっていた。その同社が今週初め(米国時間12/10)に、FoundationDB 3.0のリリースを発表した。それはなんと、前のバージョンの25倍速いそうで、それは同社の協同ファウンダでCOOのNick Lavezzoの言葉では、データベースエンジンの“心臓と肺の移植手術を行った”からだそうだ。この新しいエンジンにより、毎秒1440万回のライト(write)が可能になった。

それは技術的にもすごいもので、同社のブログ記事によると、単純に毎秒1400万のライトではなく、“パブリッククラウドにある完全に順序化され完全なトランザクションをサポートしているデータベースで、100%マルチキーのクロスノードトランザクション(複数のノードにまたがるトランザクション)を行う場合の、毎秒1400万回のライトだ。別の言い方をすると、FoundationDBは利用料金1ペニーあたり、データベースのライトを360万回行う”、という。

企業のデータベースを何らかの形で担当している技術者は、この話を聞いて、関心を持たずにはいられないだろう。しかもこの速さなら、来たるべき物のインターネット(Internet of Things, IoT)の時代のレスポンス要請を無難にこなすだろう。その時代には、インターネットに接続された何十億ものデバイスが、大量のデータを24時間365日休みなく捉え続けるのだ。

しかもこれは、多くの競合他社たちの改良努力を刺激する。またそれによって非常に多くのユーザ企業が、OracleやDB2を使っている青銅器時代からそろそろ卒業すべきか、と思い始める。そして、ゆっくりと、すこしずつ、そして大胆に、新しい時代へと移行していく。その新しい時代には、デベロッパはシンプルなキー-ヴァリューのセマンティクスで楽(らく)ができ、ITは高速化された古典的なSQLでクェリでき、完全にACID化された分散トランザクションを同時一斉に行える。長期的には企業も人間も、今より良い生き方ができるはずだ。それまでの過渡期には、データベースの能力拡大、限界の克服に挑み続ける多くの無名のデータベース技術者たちの、努力の積み重ねがある。われわれには見えないところで彼らは日々、世界と社会に大きな貢献を提供している。


1ACIDの中のC、すなわち”consistency”(一貫性、整合性、無矛盾性) の説明がここにはない。たしかに無矛盾性は、それに比べると中世のピンの頭の上に乗れる天使の数に関する議論すらノックノック・ジョークの一種と思えてしまうぐらいの難解な話題だ。でも技術用語としてのそれは、結果的にそうであるという無矛盾性ではなくて、システムの動的構造が最初から明示的に、矛盾を許容しない、生成しない、という意味だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


複数のNoSQLデータベースの使い分けを単一のREST APIでできる中間サービスOrchestrate

今は、アプリケーションのデータベースは一つあれば十分という時代ではない。今日では多くのサービスがさまざまなデータベース…とりわけNoSQLデータベース…を駆使して彼らのアプリケーションのいろんな側面を構成している。そうなると、複雑性とエラー箇所と費用が増える。またそれと同時にデベロッパはAmazon Web Services(AWS)的なやり方に慣れ、毎秒1000クェリから10000へスケールしても、かつてのローカルでオンプレミスのデータベースのように簡単に処理能力の限界にぶつかることもない。

昨年300万ドルのシード資金を獲得して今日(米国時間2/4)ベータを脱したOrchestrateは、一つのアプリケーションが複数のデータベースを使う場合の複雑性を、過去のものにしようとする。このサービスを利用するとデベロッパは、どんなデータ処理でも単一のREST APIの呼び出しで済ませられるようになる。そのAPI呼び出しでデータを受け取ったOrchetrateは、MongoDBやCouchDBなどもっとも適切なNoSQLデータベースを使用するが、デベロッパはそれらにOrchestrateの単一のAPIを介してアクセスすることになる。

同社の協同ファウンダでCEOのAntony Falcoによると、今はOrchestrateのインフラストラクチャの多くがAWSの上にあるが、今後は複数のクラウドを使うとともに、ヨーロッパやアジアのデータセンターもサポートしていきたい、という。そうなればたとえば、合衆国東部ではデータをAmazon上でホストし、ヨーロッパではSoftlayerを利用、しかし必要に応じて異なるクラウド間でデータをリプリケートすることも可能、という形になる。セキュリティ要件の厳しいユーザに、同社のサービスをオンプレミスで使わせることも、目下検討中だ。

今日正式ローンチしたものの、まだまだ付け加えるべき機能はたくさんある、とFalcoは言う。たとえば、古典的なSQLデータベースや、地理的空間的データのサポートだ。ただし地理的空間的データ(geo-spatial data)という言葉の意味がユーザによっていろいろ違うので、顧客が求めているものを正確に知ることが第一歩となる。

Falcoは、成功を収めたRiak NoSQLデータベースを抱えるBashoの協同ファウンダで、COOだった。Orchestrateは、今社員が12名だ。その多くはオレゴン州ポートランドの本社にいるが、リモートの社員も少なくない。

Orchestrateは、料金体系もシンプルを指向している。月間のクェリ操作が100万未満なら無料、1000万までが39ドル、そこから100万増えるたびに2ドルが追加請求される。ストレージに関しては課金しない。無料も含めてどの利用形態でも、モニタリングとサポートと利用状況報告と毎日のバックアップがサービスされる(バックアップ先はユーザが指定する…たとえばS3とか)。バックアップがこのようにユーザサイドにあり、データはすべてJSONオブジェクトとして保存されるから、いわゆるベンダロックインという問題はOrchestrateに関しては生じない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))