企業が最新の研究動向を容易に見つけられるようにするResolute InnovationにSteve CaseらのVCが投資

企業が自分の分野の最新の研究開発動向を、日々もれなくチェックしていくことは、きわめて難しい。たとえば、ある技術課題で最良のパテントを見つけようとすると、それはなかなか、合理的で効率的で正しい結果の得られる調査過程にはなりにくい。

そこをお助けしようとするのが、Resolute Innovationだ。このスタートアップは、企業をビッグなアイデアに結びつける。ニューヨーク生まれのResoluteが構築しようとしているものは、同社が“技術をスカウトするソフトウェア”(technology scouting software)と呼ぶもの、すなわち検索できるR&Dデータベースだ。食品、化粧品、医薬品、宇宙、などなど、そのカテゴリーは多岐にわたる。

Resoluteは今、330万ドルのシリーズA資金を調達中だ。このラウンドのリーダーRevolution Venturesは、Tige Savage、David Golden、それにAmerica Online(AOL)の創始者Steve Caseらが創ったVC企業だ。

そのCaseは語る: “技術移転の過程は、その姿を抜本的に変えるべきだ”。彼によるとResoluteは、“アイデアと知財を持つイノベーターと、そのアイデアを商用化してスケールできる企業を結びつける橋を構築する、指導的なプラットホームとして登場してきた”。

研究の多くは、大学が提供している。たとえば私が出たコロンビア大学は、Resoluteとパートナーしている。そのほかに、スタートアップや医療機関や国の研究所やそのほかの研究機関から毎日、さまざまなアイデアが生まれている。

Resoluteの収益源は、そのソフトウェアを常用する企業からの会費収入だ。今すでに数千社の顧客がおり、Fortune 500社やそのほかの大型研究機関とも協働している。

Tige Savageは曰く、自分がResoluteに投資したのは、“現代的なAI技術で、さまざまな研究成果を、だれもが見つけることができて、検索もでき、インデクシングも再構成もできる形で提供しているからだ”。彼によると、それは彼の投資理論にも合致している。それは、“古い非効率なやり方に何十億ドルも投じている分野”を見つけることだ。そして、それを建設的に破壊(ディスラプト)するスタートアップに投資する。

CEOのSebastian Mettiによると、今度の資金は同社の研究者ネットワークの拡大に充てる。また、アジア、ヨーロッパ、北米地区、イスラエルなどへの国際展開も目指す。この前は、数名のエンジェル投資家から資金を調達した。

関連記事

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

AWSがメモリが4TBを超える仮想マシンの提供を開始、インメモリデータベースがさっそく食らいつく

数か月前にAmazonのAWSグループは、メモリが4から16TBぐらいのインスタンスタイプを準備している、と述べた。そして今日(米国時間9/14)はついにその約束が実現して、メモリのサイズでは最大のEC2マシンを同社はローンチした。そのx1e.32xlargeインスタンスは、RAMがなんと4.19TBもある。EC2のこれまでで最大のインスタンスは、メモリが2TB強だった。

これらのマシンはクアッドソケットのIntel Xeonプロセッサー(2.3GHz)、最大25Gpsのネットワーク帯域、そして1920GBのSSDを装備する。もちろんこれだけのメモリを必要とするアプリケーションは多くないが、SAPのインメモリデータベースHANAとその各種のツールがこれらのインスタンスで動くことが公式に認定されていて、SAPはこれらのアプリケーションをこのインスタンス上で運用することに関し、直接のサポートを提供する。

これらの新しいインスタンスは目下、AWSの4つのリージョンで利用できる: それらは、US East(Northern Virginia), US West(Oregon), EU(Ireland), そしてAsia Pacific(Tokyo)だ。当然ながらこれらのインスタンスはお安くない。たとえばUS Eastのオンデマンド料金は1時間$26.688、Asia Pacificでは$38.688だ。つまり、AWSのもっとも高価なVMとなる。

ちなみにMicrosoft Azureの最大のメモリ最適化マシンは現在2TB強が最大で、GoogleはRAM 416GBが最大だ〔USのみ〕。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

SalesforceがAIを利用して自然言語の質問をSQLに翻訳、事務系社員でもデータベースを利用できる

SQLはプログラミングの世界ではやさしい方だが、ふつうの人たちがリレーショナル・データベースを対話的に利用したいと思ったときには、やはりその学習曲線は急峻だ。そこでSalesforceのAIチームは、SQLを駆使できない人でもデータベースを使えるために、機械学習を利用できないか、と考えた。

彼らの最近のペーパーSeq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning(強化学習を使って自然言語からSQLを生成する)は、機械学習でよく使われるシーケンス変換モデルを利用している。強化学習の要素を加えたことによりチームは、自然言語によるデータベースへのクェリをSQLに翻訳するという課題に対し、かなり有望と思われる結果を得た。

すなわちミシガン大学のデータベースに対し、データベースにフットボールの優勝チームを尋ねるクェリで、正しい結果が得られた。

このプロジェクトに関わった研究員の一人、SalesforceのVictor Zhongは、こう語った: “クェリの正しい書き方は一つではない。自然言語で言われた質問*に対し、それを表すSQLのクェリは二つも三つもあるだろう。われわれは強化学習を利用して、同じ結果が得られるクェリを使うよう、学習を誘導した”。〔*: 自然言語は、語形はまったく同じでも、話者の込めた含意がさまざまに異なることが多い。〕

どなたもご想像できると思うが、ボキャブラリーがとても大きいと、機械翻訳という問題はたちまち複雑困難になる。しかし、翻訳の可能性の多様性を野放しにせずに、どの語に関しても少数に限定してやると、問題はよりシンプルになる。そのためにSalesforceにチームは、ボキャブラリーを、データベースのラベルに実際に使われている語に限定した。つまりそれらの語は、SQLのクェリに実際に登場する語だ。

SQLの民主化は、これまでにもいろいろ試みられている。たとえば最近Tableauに買収されたClearGraphは、データをSQLでなく英語で調べることを、自分たちのビジネスにしている。

“データベース本体の上で実行されるようなモデルもある”、とZhongは付言する。“しかし、社会保障番号を調べるような場合は、プライバシーの懸念が生じる”。

ペーパー以外でSalesforceの最大の貢献は、モデルの構築に利用したデータセットWikiSQLだ。最初に、HTMLのテーブルをWikipediaから集める。これらのテーブルが、ランダムに生成されるSQLクェリのベースになる。これらのクェリを使って質問を形成するが、それらの質問はAmazon Mechanical Turkで人間に渡されてパラフレーズ(語形変化)される。それぞれのパラフレーズは二度検査され、人間によるガイダンスが付く。そうやって得られたデータセットは、このようなデータセットとしてはこれまでで最大のものだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

NoSQLデータベースのMongoDBが非公開でIPOを申請

情報筋によると、MongoDBが秘かにIPOしていた。同社がSECにS-1ファイルを提出したのは数週間前で、今年中の上場をねらっている。

ニューヨークのMongoDBは、そのデータベースプロダクトとデータベース管理サービスをAdobe, eBay, Citigroupなども利用している。主要なプロダクトは、社名と同じオープンソースのデータベースMongoDBと、Atlas DBaaS(Database as a Service, クラウド上から提供されるデータベース)だ。

同社は2008年以降3億ドルあまりの、非公開段階の資金を調達しており、Sequoia Capital, Intel Capital, NEAなど著名な投資家が投資に参加している。最近の資金調達ラウンドは2年あまり前で、そのときの評価額は16億ドルといわれる。

MongoDBは、2012年に制定された雇用創出法*が定めている“非公開申請”を利用している。それによると、申請をしてから15日間は財務条件などを公開せずに投資家めぐりができる。これによりスタートアップは、上場前の数週間、余計な審査や手続きに悩まされずに市場デビューの準備ができる。〔*: 参考記事

MongoDBのIPOは、数年前から噂されていた。今年の5月には、Wall Street Journalが、同社がIPOに向けて投資銀行の連中を雇った、と報じている。

本誌TechCrunchも最近、Stitch Fixがやはり非公開でIPOを申請したことを報じた。そのほかにも数社が、労働者の日(9月第一月曜日)と感謝祭(11月第四木曜日)までの間に上場を目論んでいる、と噂されている。

IPOは社員や初期の投資家たちに流動性(会社の所有権…株…が一般的に売買できること)を提供するための優れた方法だが、GoogleやAmazonが大成功を収めた反面、最近の人気IPOだったSnapやBlue Apronなどは、その後苦戦した。ビッグデータ企業のClouderaは、IPO価格よりも上の株価を維持している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

MicrosoftはどうやってSQL ServerをLinuxへポートしたか、ついに2017リリース候補がローンチ

Microsoftが2016年にSQL ServerをLinuxに移植すると発表したとき、それは業界全体のビッグなサプライズだった。しかし昨年の一年間で、MicrosoftのLinuxなどオープンソースのサポートはいよいよ明白になり、とにかく同社のツールはユーザーのいるところならどこへでも持っていく、という姿勢も明確になってきた。

同社は今日(米国時間7/17)、SQL Server 2017の最初のリリース候補バージョンをリリースしたが、それは、WindowsとLinuxとDockerコンテナで動く初めてのバージョンだ。Dockerのコンテナは、それだけでもユーザーが100万以上いるから、この新バージョンへの関心も大きいだろう。そしてこのニューバージョンは多くの新しい機能やスピードの改良などがあるものの、最大の見どころはやはり、Linuxのサポートだ。

MicrosoftのDatabase SysytemグループのゼネラルマネージャーRohan Kumarによると、彼はMicrosoftに勤めてすでに18年あまりになるが、最近では、ミッションクリティカルなワークロードにSQL Serverを採用する企業が増えている。しかも同時に多いのは、多くのユーザー企業のITがWindows ServerとLinuxの混成環境になっていることだ。そしてそんな企業にとっては、自分たちがかつて選んだデータベースをLinuxで使えないことが、彼らの脚を引っ張る要素になっている。

“多くの企業にとって今や、従来からのメインのデータベースをLinuxでも動かせることは、明白なニーズになりつつある”、とKumarは言う。“うちはこれまで、Windowsをもっぱらメインで使うよう、顧客に強制してきた”。最近は、これまでと違う‘別のMicrosoft’があって、それがいろんな点でポジティブな姿勢を見せているが、しかし変化は企業の基本姿勢にまで及んではいないのだ。

しかしKumarによると、最近の企業世界でもうひとつ多いのが、Oracle離れだ。そして、Linuxを動かしたいが、データベースは(オープンソースでなく)エンタープライズのサポートが充実しているブランド製品を使いたい、となると選択は自(おの)ずと限られてくる。

Kumarも言うように、Linuxのサポートを試みるのは、彼のデータベースグループにとって今回が初めてではない。“これまで二回トライしたが、会社の承認が得られなかった”、と彼は語る。“それが、うちの会社の戦略レベルの方針になりえる、という認識が当時はなかったのだ”。しかしトップがSatya Nadellaに変わった三年前に、彼のチームは再度、Linuxポートプロジェクトの社内上部売り込みをトライした。“また、すったもんだがある、と覚悟していたけど、驚いたことに、すぐにゴーサインが出た”、とKumarはそのときのオドロキを語る。

やっと会社の方針として決まったけれども、実際の作業はたいへんである。SQL Serverの何千万行ものコードを、どうやってLinuxにポートするのか? しかもKumarは、機能面での妥協はいっさいやりたくなかった。だから、100点満点の完全な移植か、無か、のどちらかだ。ただしWindows用のGUIといくつかのツールは、今のところこの原則の例外だ。

レドモンドのベトナム料理店でフォーのどんぶりをすすりながら、チームは答を見つけた。それがDrawbridgeだ。Drawbridは2011年に始まった研究プロジェクトで、小さなAPIを対外的インタフェイスとして提供するコンテナ、その中では、アプリケーションを効率的に動かせるよう構成されたベーシックなバージョンのWindowsが動く。その基本的なアイデアは、それによりもっとベターでセキュアな仮想マシンを提供することだった。OSのライブラリがアプリケーションやメモリ管理、そしてそのほかの重要な機能を動かし、その下層のオペレーティングシステムを統合する。

約2年前にSQL Serverのチームは、これをLinuxポート努力のコアにすることを決めた。“トップは適切な量の懸念を表明した”、という言い方をKumarはするが、研究プロジェクトにすぎなかったDrawbridgeの本番利用に対しては、上部の少なからぬ懸念があったことだろう。

このOSレイヤが、いろんな意味で、このプロジェクトを可能にした源泉だ。SQL Serverは、WindowsやWindows Serverにできないことを、自前でやっている。それはとくに、メモリ管理の面だ。しかしチームはすでに、標準的なOSの機能をSQLサーバーの OSレイヤに組み込んでいる。そのおかげで、Drawbridgeに収められたSQL Serverはたとえば、自分でメモリを管理できる。このやり方がうまくいったのでチームは、単純にLinux上のSQL Serverを作るのではなく、SQL OSとDrawbridgeでやった仕事を新たにSQL Platform Abstraction Layerという抽象化層へと実装し*、今ではそれがWindowsとLinuxで動く。〔*: 上図、PAL==Platform Abstraction Layer, 関連記事。〕

その結果SQL Serverのチームは、単一のコードベースから仕事ができ、コードが実際に動く対象プラットホームの違いを気にする必要がなくなった。たとえばMicrosoftのAzureでも、上記の抽象化層を持ち込むだけである。

SQL Server for Linuxは今年の後半に一般供用されるが、今日すでに、2社で本番稼働している。ハードウェアが同じなら、スピードはLinuxバージョンとWindowsバージョンで変わらない。

Kumarはすでに、最終リリースのその先を見つめている。データベースの世界もイノベーションが加速していくことは確実だが、しかし1年に一度とかもっと短いアップデートサイクルをミッションクリティカルなシステムには望まないユーザー企業もある。だからSQL Server 2016, 2017と立て続けに例年のリリースをやった次の年となる2018年は、アップデートなしという珍しい年になるかもしれない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

大量高速なデータストリームをリアルタイムで分析/視覚化するGPU駆動インメモリデータベースKinetica

Kineticaの企業としてのルーツは、アメリカの諜報部門のための2009年のコンサルティングプロジェクトまで遡る。テロリストをリアルタイムで追尾するという、そのときの軍やNSAの厳しい要求を満たすソリューションを市場に見つけることができなかった同社は、それを自分で作ろうと決心した。今日の同社は、インメモリのデータベースソリューションがメインのプロダクトで、それは、NVIDIAのGPUを使って処理を加速する一般市販のハードウェアを使用する。

そのアイデアがシリコンバレーの多くの投資家たちに受けて同社は、大枚5000万ドルのシリーズAを調達した。

同社は、初期の諜報機関向けのソリューションのパワーを、そこらの誰もが利用できるようにしたい、と考えている。データベースをGPUが動くチープなハードウェアの上で使うと、コストを低くでき、同時に当時のソリューションの高速性を享受できる。CEOで協同ファウンダーのAmit Vijによると、そのソリューションは従来のデータベースの100倍速く、しかもハードウェアの費用は1/10だ。

この価格性能比が投資家たちの関心を惹き、今日のラウンドはCanvas Ventures とMeritech Capital Partnersの共同リードに、新たな投資家としてCiti Ventures、そしてこれまでの投資家GreatPoint Venturesが参加した。

GreatPointの投資を決めたRay LaneはOracleの元役員で、データベースの技術には詳しい。その彼によると、このところデータの量と回転率は急速に増加しており、とくにIoTの貢献要因が大きい。そして、これまで主に顧客やサプライヤーからのトランザクションデータを扱ってきたレガシーのデータベース技術は、今日のデータ量の増大に追随できなくなっている。

“今日のチャレンジは、私が“外部的”(external)データと呼んでいるものだ。その量は膨大で、しかもほとんどが非定型、そしてリアルタイムのストリームだ。センサーやスマートデバイスから、絶え間なく大量のデータがやってくる。頭上のドローンから画像が来る。ソーシャルメディアのフィードもある。Kineticaは最初から、これら多様なデータ環境のリアルタイム分析と視覚化を目的として構築されている”、とLaneは語る。

NSAの長官だったKeith Alexanderによれば、彼の組織は2009年にKineticaのファウンダーたちに、たいへんな難題をぶつけた。しかし、“彼らはその機に乗じて、今日のKineticaデータベースプラットホームの前身を開発した。そのほかの商用やオープンソースのソリューションはすべて、そのミッションの目的を満たさなかった”、とAlexanderは声明文で述べている。

Vijの説明では、同社が提供するのはソフトウェアソリューションであり、NVIDIAのGPUが動くハードウェアは、IBM、HP、Dellなどのパートナーが提供する。またAWSやAzure、Google Cloud Platformなどの、GPUを利用するクラウドでも動く。

Kineticaの当初の顧客リストには、GlaxoSmithKline, PG&E, US Postal Serviceなどが名を連ねている。同社はOracleやSAP HANAなどの従来のデータベースベンダーと競合するが、同社によるとそれらは費用が高くてしかもGPUを使っていない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

MongoDBがバックエンドサービスStitchを開始、AtlasはAzureとGCPに対応、そして新しいBIツールも発表

MongoDBは今週シカゴで年次デベロッパーカンファレンスを開催している。そして良い開発者会議には新しいプロダクト発表がつきものだ。MongoDBは本日(米国時間6月20日)の基調講演に於いて、現在提供しているAtlasデータベースサービスが、Microsoft AzureならびにGoogle Cloud Platformの上で動作するようになったというアップデートを発表し、また同時に2つの完全に新しいプロダクトを発表した。1つはStitchと呼ばれるもので、MongoDBデータベースの上で動作し、サービスとしてのバックエンド(BaaS)を提供して、開発者が異なるサードパーティサービスとの連携を行なうことを助けるもの。もう1つはMongo Chartsと呼ばれるもので、Tableauに似たビジネスインテリジェンス(BI)サービスであり、MongoDBデータベース内の情報をチャート化する目的に利用することができる。

多くの点で、StitchはMongoDBにとって、コアデータベースサービスから踏み出す最初の挑戦だ。MongoDBのCTO兼共同創業者のEliot Horowitzは、彼等の開発チームが、今やMongoDBのユーザーの大半が、サードパーティのサービスを組み合わせたアプリケーションを作成していることに気付いたと述べた。Stitchを使用することで、開発者たちはこれらの外部サービスに接続し、そのAPIからデータを容易に引き出してデータベースに格納することができるようになる。理想的には、たとえば、開発者は独自のセキュリティやプライバシーコントロールを構築する必要がなくなり、アプリケーションをこれらのサービスと統合するために苦労するのではなく、アプリケーションの構築に集中することができるようになる。
Stitchは、Google、Facebook、AWS、Twilio、Slack、MailGun、そしてPubNowととのプレビルド統合が行われた形で開始されるが、Horowitzが強調するように、StitchをREST APIを提供するサービスと統合することは簡単に行うことができる。

Stitchは現在、MongoDB Atlasユーザーに対するパブリックベータ版で利用可能だ。現在の利用料金は開発者たちが必要とするデータ転送量に基いている。Stitchがベータ版を終了したあとは、全てのMongoDBユーザーが同様の課金モデルでそれを利用することが可能になり、かつ同社はオンプレミス版の提供も行う予定だ。

MongoDBのクラウドデータベースサービスであるAtlasに関する新しい機能は、特に発表されなかったが、同社はユーザーたちがサービスをGoogle Cloud Platform(GCP)ならびにAzure上に展開できるようにした。この提供には随分時間がかかったが、これまで同社はリソースを、最も顧客がいるAmazon AWSプラットフォームに対して集中することを決めていたのだ。昨年6月にサービスを開始したこのサービスには、同社によれば現在「何千人ものアクティブユーザーがいる」という。そうしたユーザーの中には、例えばeHarmonyやThermo Fisher Scientificのような会社が含まれている。

新しい2つのプラットフォームのサポートが示すのは、MongoDBのようなデータベースプロダクトを必要としている企業たちが、今や代替プラットフォームを検討し、単純にAWSをディフォルトとして利用していないことを示すものだ。

MongoDBにとって、AzureとGCPのサポートを追加することは、全体的なビジョンを達成するための第1歩にすぎない。ここでのアイデアは、将来はユーザーたちが、完全に特定のクラウドにとらわれない、グローバルに分散したデータベースを展開できるようになることだ。この計画に於ける(すぐにやってくる)第2歩は、ユーザーたちが任意のクラウドの任意のリージョンに展開できるデータベースを構築できるようにすることだ。

少々驚きを伴ったが、MongoDBはまた、新しいビジネスインテリジェンス(BI)ツールであるMongo Chartsのプレビューを行なった。残念ながらこれはまだ使うことはできないが、同社の広報担当者によれば、これはこの秋に行われる、もっと大きな新規改訂の一部だということだ。ここでのアイデアは、ビジネスユーザーたちが、MongoDBインスタンスの中に保持している自分たちのデータを活用して、グラフやダッシュボードを簡単に構成できるようにしようというものだ。類似ツールと同様に、ユーザーはインタラクティブに、データをリアルタイムに探索することができる。

Horowitzによれば、他のデータベースのサポートを取り込む予定はないということだ。よってこのサービスが、TableauやMicrosoftのPower BIなどと直接競合することはない。しかしMongoDBをヘビーに使い倒している企業にとって、Mongo Chartsは唯一必要とされるツールになるのかもしれない。

Mongo Chartsの価格設定に関しては、会社がまだ決定していないと、Horowitzは答えた。

[ 原文へ ]
(翻訳:Sako)

ディープラーニングをApache Sparkのクラスターで分散化、サーバーレスでそれができるDatabricksのServerless Platform

今日(米国時間6/6)のSpark Summitの幕開けで最初にボールを蹴ったDatabricksは、Apache Sparkのためのサーバーレスプラットホームを発表した。クラスター管理に費やす時間を短くしたいと願うデベロッパーにとって、良いニュースだ。デベロッパーの仕事をより単純化しようとする動きは、このイベントの全体を貫く大きなテーマでもあった。同社はServerless Platformに加えて、Sparkでディープラーニングフレームワークをより使いやすくするためのライブラリDeep Learning Pipelinesも披露した。

今、クラウドベースのデータ処理技術がどんどん進歩している中で、DatabricksはオープンソースのApache Sparkプロジェクトの商用サービスだ。同社のエンジニアたちはもっぱら、Sparkのエコシステムを支えるツール類を作っている。今日発表された製品も、その一部だ。

大企業における意思決定がますますデータ駆動型になりつつある今日、これから取り組もうとする新しいユーザーにとっては、データパイプラインとクラウドインフラストラクチャの扱いが、目の前に山のようにそびえる大きな課題に見えてしまう。そこに登場したサーバーレスの技術とは、サーバーなしでデータを操作するという意味では決してなく、エンドユーザーがサーバーなどの低レベルの問題にいっさい関わりあうことなく、コンピューティングリソースの管理されたプールから適当なものを選んで、単純に今やるべき仕事をする、という単純化簡素化された新しいタスク構造を指す。

“SQLはステートレスだから扱いも楽だが、データサイエンスにはステートがあるから、それをサーバーレスにするのは難しい”、とDatabricksのCEO Ali Ghodsiは説明する。

ServerlessがDatabricksの幅ないし広さを表すとするなら、Deep Learning Pipelinesはその深さへの挑戦だ。TensorFlowなど、現存するディープラーニングフレームワークは“使いやすい”とはお世辞にも言えないが、でも昔の(AI言語とも呼ばれた)LISPなどに比べたら相当に使いやすい。そのためディープラーニングは今、ますます多くのワークフローに導入されつつある。

“Sparkなどを使ってTensorFlowのタスクを分散化しようとすると、手作業でグラフを作り、どのマシンがどの部分の処理を担当するか、いちいち決めなければならない”、とGhodsiは言う。“100台のマシンを相手にそれを人間がやるとすると、ものすごくたいへんな作業になる”。

Databricksの今度のオープンソースのライブラリを使ってデベロッパーは、ディープラーニングのモデルをSQLのファンクションに変換できる。ユーザーは学習をSpark MLlib Pipelinesで転送し、Sparkの分散コンピューティングが提供する利点を享受する。

なお、Ghodsiによると、DatabricksのStructured Streamingが一般公開された。このAPIは、シーケンシャルデータのストリーミングを処理する。同社によると、Structured Streamingの開発工程では、レイテンシーの最小化が最優先された。それによって、異状検出などのアプリケーションを動かす顧客にとって、費用低減とスピードの向上が実現した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

NTT DataがNoSQLデータベースで各所に散在する企業データを統合化するMarkLogicに戦略的投資

日本のグローバルなITサービスプロバイダーNTT Dataが今日(米国時間5/31)、データベースのプロバイダーMarkLogicに戦略的投資を行った、と発表した。額は公表されていないが、MarkLogicのマーケティングと企業開発担当EVP Dave Ponziniによると、“巨額でもないが、ささいな額でもない”そうだ。これまでMarkLogicは、総額1億7300万ドルあまりを調達し、中でも大きいのが、2015年シリーズFの1億200万ドルだ。

MarkLogicの自己定義は、さまざまなデータサイロに散在しているデータを一つのデータベースに統合化するサービスだ。データの有効利用が企業戦略としてますます重視されるようになった今日、それはどの大企業にとっても、日に日に重要性を増している問題だ。これまでは、買収などを契機として、企業内の複数のグループがそれぞれ異なるデータベースシステムを使っていたが、今ではそれらの情報をすべてまとめる方法を探している。そのためによく行われるのが、すべてのデータをスキーマのないNoSQLデータベースに流しこむ方法だ。そこに、MarkLogicの出番がある。

仕事の性質からいって、同社の顧客の多くがGlobal 2000社であることも当然だ。売上等は公表されていないが、Ponziniによると年商“1億ドル強”、というあたりだ。

NTT Dataは2012年にMarkLogicを使い始めたが、むしろ同社(NTTD)の顧客のためのアプリケーションを作ることが主な目的だった。その後同社はデータベースの再販も手掛けるようになり、Ponziniによると、それによりMarkLogicは、たとえば金融サービス市場などにも食い込めるようになった。今日の投資はそんな両社の関係を強化するものであり、MarkLogicは、自社の事業所はないけどNTT Dataがとても強い市場(スペインなど)に参入できることになる。両社の既存市場が重複している地域においては、NTT Dataの顧客にデータベースを売るのはNTT Dataとなる。

NTT DataのCEO Toshio Iwamoto(岩本敏男)は、今日の発表声明で次のように述べている: “NTT DATAは、MarkLogicとの戦略的関係の拡大に感激している。日本で過去5年間、両社が共に経験した成功を、世界に広げていきたい。MarkLogicのデータベースプラットホームとNTT DATAが開発した知財資本を用いて、複雑なデータ統合化問題を解決するわれわれの能力により、クライアントは彼らのデータから重要なインサイトを析出でき、彼らが属する市場において競争上の優位を獲得できる”。

わずか数週間前に、MarkLogicは同社のデータベースのバージョン9をローンチした。このリリースはセキュリティを強化し、要素レベルのパーミッションやリダクションなどが導入された。MarkLogicのEVP Joe Pasquaはこう語る: “われわれはつねに、もっとも安全なNoSQLデータベースであり続けてきた。しかし今回強化したかった新たな側面は、共有に伴うリスクを減らすことだ”。すべての情報を統合化すると、どのデータには誰がアクセスしてよいのか、という一連の問題が発生する。要素レベルのセキュリティによって企業は、一部の情報を多くのユーザーに隠したままの状態で、データの有効利用を確保できる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Googleのグローバル分散データベースCloud Spannerが一般供用を開始、MicrosoftのCosmos DBに対抗か

Googleのグローバルな分散リレーショナル・データベースCloud Spannerが、4か月という比較的短いベータを終えて、今日(米国時間5/16)から一般供用される。

このサービスの立ち上げ時のGoogleの位置づけは、既存の関係データベースが手狭になってきた企業のための代替製品、だった。GoogleのDeepti Srivastavaは、こう言っていた: “トランザクションデータベース(transactional database, 日常のトランザクション用のデータベース)のスケールで悩むようになったら、シャーディング(sharded database)かNoSQLにソリューションを求めようとするだろう。しかしこの二つのどっちかを選ぶとなると、今度はトレードオフに悩む。そんなときは、Spannerが最適解だ。それはユーザーが使い慣れているシステムでもある〔リレーショナル・データベース〕。われわれは、ユーザーがトレードオフでなるべく悩まないようにしたい”。

今回一般供用になって、Googleが約束する可用性は99.999%、そして強力な整合性(コンシステンシー)だ。今日のGoogleのブログ記事では、こう述べられている: “ソフトウェアとハードウェアを組み合わせたソリューションとして、Googleのグローバルなネットワーク全域にわたるアトミックなクロックとGPS受信機能を提供する。Cloud Spannerはさらに、完全に管理されたクラウドデータベースなので、精度と信頼性と性能も高い”。

Cloud Spannerの今回の一般供用は、MicrosoftがCosmos DBサービスを発表してから一週間足らずで行われたことになる。Cosmos DBはグローバル+分散という点でCloud Spannerに似ているが、整合性のモデルが多様だ。後者は99.999%のアップタイムだけだが、Microsoftはスループットやレイテンシーと共にコンシステンシーを保証している〔サポートするデータモデルもリレーションだけではない〕。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

データベースの健康長寿を守るCockroach LabsがシリーズBで$27Mを調達、複製の粒度をさらに細かく

“自分を複製することによって生き延びるデータベース”…Cockroach LabsのCEO Spencer Kimballは、同社の覚えやすい社名とその価値命題の関係をこう説明する*。エンタープライズ・サービスは混みあった市場だが、Cockroachはテクノロジー世界の高名なVCたちに愛されてきた。今日(米国時間5/10)は2700万ドルのシリーズB資金を、Redpointがリードし、Benchmark, GV, Index Ventures, そしてFirstMarkが参加したラウンドで調達した。〔*: cockroach, ゴキブリ, グローバルな熱核戦争に生き残る唯一の高等生物がゴキブリだ、と言われる〕。

同社のプロダクトCockroachDBは、最適化によってデータベースのダウンタイムを極小にするオープンソースのサービスだ。あなたがどこかのWebサイトを訪れるたびに、あるいは銀行口座をチェックするたびに、大好きなSNSにログインするたびに、あなたが必要とする情報をそれらのサイトのデータベースが提供する。

CockroachDBは文字通りあの昆虫のように自分自身を複製してそこら中に拡散するから、単一の無防備な標的になることがない。ゴキブリは、全生物が滅びる最後の世界大戦にも生き残る。同社はこの機能のことを、マルチアクティブ・アベイラビリティ(multi-active availability, 多重活性可用性)と呼ぶ。あなたの会社の製品やサービスが、どれだけ広範囲に採用されていても、致命的エラーを抑止することはつねに最優先事項だ。

新たな資金の導入に加えてCockroachは今日(米国時間5/10)、そのプロダクトのバージョン1.0を公式に発表した。Kimballによると、ベータ期間、あるいはそれよりも前から、スタートアップたちを中心とする熱心な顧客たちは、まだ正式なデプロイには適さないとされる段階のサービスを実装してきた。それは一見怖い話だが、この三年間同社がやってこれたのも、熱心なコミュニティのおかげだ。

“5か月後に1.1、その後は6か月ペースでアップデートしていく”、とKimballは語る。

最初GitHub上の(==オープンソースの)プロジェクトだったCockroachだが、今後は有料のエンタープライズユーザーを収益源にしていく予定だ。その有料バージョンには、エンタープライズのサポートのほかに、分散バックアップと分散リストアの機能が含まれる。大量のデータを管理し重要な業務を抱えるユーザーには、必須の機能だ。

中国の複合テクノロジー企業Baiduは、Cockroachの初期からの顧客のひとつだ。同社はこれまでCockroachのテスト役を買って出て、一日に20億のINSERTを処理し、それと並行して、悪夢のようなシナリオの数々をシミュレートしてシステムの自己回復力をテストしてきた。

Kimballが語る、年内に実現したい課題は、営業チャネルの拡大などのありきたりのものではなく、彼が地理的分割(geo-partitioning)と呼ぶ機能の実装だ。それは、カラムのレベルでの複製を地理的に細かい粒度で行う、という、複製のコントロールの細分化だ。

Cockroachが自分をGoogleのCloudSpannerから差別化する大きな要因が、オープンソースだ。地理的分割も、大きな差別化要因になるだろう。複製の細粒度化によってレイテンシーが減るだけでなく、データの独立性(他に侵されないこと)もよりしっかりと守られる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Confluentが$50Mを調達してApache Kafkaの商用化にますます邁進…巨大テク企業の不可欠の構築ベースへ

オープンソースのストリーミングデータベースプロジェクトApache Kafkaの商用サービスを提供しているConfluentが今日(米国時間3/7)、5000万ドルの資金調達を発表した。

そのラウンドはSequoiaがリードし、BenchmarkとIndex Venturesが参加した。SequoiaのMatt Millerが、これを機にConfluentの取締役会に加わる。これで同社の資金調達総額は8000万ドルになる。

Kafkaは一種のメッセージングシステムだが、LinkedInがこれを最初にオリジナルで作ったときは、大量のデータをアプリケーション間、システム間、オンプレミスとクラウドの間などでスムーズに移動することが目的だった。一度にものすごく大量のメッセージを扱えることが、要件とされた。

ConfluentのCEO Jay Krepsによると、LinkedInのチームは、企業内のすべてのデータを、それらがどこにあろうと扱えて、またデータへのアクセスや応答がどこからでもできることを目標とした。“毎日1兆件のメッセージをリアルタイムで処理できるそのシステムをわれわれはオープンソースにして、シリコンバレー全域に普及させた。今の巨大テクノロジー企業の中には、Kafkaを軸として構築されているところが少なくない”、という。

内部システムの中核としてKafkaを使っている企業の例として、Netflix, Uber, Cisco, Goldman Sachsなどが挙げられる。リード投資家SequoiaのMatt Millerは、事前にこれらユーザー企業に聞き取りをして、Confluentの今後の市場が巨大であることを確信した。“Confluentは次の10年でもっともインパクトの大きい企業になりうる、とわれわれは見ている”、と彼は語る。

Confluentには無料のコミュニティエディションもあるが、企業ユーザーの多くは補助的ツールの揃った有料エディションを使いたがる。それらのツールは、複雑な企業内におけるデータフローを管理しモニタするツール、Kafkaのクラスタ上におけるデータフローの最適化と均衡化のために全社的なデータフローを追跡するツールなどだ。さらにConfluentは、いくつかのサポートプランを用意している。

Millerによると、社内の多様なシステムをKafkaを使わずに接続することはできるが、それは効率が悪くて費用も大きい。“多くの企業が、場当たり的な統合化や、時間のかかるバッチ処理でお茶を濁してきた。Kafkaを使えば、もっと安上がりに大量の情報を共有できるし、古いシステムから乳離れしてマイクロサービスへの移行もできる”、と彼は説明する。

大量のデータを扱えてしかもさまざまなシステムと迅速にコミュニケートできるKafkaは、IoTにもすごく向いている。数年後にはIoTが生成するデータが膨大な量になり、しかも企業は、それらのデータを迅速有効に利用するための方法を必要とするのだ。

今度の5000万ドルの使いみちとしてKrepsは、急速に成長している市場への対応能力の完備を挙げる。“この動きの激しい分野で先頭を走っているのだから、今後も先頭を維持しなければならない。順位が下がることは許されない。これからも、このカテゴリーの定義といえばこれ!、と言えるような技術を作り出し、それを世界中の市場に持ち込む必要がある”、と彼は語る。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

MongoDBのクラウド上のデータベースサービスAtlasに無料プランが登場してフリーミアムに

MongoDBは今でも主力製品のNoSQLデータベースで有名だが、しかし昨年同社は、Atlasという、管理サービスつきのデータベースサービスを立ち上げた。そのクラウドサーバーは、AWS上で動いている。立ち上げ時点では有料サービスのみだったが…AWSの使用料も払わなければならないから当然か…、今日からはMongoDBを勉強したいデベロッパーや、これから新しいアプリケーションのプロトタイプを作る、といった人たちのために、無料サービスの提供を開始する。

無料プランには当然ながら制約もあり、たとえばストレージは512MBしか使えない。でも、可用性の高いAtlasのクラスターにアクセスできる点では有料プランと同じで、しかも、保存されている、あるいは転送時の、データは暗号化される。だからストレージが小さい点をのぞけば、サービスの内容は有料プランと変わらない。MongoDBをこれから勉強しよう、というユーザーにとっては、ストレージのサイズもこれぐらいで十分だろう。

無料プランがなぜこんなに遅れたのか、という問いに対してMongoDBのクラウドプロダクト担当VP Sahir Azamはこう答える: “無料プラン(Free Tier)のユーザー体験を、最初から本格的なものにしたかった。最初に立ち上げた有料プランも、販促のための無料利用の部分がかなりあり、デベロッパーはかなり気軽に完全なプロダクトを体験できた。そして彼らからのフィードバックが、無料プランでも高可用性とモニタリングと主要なセキュリティ機能をを提供すべき、という確信をわれわれに与えた。そのほかの機能やツールについても、それらをすべて提供すべき、という確信が得られた。つまりこれまでの有料ユーザーからのフィードバックを見るかぎり、ユーザー体験のクォリティーという点から、有料バージョンと完全に同じものを提供すべき、という結論にならざるを得なかった”。

また、今日同時にローンチしたデータマイグレーションツールmongomirrorにより、既存のMongoDBのデプロイメントをAtlasへ移せる。このツールは、将来的にはクラウド上のツールとしてAtlasから提供される予定だ。

Atlasの利用状況についてMongoDBは詳しい数字を明かさないが、“全世界の数千の企業で使われている”、とだけ言った。その中には、オンラインデートサービスeHarmonyや、バイオテックのThermo Fisherなどが含まれる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Googleがグローバルな分散データベースCloud Spannerをローンチ、SQLとNoSQLの‘良いとこ取り’を実装

google-cloud-spanner

Googleが今日、Cloud Spannerのベータローンチを発表した。それは、ミッションクリティカルなアプリケーションのための、グローバルな分散データベースだ。Cloud SpannerはGoogleの一連の、クラウドベースのデータベースサービスの仲間に加わる…それらは、Bigtable, Cloud SQL, そしてCloud Datastoreなどだが、しかしその重要な特徴は、従来的な関係データベースとNoSQLデータベースの両方の長所を取り入れて、トランザクションの一貫性(整合性)とスケーラビリティの容易さの両方を実現していることだ。現実的に分かりやすい言い方をすると、MySQLやPostgreSQLなどのデータベースでスケールの限界にぶつかっているデベロッパーが、クェリなどの現状を維持しつつ、その限界を乗り越えるために採用する代替的データベースだ。

Cloud Spannerという名前に見覚えのある方は、それはたぶんGoogleがこのデータベースの過去のバージョンを社内的に使っていて、2012年にはそれに関するペーパーを公開しているからだ。GoogleのDeepti Srivastavaによると、Googleは2007年に、MySQLに代わるデータベースとしてSpannerの開発に着手した。それまでは同社のさまざまなプロダクトで、MySQLが使われていた。しかし今日では、Google Photosや、Googleのそのほかの多くのミッションクリティカルなアプリケーションがSpannerを使っている。その同じデータベースを今回、外部デベロッパーにも公開したものが、Cloud Spannerなのだ。

デベロッパーは、SQLベースのアプリケーションを書くときに集積した知識をそのまま新しいデータベースに持ち込んで、SQLのシンタックスを用い、顧客にはACIDなトランザクションを提供できる(しかもそれを自分たちのセールスポイントにもできる)が、しかしそれと同時に、Google自身がそのプロダクトの運用のために必要としている、スケーラビリティとグローバルなネットワークの組み合わせなど、今日的なNoSQLデータベースの利点も提供できる。

2017-02-14_0903

“データ保存データベースではなく、日々のトランザクションのためのデータベースでスケールの限界にぶつかっていたら、共有データベースやNoSQLが次の選択肢だ”、とSrivastavaは語る。“しかし、それでもなおSQLは使い続けたい、という二股的トレードオフを抱えているなら、Spannerを選ぶべきだ。デベロッパーは、今使っているシステムを捨てたくない。だったら私たちが、そのトレードオフをできるかぎりシンプルにして差し上げたい”。

彼女によると、Cloud Spannerのデータベースには理論的には大きさの制約はないし、もちろん小さなプロジェクトでも十分に利用できるが、メインのアドバンテージは必ずしもスケーラビリティではなくて、グローバルなトランザクションの能力にある。そういう意味でCloud Spannerは、Cloud Datastoreの拡張と考えた方がよい。Cloud DatastoreはGoogleの、スケーラビリティの高いNoSQLデータベースだが、ACIDトランザクションやSQLふうのクェリもサポートしている。

cloud-spanner-4

パフォーマンスについては、まだ体験的に語れる段階ではないが、Googleの約束ではCloud Spannerの性能はそのほかのクラウドデータベースとほぼ互角である。

GoogleはCloud Spannerに関して99.9999%のアップタイムを約束しており、また提供するクライアントライブラリはJava, Go, Python, Node.jsなど複数の言語に対応している。ベータテストの間に複数の企業が、そのほかの言語のためのドライバーを作ったから、それらの言語のサポートも遠くないだろう。

料金は1ノード1時間あたり90セント(レプリケーションを含む)から始まり、ストレージは1GB1か月30セントだ。ネットワークのingressは無料、egressはGoogleの通常のクロスリージョン(複数リージョン間)とインターネットegressの料金に従う。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

The Cloud Native Compute Foundation(CNCF)が倒産したRethinkDBのソースコードを取得

steel foundry in Redcar clouds billowing

珍しいニュースだ。Cloud Native Compute Foundation (CNCF)が今日(米国時間6日)、RethinkDBの著作権と資産をコード込みで取得し、それをLinux Foundationに寄付したことを発表した。RethinkDBは、ベンチャーキャピタルからそのオープンソースデータベースに対して、およそ1220万ドルの資金を調達していたが、2016年10月の時点で倒産した。CNCFは、今回の取引のために2万5000ドルを支払ったと述べている。コードはApacheライセンスの下で利用可能になる予定だ。

CNCFは、Linux Foundationが支援するプロジェクトで、データベースよりもコンテナ(Kubernetesが最も有名なプロジェクトだ)に注力している。よってRethinkDBをLinux Foundationへ移管し、自ら保守は行わないということは特に不思議ではない。RethinkDBはすぐにクラスタリングが使えるという点が注目に値する。ということで、CNCFとRethinkDBのミッションには既に重なる部分もあるのだ。CNCFのメンバーに名を連ねるのは、Cisco、Docker、Google、CoreOS、Intel、IBM、RedHat、Samsung、そしてMesosphereといった企業だ。

典型的なケースでは企業自身がLinuxやApacheのような組織にコードを寄付することになる。2万5000ドルという金額は、ここに関わる企業たちにとってはもちろん大金という訳ではないが、Linux Foundationに聞いたところ、破産後ではRethinkDB自身にコードを寄付する決定はできなかったということだ。

私がこのことについて、CNCFのエグゼクティブディレクターであるDan Kohnに尋ねると「RethinkDBは著作権をもう持っていなかったのです」という答えが返ってきた。「Rethinkにお金を貸していた者がいて、担保を設定していたのです。担保を設定していた者が著作権も所有していました。この者に2万5000ドルを支払い、著作権と資産を購入したのです」。

以前の運営母体では、RethinkDBはGNUアフェロ一般公衆ライセンス (version 3)を使用していた。それに対してLinux Foundationは、ライセンスの制限によって、プロジェクトに寄与する会社は殆どないだろうと主張していた。このことは、RethinkDBの会社自身がプロジェクトのコアコントリビューターの間は大きな問題とはならなかったが、会社が倒産した後は、コードはほとんどGitHubの上に残されることになった。

「CNCFは、少しの寄与で莫大な投資を救済できる機会だと見たのです」とKohn。「RethinkDBは数百万ドルにも及ぶ価値を生み出し、様々なプロジェクト、企業、そしてスタートアップで利用されています。今やソフトウェアは、Apacheライセンスの下で利用可能になりました。RethinkDBコミュニティは自分自身で、将来の道筋を定義するチャンスを得たのです」。

[ 原文へ ]
(翻訳:Sako)

FEATURED IMAGE: LAUREN METCALFE/GETTY IMAGES

ドラック・アンド・ドロップでデータベースとのコネクションを確立できるSnapLogicが新たに4000万ドルを調達

Casual woman inside a cafe downloading or sharing information with a smartphone . A lot of apps, media and other information flying out or into the phone

SnapLogicは企業が抱える難題を解決するスタートアップである。同社が展開するのは、レガシーデータをクラウドや自社内のデータベースと結合するサービスだ。3750万ドルを調達した前回のラウンドから約1年が経過した今日(現地時間7日)、SnapLogicは新しく4000万ドルを調達したことを発表した。

このラウンドでリード投資家を務めたのはヨーロッパのVitruvian Partnersで、この他にも既存投資家のAndreessen Horowitz、Capital One、Ingnition Partners、NextEquity Partners、Triangle Peakなども本ラウンドに参加している。今回のラウンドを合わせると、SnapLogicの合計調達金額は1億3630万ドルとなる。

私たちがSnapLogicを最後に取材した昨年以降、同社は好調に成長を続けているようだ。彼らは新たに300社を顧客として獲得し、現在の顧客数の合計は700社となる。SnapLogicの顧客リストには、同社に出資するCapital Oneを初め、Del Monte、Kraft、Verizon(TechCrunchの親会社)、Adobe、そしてElon MuskのSolar Cityなど、各業界のビッグネームが名を連ねている。

CEOのGuarav Dhillonは、今回調達した資金をグローバルな事業拡大のために利用すると話している ― そして、今回の調達は賢い判断だったと彼は語る。「複雑なタームで巨額の資金調達をするのではなく、明快なタームで連続してアップラウンドを達成するというのが私たちのアプローチです。私たちはたった1350万ドルの資金でInformaticaを創りあげました。ですから、必要な時に必要な分だけ資金調達をするのが私のやり方なのです」と彼は説明する。

Vitrubianがリード投資家を務めた本ラウンドについて彼は、ヨーロッパ進出のための基盤を構築することに加え、過去のラウンドから参加する米国の投資家とのつながりを強化する狙いがあったと説明する。「私たちはすでに一流の米国投資家から出資を受けています(A16Z、Floodgate、Ignition、Microsoft、NextEquity、SilverLake、Triangle Peakなど)。Vitruvianは先見の明をもつ投資家であり、私たちのグローバル展開の手助けとなると判断しました」と彼は話す。

SnapLogicが提供するのは、様々なデータソース向けにあらかじめ設計されたデータベースコネクションの「Snap」だ。SAP、Twitter、Workday、Salesforceなどの様々なデータソースだけでなく、各種の通信プロトコルにまで対応した何百ものSnapがすでに提供されている。

SnapLogicのクラウドサービスは3つのインターフェイスで構成されている。それらのインターフェイスはそれぞれ、「デザイナー」、「マネージャー」、そしてSnapをモニタリングする「ダッシュボード」と呼ばれる。同サービスではデータベースとのコネクションを確立するためにコードを書く必要はなく、必要なSnapを「デザイナー」上にドラッグ・アンド・ドロップするだけでいい。

screen-shot-2016-12-06-at-3-32-18-pm

画像提供:SnapLogic

企業が複数のシステムを導入している場合、これらのシステム間でデータのやり取りをするのは非常に大変な作業だ。そして、それこそがSnapLogicが解決しようとしている難題なのだ。このサービスは明らかに投資家の興味を惹きつけ、同社は昨年だけで7700万ドルの資金調達を完了している。

SnapLogicのように急成長中の企業は、投下された資金を利用して新しい人材を獲得していく必要がある。同社は今後、セールス部門、マーケティング部門、カスタマーサービス部門の人員強化を進め、グローバルな事業拡大のための準備を整えていく構えだ。

[原文]

(翻訳: 木村 拓哉 /Website /Facebook /Twitter

BenevolentBioの人工知能はALSのもっと良い治療法を見つけるかもしれない、新薬開発よりもデータの発掘で

jackie-hunter-benevolentbio

あの、バケツ一杯の氷水を頭から浴びるキャンペーンで大きく知名度を上げた麻痺性の神経症状、 筋萎縮性側索硬化症(amyotrophic lateral sclerosis, ALS)の治療に有効な薬が、すでに存在しているとしたら、どうだろう?

それが、BenevolentBioのCEO Jackie Hunterが直面している疑問だ。Hunterは人工知能企業BenevolentAIの生物医学部門を任され、医学研究の膨大なデータベースに機械学習を適用して、データを高速にスキャンし組織化しようとしている。過去の科学研究を掘り返して新たな発見にたどり着くことなど、ありえないように思えるが、しかし生命科学の分野では新しい研究が30秒に一本の割合で公開されており、そのあまりにもの多さのゆえに、価値ある研究が見過ごされることも少なくない。

Hunterは今日(米国時間12/6)の本誌TechCrunch主催Disrupt Londonのステージで、BenevolentBioのAIがすでに成功している、と語った。BenevolentBioのAIは、ALS治療に関する未知の情報があるかもしれない研究を探しだす。“最終的に5種類の化合物をテスト対象として選定した”、とHunterは説明した。BenevolentBioはその5種類の化合物を、ALSの患者の細胞からクローンした細胞に対してテストした。

“ある化合物は、だめだった。二つは効果があり、それらはALS治療の基準としては最高の水準だった。そして他の二つはさらに良好で、これまでの研究の中では最良だった。5つの化合物のうち4つは、これまでの研究者たちがまったく見ようとしなかった化合物だった”、とHunterは語る。

  1. jackie-hunter-benevolentbio5.jpg

  2. jackie-hunter-benevolentbio4.jpg

  3. jackie-hunter-benevolentbio3.jpg

  4. jackie-hunter-benevolentbio2.jpg

  5. jackie-hunter-benevolentbio1.jpg

  6. jackie-hunter-benevolentbio.jpg

BenevolentBioがテストした薬はすでに開発が始まっているので、実際に患者に対して使えるようになるのは一般の新薬より相当早いと期待される。

“私も前は製薬業界にいたが、そのR&Dのやり方は数十年前からまったく変わっていない。ひとつの新薬の開発に、20億ドルの費用を要している”、とHunterは述べる。薬の開発者たちがAIを利用すると、既存の薬の別の用途を見つけることができるので、新薬に膨大な投資をするよりも効率的である。またAIは、研究者たちにより早く、もっとも有望な発見の方向性を示すことができる。

しかしながらAIは、それ自身で新しい科学的突破口に到達することはできない。Hunterは、そう主張する。データをチェックするためには依然として、経験豊富な人間科学者が必要である。“しかしAIは科学者たちの〔発想の方向性の〕健康診断ができる。AIは科学者を補助しその能力を拡張するが、科学者をリプレースすることはない”、と彼女は語る。

BenevolentBioはそのAIをさらに拡張して、親会社を介して他の分野にも応用したい、と期待している。Hunterによると同社の技術は、コンピューティングのパワーとデータ分析と、インサイトと、そして需要の理想的な組み合わせであり、“イノベーションのパーフェクトな波を作り出して、本当にこの業界を変えてしまう、と私は思っている”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GPUの並列処理でSQLクェリを超高速化するBlazingDB、AWSのGPUインスタンスなどを利用

blazingdb1

顧客データを数ペタバイトも集めるのはクールだけど、でもそれをどうやって有効利用するのか? BlazingDBは、大量のGPUを使ってデータベースに対するSQLクェリを高速化する。同社はTechCrunch Disrupt SFのBattlefieldコンペで、そのソリューションの無料のコミュニティエディションを披露した。

複雑なSQLクェリは、実行時間が長すぎてこっちが眠ってしまいそうになることもある。それは、クェリをCPUが実行していて、必要十分なスケーリングができないからだ。

BlazingDBの協同ファウンダーでCEOのRodrigo Aramburuはこう言う: “サーバーをスケールアップすることはできるが、リニアー(線形)な処理の場合、効果的なサーバーの増設は難しい”。

データベースにGPUを使うのは、なかなかおもしろい。GPUは大量のタスクを並列に動かせるから、一部の限られた種類のタスクにとってはとても有利だ。とくに今では、画像処理や機械学習のアプリケーションでGPUが多用されている。でも、データベースでGPUを使うという話は、今回が初めてだ。

クラウドコンピューティングのおかげで、大量のデータをデータベースに保存することは、とても簡単になった。でも企業のデータベースは今では、アナリティクス(データ分析)のダッシュボードやビジネスインテリジェンスのためのツールなどを構築するためにも使われている。

このような、データベースの高性能な利用が求められる場面が、BlazingDBの出番だ。短時間で、集計をしたり、述語を使ったり、データベースの大量のエントリーを操作しなければならない。同社が顧客を受け入れ始めたのは2016年の6月だが、すでにFortune 100社に挙げられる大企業数社がBlazingDBを使っている。

Aramburu曰く、“彼らがそれまで使っていたツールはSQLの処理に数時間を要していたが、うちのツールなら数分だ。BlazingDBは何千ものコアを使って大規模な並列処理を行う”。

BlazingDBが実際に使うのは、Amazon Web ServicesやIBMのSoftLayer、Microsoft AzureなどのGPUインスタンスだ。だから企業はサーバーを(少なくとも今のところは)自分で管理する必要はないが、大量の機密データを扱うような企業はサーバーの自己管理を選んでもよい。

“うちのインフラストラクチャは、サーバーの種類やタイプを特定しない”、とAramburuは語る。“われわれが構築したコードベースは、そのための問題解決に尽力しているから、けっこう複雑だ”。

顧客は、そのほかのSQLデータベースと同じく、BlazingDBにプログラムでアクセスできる。たとえばPythonでETLのスクリプトを書いて、BlazingDB上のデータにアクセスしてもよい。

今BlazingDBのチームは6名だ。同社は今、大企業の顧客を獲得していくための概念実証の構築を、計画している。一方BlazingDBには無料のコミュニティエディションもあるから、ちょっと遊んでみることもできる。

SQLデータベースの企業というと、あまりセクシーには響かないが、BlazingDBがやってることはおもしろい。今、多くの企業がデータ駆動型になりつつあるが、BlazingDBは大量のデータから意味を見つけ出す作業を助ける。

  1. blazingdb21.jpg

  2. blazingdb2.jpg

  3. blazingdb31.jpg

  4. blazingdb11.jpg

  5. blazingdb12.jpg

  6. blazingdb3.jpg

Q&A

Q: これまでのどんなツールより速いようだが、切り替えの費用は?
A: コネクタを提供していますから、データが数テラバイトあっても、切り替えはかなり容易です。

Q: 御社のスライドにはDeepMindが登場するけど、AlphaGoもGPUを使っているからか?
A: あれはとても多層的なニューラルネットワークを使っていますが、それはGPUの集合で構成されています。

Q: このソリューションの欠点は何か?
A: トランザクション型のデータベースではないことです。その方面では、そんなに速くありません。また、SQLの規格のすべてを実装してはいません。ウィンドウファンクションやストアプロシージャはありません。

Q: 類似特許は存在していないか?
A: 特許については詳しくないんですけど、既存のSQLツールをGPU利用バージョンに改装しているところは、いろいろあります。われわれは、スクラッチから(ゼロから)スタートしました。

disrupt

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Googleのクラウドデータベースサービスのすべてがベータを終了、SLA完備、関連ストレージサービスも高速化

cbf_009

Googleが今日、同社のCloud Platformに関するいくつかの発表を行った。その多くは各種のクラウドデータベースに関するものだが、同時に、コールドデータのための安価なクラウドストレージサービスNearlineのアップデートや、ディスクボリュームの高速化、Cloud Storageでユーザー自身の暗号鍵が使えること、などに関する発表も行われた。

全体としてGoogleが訴えたいのは、同社のクラウドコンピューティングサービスが、プロダクション用途に十分使えるほど成熟している、ということだ。

データベースに関するビッグニュースは、Googleのクラウドデータベースサービスのすべてが今やベータを終えたことだ。たとえばクラウド上で容易に利用でき管理もできるMySQLデータベースCloud SQL第二世代バージョンも、9か月のベータを終了して一般公開される。

NoSQLデータベースのCloud Bigtableは、非常に大規模なデータ分析と実動負荷を誇っているが、これもやはり、今日から一般供用される。

datacenter_google

またWebアプリケーションやモバイルアプリから便利に使えるNoSQLデータベースGoogle Cloud DatastoreのAPIも、ベータを終えた。データベース本体はかなり前から一般供用されていたが、デベロッパーはそれを、Google App Engineの一部としてしか使えなかった。でもAPIが使えるようになると、App Engineの外のアプリケーションでもこのデータベースを使える。同社によると、今ではSnapchatなども使っているCloud Datastoreは、毎月1兆リクエストを処理している。

Googleによれば、これらのデータベースサービスにはベータの期間中にいろんな機能を加えてきたが、今現在でユーザーにとって一番重要なのはSLAが提供されたことだろう。たとえばCloud Datastoreは、SLAにより99.95%の月間アップタイムを保証している。

Microsoftの旗艦的データベースサーバーをGoogle Cloudで使いたい人のために、同社はライセンス込みのSQL Serverイメージを提供している(今ベータ中)。既存のライセンスを、そのまま使うこともできる。ただしSQL Serverのイメージを動かすとGoogleの通常のインスタンス使用以上の費用が発生する。それはSQL Server Standardでは1コア1時間あたり$0.1645、SQL Server Webでは$0.011だが、SQL Server Expressは無料だ。

SQL Serverをクラウドで使うならMicrosoftのクラウドを使うのがベスト、という話になりそうだが、しかしGoogleとしては、エンタープライズユーザーを既存のアプリケーションとワークロード込みで同陣営に鞍替えさせるために、このオプションが欠かせないのだ。しかも今や、エンタープライズ顧客のあいだでは、GoogleのクラウドよりもMicrosoftのクラウドサービスの方が人気がある。

なお、ストレージに関する今日の発表では、コールドデータ用の安価なストレージサービスNearlineが速くなった。NearlineはAmazonのGlacier〔氷河!〕ストレージなどと競合するが、低価格と引き換えに可利用性の保証が低い。これまでのNearlineユーザーは、データアクセスにおいて3〜5秒のレイテンシー(遅れ)を我慢しなければならなかったが、これからは、(Googleのスポークスパーソンによると)“ほとんどリアルタイムだ”そうだ。

GoogleのPersistent Diskボリュームも速くなり、最大リード/ライト(IOPS
)が15000から25000にアップした。データベースアプリケーションだけでなく、そのほかのデータの保存にも便利である。

Googleの今日の発表声明文によると、“Google Cloud Platformをみなさまのエンタープライズデータベースワークロードのための最良のパブリッククラウドにしていくための、従来からの弊社の一貫して多大なる献身の継続において、本日は特別に大きな里程標が刻まれたことになります”、だそうだ。Googleが同社のCloud Platformに関してきわめて真剣であることの、証拠はすでに出揃っていると思うが、それでもまだ不満な人は、今日の発表の内容を見るべきかもしれない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

AWSの新サービスKinesis AnalyticsはリアルタイムストリーミングデータをSQLで分析できる

aws_logo

AmazonのクラウドコンピューティングプラットホームAWSが今日(米国時間8/11)、リアルタイムのストリーミングデータをSQLのクェリで容易に分析できるツール、Kinesis Analyticsを立ち上げた。Kinesis Analyticsは、AWSのリアルタイムストリーミングデータプラットホームKinesisを利用するユーザー向けだ。デベロッパーは、Kinesisを使ってストリーミングデータを取り込み、それを自分たちのアプリケーションで使用する。

Kinesis Analyticsを使えば、入ってくるデータを継続的なSQLクェリでフィルタしたり操作することによって、データをアプリケーションがすぐにでも使える形にできる。

AWSのチーフエヴァンジェリストJeff Barrが今日書いているところによると、通常のデータベースクェリは基本的に静的なデータを見る。しかしストリーミングデータに対してKinesis Analyticsでクェリするようになると、このモデルは二義的になる。“クェリは長期にわたって行われ、その間にデータは、新しいレコードや観察結果、ログのエントリーなどとして毎秒何度も々々々変わる。データをそんな動的なものとしてとらえるようになると、クェリによるそれらの処理がとても理解しやすいことが、分かるだろう。パーシステントな(持続的な)クェリを作って、次々と到着するレコードを処理するのだ”、と彼は語る。

2016-08-11_0907

Kinesis Analyticsの主な対象はリアルタイムデータだが、ときには、ちょっとした遅れを挿入したり、到着したデータを集めてバッチ処理した方が、その集まったデータに見られるトレンドを見つけやすくなる。そんなユースケースのためにKinesis Analyticsでは、“ウィンドウ(窓)”をセットできる。窓には三種類あり、周期的なレポート用にはタンブリングウィンドウ、モニタしてトレンドを見つける用途にはスライディングウィンドウ、この二つでだめなときには、時間間隔を任意に設定できるカスタムウィンドウを作れる(何らかの対話性に基づく間隔でもよい)。

Kinesis Analyticsは、AWS Lambdaのように、サーバーレスで処理を行うAWSのプロジェクトの一環だ。このサービスの標準的なユースケースはIoTのアプリケーションだと思われるが、そのほかに、オーディエンス追跡システムや、広告の取り替え処理、リアルタイムのログ分析などにも好適だ。しかもSQLがそのまま使えるので、特殊なSDKをインストールしたり、新しい言語を勉強する必要はない。

このサービスは現在、AmazonのEU(アイルランド)、US East(ノース・ヴァージニア)、US West(オレゴン)の各リージョンで使える。料金は処理量に応じての従量制だ。処理量の単位は、仮想コア一つ、メモリ4GBの仮想マシン一台相当とする。それは、アメリカのリージョンでは1時間あたり11セント、アイルランドのデータセンターでは12セントだ。ただし料金は可変であり、たとえば追加のデータをバーストで処理するような場合には変わる。デフォルトの料金は、毎秒1000レコードというデータ取り込み量を想定している。サービスのスケールアップ/ダウンは、必要に応じて自動的に行われる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))