合成データでMLを訓練し機械学習へのエントリーを容易にするRealityEngines

元Googleの役員たちが作ったAIと機械学習のスタートアップであるRealityEngines.AIが米国時間1月28日、ステルスを脱して最初の製品を発表した。

同社が2019年に525万ドル(約5億7300万円)のシードラウンドを発表したとき、CEOのBindu Reddy(ビンドゥ・レディ)氏はミッションについて、機械学習を企業にとってやさしくすると言うだけで、詳しい話は何もなかった。しかし今日チームは、エンタープライズにおけるMLの標準的なユースケースに伴う問題を解決する一連のツールをローンチして、サービスの具体的な内容を明らかにした。それらの問題とは、ユーザーチャーン(中途解約)の予測、不正の検出、営業の見込み客予測、セキュリティの脅威の検出、クラウド支出の最適化などだ。これらにあてはまらない問題には、もっと一般的な予測モデルサービスが提供される。

RealiyEnginesの前は、レディ氏はGoogleでGoogle Appsのプロダクトのトップを、AWSでは業種別AIのゼネラルマネージャーを務めた。共同創業者のArvind Sundararajan(アービンド・スンダララジャン)氏はかつてGoogleとUberに在籍し、Siddartha Naidu(シッダールタ・ナイドゥ)氏はGoogleでBigQueryを作った。同社の投資家は元Google会長Eric Schmidt(エリック・シュミット)氏、Ram Shriram(ラム・シュリラム)氏、Khosla Ventures、そしてPaul Buchheit氏(ポール・ブッフハイト)だ。

レディ氏によると、これら一連の製品を支える基本的な考え方は、企業に機械学習への容易なエントリーを提供することだ。企業自体にデータサイエンティストがいなくてもよい。

人材以外の企業にとっての問題は、ネットワークを有効に訓練するために必要な大量のデータが、往々にして存在しないことだ。AIを試してみたいという企業は多くても、この問題が前途に転がっている巨大な落石のような障害になっていた。RealityEnginesはこの問題を、本物そっくりの合成データを作ることによって解決。それで企業の既存のデータを補うことができる。その合成データがある場合は、ない場合に比べてモデルの精度が15%以上アップするそうだ。

レディ氏は次のように主張する。「敵対的生成ネットワーク(Generative Adversarial Networks、GANS)の最も強力な使い方は、ディープフェイクを作ることだった。ディープフェイクは、部分的に手を加えたビデオや画像で誤った情報を広めることが極めて容易であることを世間に知らしめたから、大衆の心にも訴えた。しかしGANSは、生産的な善用もできる。たとえば合成データセットを作って元のデータと合わせれば、企業に大量の訓練用データがなくても、堅牢なAIモデルを作れる」。

RealityEnginesの現在の社員は約20名で、その多くはML/AI専門の研究者または技術者だ。

[原文へ]
(翻訳:iwatani、a.k.a. hiwa

Google Firebaseのアップデートでアプリ内メッセージング、JIRAの統合などが加わる

Firebaseは今やGoogleのデフォルトのアプリ開発プラットホームであり、買収から今日までの4年間で機能とGoogleのサービスとの統合を大きく拡充したきた。そして今日(米国時間8/16)は、そのさらなるアップデートにより、新しい機能と、より深い統合と、そしていくつかの新しいデザインがこのサービスに導入された。

このリリースのハイライトは、アプリ内メッセージングのローンチだ。この機能により、ユーザーがそのアプリを使っているときに、特定のユーザーに向けた(targeted)、しかもそのときの状況に合った(contextual)メッセージを送れる。このアプリ内通知機能はルック&フィールをデベロッパーがカスタマイズでき、今日から展開されるが、たぶんもっと重要なのは、この機能がFirebase PredictionsやGoogle Analytics for Firebaseと統合されていることだ。そのため、ユーザーの現在の行動に反応するだけでなく、どれぐらいのお金を使いそうか、とか、アプリの使用をやめそうか、などの予測(predictions)に基づいてメッセージを送れる。

また今回のアップデートでFirebaseは、AtlassianのJIRAと統合される。これからはFirebaseのユーザーが、Firebase内のクラッシュレポートに基づいてJIRAのIssue(‘課題’)を作れる。この統合は、数週間後に有効になる。

2017年にTwitterから買収したクラッシュレポートツールCrashlyticsとの、より深い統合が実現した。これからはそのデータをBigQueryにエキスポートして分析し、GoogleのData Studioで視覚化できる。そしてBigQueryにデータを置いたら、Firebaseのデフォルトの保持/削除のルールとは無関係になる。

レポートに関しては、Firebase Cloud Messagingにレポート用のダッシュボードがつき、またFirebase ConsoleのProject Overviewのデザインが一新されて、アプリの健康状態やステータスをひとつのページで見られるようになった。Latest Releaseセクションでは、ライブデータもフィーチャーされる。これらの機能は今日から展開が始まり、数週間後には全員に行き渡る。

WebのコンテンツをホストできるサービスFirebase Hostingは、今回のアップデートにより、ひとつのプロジェクト内で複数のWebサイトをホストできるようになった。Webサイトのアップデートをプッシュしたら、変更されたファイルだけがアップロードされる。ささやかなスピードアップだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

GoogleのBigQueryの中で機械学習のモデルを作れるBigQuery ML…データの移動が要らない

機械学習のモデルの構築にはまだ多くの障害があり、その一つが、データのあるところからモデルを構築するところへ、大量のデータを移動することだ。Googleはその工程を少しでも容易にするために、データウェアハウスBigQueryの中でモデルを作れる機能、 BigQuery MLを立ち上げた。

BigQuery MLを使うと、モデルをファインチューニングするためにデータを行ったり来たりさせることなく、データウェアハウスの中で線形回帰やロジスティック回帰を使ってモデルを構築できる。しかも、モデルを構築して予測を得るためにやるべきことは、少量のSQLを書くことだけだ。

データの移動がそんなに大きな問題だとは、ふつうの人には思えないかもしれないが、単なる物理的な移動ではなくて選択や整形などの処理が必要だから、かなりの時間を要する。そのぶん、モデルの構築に投じるべき時間がしわ寄せされる。

BigQuery MLでは、機械学習の経験の浅い者でも、容易にモデルを構築できる。まず、SQLの変種のようなもので、作りたいモデルの種類と、入力データを指定する。するとBigQueryMLがモデルの構築を開始し、そこから直ちに予測が得られるようになる。 RやPythonでコードを書く必要はない。

BigQuery MLは、今ベータを利用できる。

[若者の失業の解決、アルツハイマー病の検出、ほか]

画像クレジット: TechCrunch

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Googleが多様なツールを用意してクラウド上のデータ操作/データ処理を助ける

今日(米国時間3/9)のCloud NextカンファレンスのステージでGoogleは、データの準備や統合化を助ける一連のツールを発表した。いずれも、Google Cloudの企業利用をより強力かつ敏速にするためのアップデートだ。

まず紹介されたのがGoogle Cloud Dataprepの非公開ベータ。その名のとおり、データ(data)を視覚化のために準備(preparation)する。このツールには、異状検出機能があり、機械学習を利用して通常と異なる形のデータをユーザーに告げてデータのクォリティーを改善する。

誰にも使いやすいツールにするために、すっきりとしたインタフェイスに留意している。多くのコントロールが、ドラッグ&ドロップでできる。DataprepはGCP(Google Cloud Platform)への統合化に向けて最適化されており、Google Cloud Dataflow中のパイプラインを作ることによって、容易にBigQueryへデータをフィードできるようにしている。

今日は、BigQueryも強調された。新たにBigQuery Data Transfer Serviceというサービスを立ち上げて、複数のデータソースからのデータのマージを単純化する。既存の商用データセット、Xignite, HouseCanary, Remind, AccuWeather, Dow Jonesなどを最初からサポートしている。

ユーザーがTableauのような視覚化サービスを利用するときは、データをシームレスに準備して分析結果を表示できる。BigQueryは大規模プロジェクトのためにCloud Bigtableを今後サポートするから、データをいちいちコピーして移送する手間もなくなる。

Googleのクラウドプラットホーム担当VC Brian Stevensはこう語る: “マーケティングのチームがマーケティングに関するデータ分析をGCP上できわめて容易にできるようにした”。

Cloud Dataflowには、PythonによるSDKが広く提供される。これまでのJavaを超えて、コミュニティがさらに拡大するだろう。

ワークフローツールCloud Datalabも、今度から一般提供される。デベロッパーは、ノートブック環境Jupyterと標準のSQLを使って、データ分析ができる。TensorFlowとScikit-learnもサポートされる。バッチとストリーム処理はCloud DataflowやApache Spark + Cloud Dataprocでできる。またCloud DataflowのためのStackdriver Monitoringはベータへ移行し、GCPやAWSがホストするアプリケーションのモニタリングや診断を行う。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GoogleのBigQueryによる大規模データ分析をGoogle DriveやGoogle Sheetsのユーザーにも可利用に…CloudとAppsの融合を進める

cbf_009

Googleが今日(米国時間5/6)、Google Cloud PlatformとGoogle Appsのツールを部分的に接近させるような発表を行った。Googleの、サーバー不要(serverless)の分析型データウェアハウジングサービスBigQueryが、これからは、Google Driveからファイルを読んだり、Google Sheetsのスプレッドシートにアクセスできるようになる。

これまでは、Googleのクラウドコンピューティングサービスと、Google Appsの消費者ないし企業向けの一連の生産性ツールは、まるで両者間にファイヤーウォールでもあるかのように、互いに遮断されていた。しかし今日Googleのスポークスパーソンが述べたところによると、同社は今、両サービスを統合するためのより良い方法を模索しており、それにより今後はGoogle AppsとGoogle Cloud Platformの両方を合わせたような、統一的ソリューションを提供していく予定だ。

Screen Shot 2016-04-05 at 1.09.27 PM

そのスポークスパーソンはこう語る: “Diane Greeneが何度か指摘したように、顧客はGoogleの複数のプロダクトを使っているので、弊社としてもエンタープライズチーム全体との協働により統一的なソリューションを作り、最良のユーザー体験を提供していきたい。今回の統合によって、高度で大規模なデータ分析を生産性アプリケーションのエンドユーザーが気軽に利用できるようになり、データ主体のワークロードを単純化し、エンタープライズの顧客がGoogle Cloud PlatformとGoogle Appsの両方を容易に使いこなせるようにしていきたい”。

具体的にはこうなる: ユーザーはBigQueryによる分析結果を直接、Google Sheets(“GoogleのExcel”)にエキスポートできる。またBigQueryから直接、Google Driveのファイルにアクセスして分析を行える(データをいったんBigQueryにロードする必要がない)。さらにBigQueryは、編集中のGoogle Sheetsにも直接アクセスできる。

ユーザーはGoogle Driveに、最大5TBまでのファイルを保存できる。BigQueryはもっと大きなデータベースでも楽に扱えるが、でもGoogle Driveからのユーザーは、もっと小さなファイルを使用/保有しているだろう。非常に大きなデータベースともなれば、BigQueryの料金も必ずしもお安くはないが、各月の最初の1TBのデータ処理は無料だから、小さなデータ集合やGoogle Drive上の大きなスプレッドシートでBigQueryを試すぶんには、ふところもほとんど痛まないだろう。

Screen Shot 2016-05-03 at 2.13.42 PM

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GoogleのBigQueryにリアルタイムのストリーミング挿入と時限クェリが加わる

Googleが今日(米国時間9/18)、BigQueryの大型アップデートを発表した。それはクラウドからのサービスで、大量のデータをSQLで分析し、とくに、リアルタイムデータの分析に適している。今日からBigQueryのユーザはイベントをデータベースに、行単位でストリーミングできる。そのためのAPIが今日から提供される。

Googleの説明によると、これによって、従来のようにデータをバッチでアップロードするだけでなく、データが発生し可利用になるたびにリアルタイムでそれらを保存できる。BigQueryが行うビッグデータのバルクロード機能はもちろん使えるが、デベロッパがこの新しいリアルタイム機能を試せるために、2014年1月1日までは無料で使える。そのあとは、データベースに10000行挿入するたびに1セントを払う。データ保存料は1ギガバイトあたり月額0.08ドル、クェリ(バッチクェリ)は処理後のデータ1ギガバイトにつき0.02ドルだ。

この新しい機能は、Googleによれば、リアルタイムで常時大量のデータが発生するオンラインショップや、何百万ものユーザや接続デバイスにサービスを提供するWebアプリケーションに向いている。

また、最前の24時間内の特定範囲のデータだけを調べる、というクェリが新たにサポートされた。BigQueryのクェリは基本的に全列スキャンだが、ほんとうは一部だけ見たいというユーザにとっては時間と費用の無駄だった。リアルタイムデータでは、とくにそんなニーズが多いだろう。たとえば、数時間(数日)前まで分かればよい、とか。

今日のアップデートではさらに、SUM()、COUNT()、AVG()、STDDEV_POP()といった新しいウィンドウや統計機能、そして過去のクェリを見ることのできるブラウザツールも提供された。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))