AP通信社が自社の記者たちのためのデータサービスをData.worldの協力で一層充実

ap-data

The Associated Press(AP通信社)は2013年から、自社の記者たちへのデータ提供サービスを始めている。たとえば情報の自由法(Freedom of Information Act)に基づくデータリクエストを手伝ったり、4名のエンジニアを起用してデータの視覚化や、大量のスプレッドシートからのインサイトの取り出し、などをやってきた。そして今日(米国時間3/3)から同社はData.worldとの共同パイロット事業により、記者たちにこれまでよりも詳細なデータを提供していくことになった。

データ分析企業Data.worldB corpの認定企業でもあるので、自分たちの事業の社会性をつねに意識している。今回のAPとのパートナーシップでもそれは変わらず、データの提供者が個々のデータ集合のパーミッションを自分で設定できるようにした。たとえばAPは、インポートしたデータとその分析結果をとりあえずプライベートにしておき、その真実性に確信を持てた段階で一般公開することができる。

APのデータジャーナリズムチームの編集長Troy Thibodeauxはこう語る: “データにフォーカスしたプラットホームが欲しかった。ほかのものは今ますますヴィジュアル性が重視されるようになってきたが、ユーザーがデータにアクセスしてそれらを深く正しく理解することも重要、と考えている”。

Thibodeauxたちは最初、そんなデータプラットホームを内製するつもりでいたが、最終的にはData.worldを起用することに決めた。過去にAPは、データ配布のためのいろんなWebサイトを作っていた。でも今では、その新しいプラットホームが、データへのアクセス性の向上以上のことを、やってくれる。たとえば一つの調査課題に対して一般公開データとプライベートなデータの両方を取り出して、状況がより詳しく分かるようにする。それにより、一つのことに関して、複数の異なった考え方があることも、分かるのだ。

複数の報道機関の共同体でもあるAP通信は、データを配布するためのハブとしても理想的だ。たとえばAPのメンバーである各地の地方紙はそれらのデータを利用してインサイト(とくにニュースに対する解釈や意味)を、読者が求める方向へ調整できる。

“最近は、アメリカに来た難民たちの現状に関するデータを公開した。7つの国からの10年におよぶ移民データだ。そのデータの要約のような短い記事も付けたが、データの利用者であるうちの記者たちの方が、もっとずっと良い記事を書いてくれた”、とThibodeauxは語る。

今後は、データの読み方や使い方に関する記者たちへの教育も行っていく予定だ。そしてシステムが効果的に稼働するようになったら、その結果として実現するデータドリブン(data-driven, データ駆動型)なジャーナリズムが、ニュースの信頼性と透明性と妥当性(適切性)を向上させるだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GoogleのBigQueryによる大規模データ分析をGoogle DriveやGoogle Sheetsのユーザーにも可利用に…CloudとAppsの融合を進める

cbf_009

Googleが今日(米国時間5/6)、Google Cloud PlatformとGoogle Appsのツールを部分的に接近させるような発表を行った。Googleの、サーバー不要(serverless)の分析型データウェアハウジングサービスBigQueryが、これからは、Google Driveからファイルを読んだり、Google Sheetsのスプレッドシートにアクセスできるようになる。

これまでは、Googleのクラウドコンピューティングサービスと、Google Appsの消費者ないし企業向けの一連の生産性ツールは、まるで両者間にファイヤーウォールでもあるかのように、互いに遮断されていた。しかし今日Googleのスポークスパーソンが述べたところによると、同社は今、両サービスを統合するためのより良い方法を模索しており、それにより今後はGoogle AppsとGoogle Cloud Platformの両方を合わせたような、統一的ソリューションを提供していく予定だ。

Screen Shot 2016-04-05 at 1.09.27 PM

そのスポークスパーソンはこう語る: “Diane Greeneが何度か指摘したように、顧客はGoogleの複数のプロダクトを使っているので、弊社としてもエンタープライズチーム全体との協働により統一的なソリューションを作り、最良のユーザー体験を提供していきたい。今回の統合によって、高度で大規模なデータ分析を生産性アプリケーションのエンドユーザーが気軽に利用できるようになり、データ主体のワークロードを単純化し、エンタープライズの顧客がGoogle Cloud PlatformとGoogle Appsの両方を容易に使いこなせるようにしていきたい”。

具体的にはこうなる: ユーザーはBigQueryによる分析結果を直接、Google Sheets(“GoogleのExcel”)にエキスポートできる。またBigQueryから直接、Google Driveのファイルにアクセスして分析を行える(データをいったんBigQueryにロードする必要がない)。さらにBigQueryは、編集中のGoogle Sheetsにも直接アクセスできる。

ユーザーはGoogle Driveに、最大5TBまでのファイルを保存できる。BigQueryはもっと大きなデータベースでも楽に扱えるが、でもGoogle Driveからのユーザーは、もっと小さなファイルを使用/保有しているだろう。非常に大きなデータベースともなれば、BigQueryの料金も必ずしもお安くはないが、各月の最初の1TBのデータ処理は無料だから、小さなデータ集合やGoogle Drive上の大きなスプレッドシートでBigQueryを試すぶんには、ふところもほとんど痛まないだろう。

Screen Shot 2016-05-03 at 2.13.42 PM

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

クラウド時代の高機能スプレッドシートをめざすFivetran, 統計やDB機能を充実

Y Combinatorから巣立ち今日(米国時間3/19)ローンチしたFivetranは、スプレッドシートという古酒を21世紀の新しい革袋に入れることをねらっている。とくに力を入れているのが、従来のスプレッドシートが弱かったデータ分析の分野だ。多くの人が今ではスプレッドシートを…相当無駄な時間を投じて…データベースのように利用しているから、Fivetranはスプレッドシートのこれまでの標準的な機能に加えて、SQL的なクェリやMatlabにあるような統計ツールを導入した。

協同ファウンダのGeorge Fraser(CEO)とTaylor Brown(プロマネ)らによると、製品の基本的なコンセプトは、“これまでのスプレッドシートにはプログラミングにできることの50%しかなかったから、残りの50%を持ち込もう”、というものだ。

確かに彼らの言うとおり、ExcelとMatlabの落差は大きすぎる。Fivetranの初期のプロトタイプはかなりMatlab的で一種のプログラミング環境みたいだった。しかし今日ローンチしたものは、通常のスプレッドシートに、高度なデータ分析(回帰分析など)やデータ変換を行うウィザード群と、SQLのselectやjoinの機能を加え、さらにデータのクリーニングやテキストマイニングなどの機能もある。計算はすべてクラウド上(Amazon EC2)で行われるので、ものすごく大きくて複雑なスプレッドシートでも作れる。

チームがこのSaaSスプレッドシートの開発に着手したのは昨年の12月で、現状ではExcelのドキュメントや、CSVやJSONのファイルをアップロードしてすぐに仕事を始められる。チームの長期的プラントしては、このスプレッドシートの表面的な機能(ユーザ体験)を縁の下の本物のデータベースが支える、という形も構想している。Fivetranのパワーを人びとに分かってもらうために、(全米大学バスケ大会)「3月の狂乱」(March Madness)対戦表シミュレータや一連のチュートリアルも提供している。

ユーザは自分のデータをアップロードし、Fivetranの”step”システムを使って操作する。その計算に基づいて、副次的なシートも作られる。これまでのスプレッドシートに比べるとかなり高度だが、Excelの公式(SUM(a,b)など)もそのまま使える。

今チームはスプレッドシート用のユニットテスト(各部分の試験)や改版履歴コントロール機能を開発中だ。

Fivetranの料金体系は、Webのホスティングサービスのそれに似ている。無料では、作れるプロジェクトが5つまで、使えるメモリは1GBまで。月額20ドルのベーシックプランではメモリ5GB、プロジェクト数10。最高は月額80ドルで、メモリは16GBまで使える(非常に大きなスプレッドシートだ)。

全体としてこれは、クラウドコンピューティング時代の新しいスプレッドシートとして、きわめて興味深い取り組みだ。企業の情報部門などには、近年のデータの増加とともに旧来のスプレッドシートではデータ集合に対し歯(刃)が立たなくなっているところも多い。かといって本格的なデータベースや統計パッケージは重すぎる。Fivetranのような高機能化したスプレッドシートに飛びつくところも多いだろう。Fivetranのによると、初期のユーザたちはすでに週あたり数時間の(スプレッドシート雑務の)時間節約を実現しているという。朝から晩までExcelのセルのコピペばっかしやらされている人は、Fivetranを試してみてはどうだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))