リークしたS-1書類によるとPalantirの顧客数は設立17年でわずか125社

本誌はリークしたPalantir(パランティア)のS-1書類を今も調べている。今日(米国時間8月21日)午前に本誌はPalantirの財務状況(未訳記事)について、売上、利益率、純損益などを検討した。

関連記事:
Leaked S-1 screenshots show Palantir losing $579M in 2019(未訳記事)

同社顧客ベース、およびその集中度の高さは、TechCrunchがS-1リーク書類を読み始めて以来繰り返し話題になっているテーマだ。

Palanirの2020年前半終了時の顧客数は正確に125社である。Palantirによると、同じ政府機関や企業の異なる部署は別の顧客として数えている(たとえば、CDC[疾病管理予防センター]とNIH[国立衛生研究所]はいずれも保健社会福祉省の一部だが、個別に請求書を発行しており、計算上別の顧客としている)。

2019年末、Palantirの顧客平均売上は560万ドルだった。他の多くのSaaS企業と比べると途方も無い金額だが、その主な理由は、PalantirがSlack(スラック)やAmazon Web Service(アマゾン・ウェブ・サービス)のような、売上規模の大きくない中小企業でもサービスを利用できるようにする育成戦略をとっていないためだ。

過去10年間で、顧客当たりの平均売上は30%増加しているとPalantirは言っている。

おそらくもっとも気になるのがPalantirの売上集中度の高さだ。同社の上位3顧客(社名は非公開)は2019年の売上全体の28%を占めている。上位20社が全売上の67%を占め、その平均売上は2480万ドルに上る。

同社の売上の53.5%は政府との契約によるものであり、それ以外が民間顧客だ。

Palantirのリーク書類によると、売上の40%が米国内で60%が海外で発生している。同社は、150カ国に顧客がいると言っている(もちろん、150カ国で顧客125社という数字の説明については読者の算数の宿題とさせていただく)。

Palantirは政府期間と民間企業のいずれにおいても大きな成長機会を見込んでいる。政府に関して同社は株主への書簡で次のように語っている。

政府機関の国民に対する組織的失敗(健康保険システムやデータプライバシーの崩壊、刑事司法制度の球場、戦闘方法の陳腐化)を改善するためには、公的、民間両方のセクターが自身を変え続ける必要がある。多くの組織における業務効率の低さと正当性の欠如は、必要とされる変化のスピードがいっそう速くならなければならないことを意味しているとわれわれは信じている。

Palantirは同社の潜在市場は1190億ドルであると言っている。

[原文へ]

(翻訳:Nob Takahashi / facebook

Palantirの上場申請書の一部がリーク、2019年の損失は約612億円で政府依存率上昇

Palantirが米証券取引委員会に 非公開で株式上場のためのS-1申請書を提出したのは7月上旬だった。ここにきて株主の一人がTechCrunch に申請書のスクリーンショットを送ってくれた。これによって重要な数字のいくつかを知ることができた。申請書提出以来、実は我々も耳を澄ましてきたがこのリーク以前には何の噂も聞こえてこなかった。

通年収入と損益

8月20日付の S 1申請書の草稿のスクリーンショットによればPalantir2019会計年度の総収入はおよそ7億4200万ドル(約785億円)だった(Palantirの会計年度は暦年)。総収入は2018年の5億9500万ドル(約629億円)に比べておよそ25%のアップとなっている。これは確かに成長ではあるものの、急成長著しいSaaS分野としては、例えば最近上場したDatadogの例と比べてさして印象的なものではない。

Palantirは何年にもわたって総収入10億ドル達成が間近だと報道されてきただけに、この数字には失望させられる。非公開企業が財務状況について発表することはあまりないとはいえ、今回我々が入手した数字はこれまでの報道やリーク、噂などに比べてはるかに小さい。

しかし本当に驚かされるのは決算の一番下の行、損益を示すいわゆるボトムラインだ。 スクリーンショットによればPalantirは2019年度の純損失として5.8億ドルを計上している。これは2018年度の損失とほぼ同額だ。ただし同社は2018年の収入対損失の率を97%としていたのに対し今回の損失率は78%と改善されている。

同社が5億7900万ドル(約612億円)もの赤字を出していた事実はこれまでなぜ何十億ドルもの資金を調達しなければならなかったかを説明するものだ。同時にPalantirが損益分岐点を超えて安定した経営に達するまでの道のりがまだ相当に長いことを予想させる。

2019年の同社の粗利益は2018年に比べて16%高く、およそ5億ドル(約529億円)だった。同社の資質の最大のものはセールスとマーケティングであり両面とも4億5000万ドル(約476億円)程度で、2019年では総収入の61%を占めていた。

2020年の上半期は改善傾向

2020年に状況はやや改善された。2020年の最初の6か月でPalantirは4億8100万ドル(約509億円)の収入を得た。 これは昨年同期比で49%のアップだ。さらに重要な点だが、Palantirはセールスとマーケティングなどの営業費用に加えて研究、開発、一般管理費などの支出レベルを昨年なみに抑える努力を続けている。

Palantirはf2020年上半期に収入が増加したにも関わらず支出を前年と同程度に抑えた。 営業費用と収入の比率でいえば、2019年上半期には157%だったところ、2020年の同期では107%に低下している。

とはいえ創業17年の会社にしては絶対的な数値として依然として高い水準だ 。

政府契約への依存は率、額ともアップ

今回のリークで特に興味深い点の1つは同社が政府契約に一体どれほど依存しているのか、また契約先の多様化の成果が上がっているのか、正確に判断できるチャンスが訪れたことだ。同社は以前から政府契約に依存した会社と見られていたが近年、民間市場への進出の努力を始めていた。

TechCrunchが入手したスクリーンショットには、2019年の上半期収入の内訳と2020年の上半期を比較したデータが含まれていた。これによると、昨年2019年の上半期の政府契約は収入の45%で1億4600万ドル(約154億円) 、民間部門は55%の1億7700万ドル(約187億円)だった。これにに対し今年上半期は、政府契約が53.5%で2億5800万ドル(約273億円)、民間契約ぶんは46.5%で2億2400万ドル(約237億円)だった。つまり政府部門からの収入は76%増加したが民間市場からの収入は27%しか増加していない。

このことは政府契約への依存度を減らしているという同社のこれまでの言明と矛盾する。同社の政府契約からの収入は実額でも総収入に対する比率でもアップしている。これは従来から同社が鉄壁としていた政府部門を別にした民間部門において十分な競争力を持っているのかどうかについて疑念を生じさせるものだ。

さらに興味ある点は、巨額のセールスおよびマーケティング費用を支出しているにもかかわらず、収入増加のほとんどが2020年の新規クライアントからではなく、2019末現在に契約していたクライアントから来ていることだ。政府部門についてみると、1億1200万ドル(約118億円)の収入増のうち91%にあたる1億200万ドル(約107億円)は既存の契約者から来ている。また民間部門についても4700万ドル(約50億円)のアップのうち同じく91%の4300万ドル(約45億円)が既存ユーザーからのものだ。

簡単に言えばPalantirは既存ユーザーに強く依存しておりその中でも政府部門への依存が強い。成長を目指すにあたってもこうしたユーザーが頼りということになる。

Palantirの財務に関する数字は広く出回っているとはいえ、S-1申請書が公開される日時はまだ不明だ。 しかしこれまで予想されていたよりは早い時期に公開されるらしい。

我々はPalantirに取材したが、広報担当者はコメントを避けた。

原文へ

(翻訳:滑川海彦@Facebook

Palantirが直接上場後にロックアップ期間を設定か

米国時間8月21日、TechCrunchは長らく予想されていたPalantir(パランティア)のS-1申請に関するのリーク情報を入手し、同社の売上、利益率、営業損失から政府、民間との契約にわたる詳細を独占報道した。

関連記事:Leaked S-1 screenshots show Palantir losing $579M in 2019(未訳記事)

しかし、同社が株式市場に自社株を公開する具体的な方法については言及しなかった。ここ数週間の噂によると、同社はダイレクトリスティング(直接上場)を狙っており(Bloomberg記事)、時期は9月の中旬から下旬だと言われている。

ダイレクトリスティングは通常のIPOと異なり、新株を一般向けに発行することがなく、会社は資金を調達せず、社員やインサイダーにはロックアップ(売却禁止)期間が設けられないのが通常だ。典型的なIPOのロックアップ期間は6カ月だが、1年以上に渡ることもある。新株が発行されず、ロックアップがないとすれば、ダイレクトリスティングによる上場後の取引は事実上すべてインサイダーによる売却になる。

これは一般に株価の乱高下を招き、それは一部の企業がダイレクトリスティングをためらう理由の1つだ。ロックアップがなければ、社員やベンチャーキャピタリストは直ちに持ち株を売却することが可能であり、株価がいきなり大暴落して長期的価値を損なう恐れがある。

関連記事:TechCrunch Conversations: Direct listings(未訳記事)

しかし、力のある会社の場合はオープンで参加自由なこの方式をとる意味がある。例えば、Spotify(スポティファイ)が2018年初めにダイレクトリスティングを実施した時、会社は大株主である1社(Tencent)を除いてロックアップ期間を設定しなかった(CNBC記事)。2019年中ごろにダイレクトリスティングを実施したSlack(スラック)も、事実上ロックアップがなかった(CNBC記事)。両社とも上場以来目覚ましい実績を残している。

しかし、目論見書を見た複数の情報筋によると、Palantirは自社株にロックアップ期間を設けるつもりだという。ある筋は、同社がダイレクトリスティングを行う意向であることを確認したと言っているが、本誌はまだ複数の筋による裏付けをとれていない。

ダイレクトリスティングとロックアップ設定の組み合わせは目新しく、SlackとSpotifyが開拓した社員に優しい戦術には背を向けるものだ。

ロックアップが上場後のPalantir株の安定に寄与することは間違いなく、インサイダーが持ち株を取引できないことで株価の乱高下は緩和される。しかし、設立17年の会社が公開市場で株価を維持するために、社員や投資家の売却意思を制御する必要があると考えていることが、信任票を得られないことはたしかだ。

同社のS-1はすぐそこまで来ている。SEC(証券取引委員会)に正式書類が提出されれば詳細ははっきりする。

画像クレジット: Patrick T. Fallon/Bloomberg via Getty Images

[原文へ]

(翻訳:Nob Takahashi / facebook

ビッグデータ解析のPalantirが約590億円を調達、最終調達額は1000億円超に

ときおり議論の的になるが常に秘密主義のビッグデータ・アナリティクス企業であるPalantirは政府機関や大企業を顧客として、安全保障情報(未訳記事)、ヘルス情報(未訳記事)、そのほか機密性の高い情報処理を事業としている。ビジネスとしてはこの秋にも株式上場を目指していると報じられている(Bloomberg記事)。しかし当面は非公開企業としての資金調達にも力を入れているようだ。

Palatirはこのほど4年ぶりとにSEC(米証券取引委員会)にフォームD(登録義務の免除規定のための書類)を提出した。この報告書によれば、同社は10億ドル(約1075億円)近く、正確には9億6109万9010ドル(約1030億円)を調達中であり、このうち5億4972万7437ドル(約590億円)をすでに調達したという。つまり今後4億1137万1573ドル(約442億円)を集める計画だという。

6月のReuters(ロイター)の記事によれば、Palantirは提携先2社からの戦略的投資を受けている。ひとつは日本の保険会社であるSOMPOホールディングスからの5億ドル(約537億円)、もう1件は日本のテクノロジー企業である富士通からの5000万ドル(約53億円)だ。これは合計5億5000万ドル(約591億円)となるため、フォームDで調達済みとされている5.5億ドルがこれに当たるようだ。

フォームDによれば投資家からすでに58件のオファーを受けており、Palantirは調達予定の10億ドルのうちすでに調達した5.5億ドル以外の部分に対しても投資コミットメントを確保しているわけだ。ただし資金調達ラウンドはまだ締め切られていない。

Palantirに今回のフォームDに関してコメントを求めたが「これは当社が直接売却する予定の株式であり、既発行株の二次的取引ではない」と述べるに留まった。今回の資金調達ラウンドはフォームDの説明では上場計画に遅延が生じているためなのか単に上場を補完するだけなのか明らかではない。

また報告書はPalantirが4年ぶりに10億ドル以上30億ドル以下の資金調達を図っているというCNBCの2019年9月の報道を裏付けるものらしい。その報道ではPalantirは会社評価額として4年前の200億ドルを260億ドルにアップすることを目標としていると指摘していた。 6月のロイターの報道では二次市場の取引に基づく会社評価は100億ドルから140億ドルの間だとしていた。

PitchBook調べでは、Palantirは現在までに108以上の投資家から少なくとも33億ドルの資金を調達している。PitchBookのデータ(一部は有料記事)ではPalantirはこれ以前に金額は不明だが非公開で何度か資金調達ラウンドを実行しているという。

Palantirの評価額は4年前の200億ドルが最後だが、その後、さらに高い評価額に向かうことを示唆するいくつかのポイントがあった。新型コロナウイルスによるパンデミックで株式の新規上場はほぼ停止したものの、再び動きが見られるようになっている。またPalantir自身の事業活動も活発化の兆候を示している。

Bloombergによれば、同社は4月に投資家向けブリーフィングを発表し「今年の収入予想は10億ドルに達し、2019年から38%増加して損益分岐点に達する」と予想している。これはPeter Thiel(ピーター・ティール)氏などが16年前に同社を設立して以来初めてのことだ。他の共同創業者には Nathan Gettings(ネイサン・ゲッティングス)氏、Joe Lonsdale(ジョー・ロンズデール)氏、Stephen Cohen(スティーブン・コーエン)氏、現在のCEOを務めるAlex Karp(アレックス・カープ)氏だ。

なお、Bloombergの記事にはPalantirがなぜ投資家にブリーフィングを行ったかは説明されていないので、上場を控えての広報だったのか、今回の資金調達あるいは別の理由だったのか不明だ。またPalantirはは新型コロナウイルスによるパンデミックに関するニュースにもたびたび登場している。

具体的には、英国ではコンソーシアムの一部としてNHSと共同(未訳記事)で新型コロナウイルスデータベースの開発)、米国では連邦政府の新型コロナウイル追跡システム(Daily Beast記事)やCDCとの共同プロジェクト(Forbes記事)など、主要市場で大規模なビジネスを獲得していることが報じられている。こうしたプロジェクトはPalantirのほかのビジネス(未訳記事)同様、準備と実施に多額の先行投資を必要とすることが予想される。 こうした事情が現在資金を調達している理由の1つかもしれない。

画像:Jason Alden/Bloomberg / Getty Images 画像編集済

原文へ

(翻訳:滑川海彦@Facebook

Palantirの新型コロナモニタソフトを米CDCやNHSが利用中、EUにも採用働きかけ

多くのスタートアップが新型コロナウイルス(COVID-19)のパンデミックによって苦境に追い込まれている中、政府の感染抑制策を助けることによって事態が追い風となっている企業もある。その1社が謎めいた巨大企業、Palantirだ。

政府機関と密接な関係をもつ同社はビッグデータ処理を専門とし、膨大な情報を分析して個人を追跡し、トレンドを視覚化することができる。新型コロナウイルス感染の拡大が医療システムを崩壊させ社会、経済を混乱させる危険に直面している現在、極めて有用な能力だ。

3月中旬の Wall Street Journalの記事によれば、Palantirはウイルス感染の拡大をモデル化するためにCDCに協力したという。 Forbes(フォーブス)はCDCは現在新型コロナウイルスの流行状況を視覚化し、医療ニーズを予測するためにPalantirのアプリを使っている」と報じている。

記事によれば、Palantirはコロナウイルス関連のシ処理では個人を特定可能なプライバシー情報の取り扱いを避け、病院、ヘルスケア、研究機関、メーカーからの匿名化されたデータを分析しPalantir Foundryに集約している。

英国における新型コロナウイルス対策ではNHS(National Health Service、国民健康保険サービス)に同社のFoundryプラットフォームを通じてデータ分析を提供している。イギリス政府はブログ記事 で、Palantirとの提携に触れ、同社のFoundry ソフトウェアを利用するとして、「(このFoundryは)主として英国で開発されたものであり、異種データを組み合わせ、クリーンアップし、総合することにより意思決定に役立つ単一かつ確実性の高い情報源を提供する」と述べている。

Bloomberg(ブルームバーグ)によれば、Palantirはフランス、ドイツ、スイス、オーストリアの政府に対して同社の分析ソフトウェアの採用を働きかけている。同社はFoundryだけでなくデータ分析ツールのGothamも売り込んでいるという。このツールは政府の情報機関や捜査機関が個人を追跡するのに役立ていることでよく知られている。米国でICE( 移民税関捜査局)が不法滞在者を摘発するために用いているのがいい例だ。 FoundryとGothamは多数の情報源からデータを統合して新型コロナウイルスによるパンデミックの鳥瞰図を得られるとして各国政府の保健機関に提案されている。

危機に対応して監視テクノロジーへの関心が高まる中、プライバシー活動家は早くも警鐘を鳴らしている。 EFF(電子フロンティア財団)は「世界の政府はウイルスと戦うために並外れて強力な監視権限が必要だとしている。パンデミックから生じる政府と民間企業の間の新しい関係については綿密に検討しなければならない」と警告している

たとえばPalantirの共同創業者会長のPeter Thielピーター・ティール)氏は、テクノロジー界における最も強力はトランプ政権支持者の一人だ。ティール氏の推進するプロジェクト投資は、広く注目を集めると同時に賛否の議論を引き起こしているが、Palantirもその1つだ。

ICEの不法滞在者摘発強化に協力する謎めいたテクノロジーの巨人という一般のイメージがあることにPalantir自身も気づいており、プロダクトが多くの人々のプライバシーに影響することを認めている。Wall Street Journalへのコメントで、Palantirのプライバシー担当の責任者、Courtney Bowman(コートニー・ボーマン)氏は「新型コロナウイルス対策においてもプライバシーと市民的自由はわわれの指導的原理であり、付録のようなものであってはならない」と述べている。

Palantirは、米国の新型コロナウイルス対策でも大きな役割を担っているようだが、同社と米政府は長年にわたって協力して感染症の脅威に取り組んできた。たとえばCDCは2010年にハイチにおけるコレラの流行をモニターする同社のソフトウェアを利用している。

ごく最近の例もある。 この1月下旬、PalantirはHHS(保健社会福祉省)と360万ドルの契約を結び、PEPFARにソフトウェアを提供した。 PEPFAR(統領緊急エイズ救済計画)は HIVの感染者を援助するための啓蒙、救済活動だ。

画像:デンバーの新型コロナウイルス検査センター Michael Ciaglo/Getty Images

原文へ

(翻訳:滑川海彦@Facebook

医薬品のメルクとデータ解析のPalantirが提携―新薬開発で数十億ドル規模の効果を目指す

2017-01-13-palantir-drug-shutterstock_401216536

ドイツを本拠とする医薬・化学品の世界的巨大企業、メルクは、今朝(米国時間1/12),、シリコンバレーの著名なデータ解析ソフトウェア企業、Palantirと提携したことを発表した。メルクはこれにより新薬開発を加速し、患者に対する薬効も改善されることを期待している。

この提携はまずヘルスケア、生命科学、パフォーマンス改善物質というメルクの3つの重要な事業分野で実施される。

TechCrunchはPalantirのサイトでの提携発表にリアルタイムで参加することはできなかったが、同社の共同ファウンダー、CEOのアレックス・カープは声明で 「世界で毎年ガンで820万人もの人々が亡くなっている。Palantirは発足当初から適切なパートナーを助けてガンとの戦いにわれわれのテクノロジーとノウハウを活かしたいと考えていた」と述べている。

Palantirは財務面も含めて提携の詳細について明かしていないが、同社を動かしているのはもちろん人類愛だけではない。この提携によって新たな薬品の開発が加速し、あるいは投薬の効果的なノウハウが得られるなら両社にとって巨大な利益をもたらすはずだ。

TechCrunchでは今日の午後、PalantirのカープあるいはメルクのCEO、Stefan Oschmannからもっと詳しい話を聞けるものと期待している。特に確認したいのはPalantirがメルクと提携が排他的なものであるかどうかだ。われわれはPalantirのソフトウェアをBristol-Myers Squibbなど他の製薬会社が利用できないことになるのではないかと予測している。

Palantirにとっては大きなビジネス上の達成といっていいだろう。比較的小規模な非公開企業にしては評価額がきわめて高いことで知られているPalantirだが、顧客がアメリカ政府だけに限られないことが証明されただけでなく、この提携が成功すれば医薬品という巨大なマーケットに影響を与えることになる。Bloombergによれば、肺がんだけで毎年100億ドルの市場だという。

〔日本版〕 Palantir CEOのアレックス・カープは昨年トランプ次期大統領とテクノロジー企業のリーダーとの会談に参加している。またトランプ政権移行チームの重要メンバー、ピーター・ティールはPalantirの共同ファウンダーでもある。この会談については今日のTechCrunchのAmazonの記事に詳しい。

Featured Image: panda3800/Shutterstock

[原文へ]

(翻訳:滑川海彦@Facebook Google+

WebスクレイパーサービスKimono LabsがPalantirに買収され、サービスは2月末に閉鎖へ

14255665097_317b96e033_o

Y Combinatorで育ったWebスクレイパーKimono Labsは、ユーザーであるデベロッパーが自分でスクレイパーを書かなくてもWebサイトから情報をかき集めてくれる。その同社がこのほど、 政府省庁などを顧客とするデータ分析サービスPalantirに買収された。

その発表は今日(米国時間2/15)、同社のWebサイトで行われ、Kimonoの協同ファウンダーPratap Ranadeが本誌に買収を確認した。買収の価額等は両社とも公表していないが、Kimonoは2014年に約500万ドルを調達している。

Kimono Labsによると、現在の同社のデベロッパー顧客は12万5000という。ただし、どれだけがアクティブユーザーかは、分からない。Plantirへの移行作業は2週間ほどで終わるので、Kimonoはそのサービスを2016年2月29日に閉鎖する。ただしユーザーの移行に関しては、現時点では不透明な部分がある:

同社の説明では、“Plantirにおけるわれわれの新しい役割ために、これまで一般公開されていたKimonoのクラウドサービス(SaaS)の提供を、そのまま続行することはできない”、ということだ。

こんな簡単な告知だけであっさりとサービスを閉鎖する、詳しい理由についてRanadeに尋ねたが、彼はコメントすることを拒否し、“弊社の顧客に関しては真剣に配慮している。しかし今、私自身から詳細を言うことはできない”、と言った。

クラウドはだめでも、OS XとWindows用の無料のデスクトップバージョンは使用できる。同社によると、それらはクラウドからのバージョンと機能的には同じであり、今後同社は、そのデスクトップアプリケーションをFirebaseに統合して、クラウドからのAPIのエンドポイントを提供する。デスクトップバージョンのユーザーは3月31日までに、新たにホストされるサービスからAPIをインポートすること。

あるいはKimonoに代わるWebスクレイパーサービスとして、ScrapyやFeedityなどを使ってもよい。Palantirは買収した企業を閉鎖することが多いから、今日の結果は意外ではないが、言うまでもなくこれは、これまでKimonoのサービスを自分のアプリケーションに統合していたデベロッパーにとって理想的な状況ではない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

政府機関のデータ分析を代行するPalantirが評価額200億ドルで$880Mを調達

palantir

合衆国証券取引委員会(Securities and Exchange Commission, SEC)の今日(米国時間12/23)の申請登録情報によると、政府省庁や法執行機関(警察など)にデータ分析サービスを提供しているPalantirが、新たな資金調達により8億8000万ドルを獲得した。

SECへの提出文書によると、この最新の資金調達ラウンドは7月に始まっており、これまでにすでに6億7980万ドルが調達されている。同社のこれまでの資金調達総額は23億2000万ドルになる。

またPalantirの現在の評価額は203億3000万ドルで、2014年の150億ドルに比べてアップしている。スタートアップの評価額の大きさとしては、Airbnb、Xiaomi、Uberに次いで4位である。

顧客が主に政府のお役所なので、同社の業務の詳細はあまり公表されていない。しかし今年本誌TechCrunchが入手した2013年付のリーク文書には、主な顧客と、同社が大量の情報を分析するために使っているデータ分析ツールの数々が載っている。たとえばSecurities Investment Protection Corporation(証券投資保護社団法人)は、Palantirの技術を利用して、投資詐欺師Bernie Madoffの有罪を立証した。

そのファイルはPalantirのワシントンでの仕事ぶりも明かしており、2013年には合衆国の12の省庁と50件の事業を契約している。それらのお役所は、CIA, DHS, NSA, FBI, CDC, Marine Corps(海兵隊), Air Force(空軍), Special Operations Command(特殊作戦軍), West Point(陸軍士官学校), Joint IED-defeat organization and Allies(合同爆発物処理機構), Recovery Accountability and Transparency Board(景気回復説明責任透明性委員会), National Center for Missing and Exploited Children(全米行方不明被搾取児童センター)だ。

〔訳注: ここにグラフが表示されない場合は、原文を見てください。〕
[graphiq id=”gWJNWH6yrfD” title=”Palantir Technologies Inc.’s Timeline” width=”725″ height=”659″ url=”https://w.graphiq.com/w/gWJNWH6yrfD” link=”http://listings.findthecompany.com/l/14368828/Palantir-Technologies-Inc-in-Palo-Alto-CA” link_text=”Palantir Technologies Inc.’s Timeline | FindTheCompany”]

Morgan StanleyとS F Sentry Securities Inc.が今回の投資の仲介者(ブローカー)として載っている。

Palantirの次のステップは、IPOではないだろう。ファウンダのAlex Karpには、以前からその気がないからだ。カリフォルニア州パロアルトでは、Palantirは非上場企業として最大の雇用者のひとつであり、2000名以上を雇用している。資金は新たな分野の開拓と、同社の秘密の技術の構築に使われるものと思われる。

本誌は今、Palantirにさらなる情報を求めている。

[原文へ]。
(翻訳:iwatani(a.k.a. hiwa)。

多様な非定型データの分析サービスを提供するSensaiがAndreessen Horowitzらから$900Kを調達

データ分析は帳票などの定型的なデータを対象とすることが多い。しかし企業のペーパーレス化が進み、電子化されたドキュメントが増えるに伴って、非定型的なデータが多くなり、それまでの技術では分析が難しくなる。PalantirやIBM(のWatson)は、非定型的なテキストデータを容易にクェリできる方法を提供しようとしている。そしてこの分野の新人選手Sensaiが今日(米国時間3/31)、ステルスを脱して正式にローンチする。

同社は今日さらに、Andreessen HorowitzとFormation8、Chris Kelly、ValueStream Labsなどからの90万ドルのシード資金の獲得を発表した。ビッグデータ関連のインキュベータData Eliteから巣立った同社は、年内にシリーズAの資金調達を行う予定だ。

sensai_screenshot_investigations

Sensaiは、料金の安さと、データサイエンティストたちにとっての使いやすさで勝負したい、と言っている。月額料金は5000ドルからだが、顧客のニーズに応じて利用プランをカスタマイズできる。また使いやすさの面では、顧客企業の一般社員でも使えるようにする、という。Sensaiは非定型的なデータの分析を得意とするが、競合他社はどちらかというと、それぞれの企業独自の定型的データを扱うところが多い、と同社は主張している。

対象データは内部のファイルやソーシャルメディア、Web上の記事、オンラインの公開ドキュメントなどさまざまだが、それらに対するクェリをユーザがセットアップすると、結果はリアルタイムでSensaiのダッシュボードに現れる。またユーザがカスタマイズした報告書への出力や、APIからの結果取得も可能だ。Sensaiはクラウドサービスとしても、あるいはオンプレミスの展開でも、どちらでも利用できる。

同社によると、そのサービスは人工知能と深層学習(deep learning)の技術を駆使して、ユーザのクェリを非定型ドキュメントの集積に対して適用する。結果はきわめて正確で、またそのシステムは顧客の利用歴から学んでどんどん進化するという。

サービスのクォリティに関する同社の主張を、実際に確認することはできなかったが、でも顧客の中にはSiemensや金融サービスのUBS、資産管理のWorldQuantなどがいる。SiemensはこのサービスをITの監査に利用し、UBSは同社のEvidence Labの調査に利用している。

sensai_screenshot_dashboard2

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

データの高速化について現場最先端の6社が語る

このごろは、何ごとに関してもスピードが重視される。つまり、今でも、ネットワークからデータをかき集めるよりもFedExで送ってもらった方が速いことがある。データを飛行機で運んだ方が速いという、うそみたいな事実が、今でも実際にあるのだ。

数テラバイトのデータを転送するだけなら、丸一日とか一晩かかることはない。でもフィーチャーフィルムの収まった複数のハードディスクを単純に“大陸間移動”することと、正しいデータを取り出し、それを分析し、何かのアプリケーションでプレゼンすることは、状況や抱える問題がまるで違う。スマートフォンの爆発的普及や、言葉の違いなどの障壁、3Dプリンタ、データオブジェクトの限りない多様化と集積、などなど、現代は、データ移動と言っても後者のような複雑な処理ニーズを伴うものが、圧倒的に多くなっている。

このようなデータ移動の複雑性に対応するために多くのアプリケーションは、RAMやフラッシュメモリの有効利用に傾いている。ハードディスクは、もはや古いのだ。ハードディスクの機械的な部品は、現代の企業が分析するデータの量や速度に対応できない。データベースも、完全なメモリ常駐型など、新しいものが登場している。スタートアップだけでなくSAPのような伝統的なIT企業も、それらの開発に取り組んでいる。そしてNoSQLデータベースが、今ではデベロッパたちのコミュニティでは人気者になっている。

しかしアプリケーションのパフォーマンスやデータ分析のスピードを左右する要素は、非常に多面的だ。最近FirstMark Capitalの常勤パートナーになったMatt Turckは、先週ニューヨークの同社のオフィスで行ったインタビューで、物のインターネット(Internet of Things, IoT)がデータ転送の総量を爆発的に増大させる、と言った。彼はそのとき、その兆候としてMQTTの登場を挙げた。この、IoTのための通信プロトコルは、The New York Timesによると、“マシンツーマシン通信のための共通語であるだけでなく、データ交換のためのメッセンジャーでありキャリアだ”。

MQTTの作者は、ワイト島にある16世紀に作られた彼の藁葺き小屋をIoTで自動化しようとしているときに、メッセージングのプロトコルが必要だと気づいた。

物といえば、子どもが床に転がして遊ぶ、あのボールなどを連想するが、しかしTurckによれば、それはボールのような無表情なデータ片ではなく、それ自身の社会的な(かけがえのない、他と同じでない)自己同一性を持ち、いずれは何兆ものほかのオブジェクトと接続することになるデータオブジェクトだ。子どもが壁にぶつけてあそぶSpaldeen〔≒スーパーボール、ビックリボール〕のようなものではなく、それは何かのアバターにもなるデータオブジェクトだ。でも、このボールなどさまざまなオブジェクトから渡されるすべてのデータを、全世界規模で想像すると、それが簡単にゼタバイト級のディメンションになってしまうことが、理解できるだろう*。〔*: したがって通信方式はどうしてもメッセージング(==非同期)方式になる。〕

今では、何ものにも増して重要な話題かつ課題と思われる、IoTなどを契機とするデータ通信量の爆発的増大について、一部のエキスパートたちに話を聞いてみた。しかし彼らの視点は未来よりもむしろ、今まさに起きつつあることに向けられている。

MemSQL

4月の終わりにMemSQLは、同社のリアルタイム分析プラットホームを一般に公開した。このプラットホームは、インメモリデータベースと分散インフラストラクチャを使って大量のデータを分析する。そのデータベースは、スピード重視のアーキテクチャだ。

MemSQLのCEOで協同ファウンダのEric Frenkielは、最近の10年間で大規模なデータ保存技術に重要な改善が見られた、と言う。“企業は圧縮した列保存〔参考〕とHadoopを使って大量のデータを保存し、データの保存と分析を行っていない企業に対して競合上優位に立つようになった”、とFrenkielは言う。“しかしビッグデータは、データ量が十分に多くてしかもアクセス可能でないと無益だ。今企業が苦労しているのは、ビジネスの変化の速度にデータ処理のスピードを合わせること、後者を十分に速くすることだ”。

彼によると、企業がますますデータに依存するようになると、増大する一方のデータに正しいタイミングで対応するために、より高速なデータベースを必要とする。“大量データの保持(リテンション)と保存(ストレージ)という問題が解決されると、次の課題はスピードだ”、とFrenkielは言う。“ハードディスクをフラッシュストレージで置換するとある程度速くなるが、しかし本当に必要なイノベーションはデータを保存し分析するソフトウェアの進化だ”。

MemSQLは、データ分析のためのインテリジェンスとして機能するアグリゲータだ。データ分析は複数のノードにわたってオーケストレーションされ、それらがアグリゲータのコマンドを実行する。各データノード自身は何も知らない(処理インテリジェンスを持たない)、単なる歩兵である点がすばらしいのだ、とFrenkielは言う。

“企業が今インメモリコンピューティングに注目しているのは、それがビッグデータ問題を解決するための新しいアプローチだからだ。インメモリコンピューティングは速度という成分を解決するが、しかし、量という成分を満足させるためにはスケールアウトのためのアーキテクチャが同時に必要だ”。

彼によると、今企業は、既存のソリューションを利用しつつ、データウェアハウスを最新の高速化データベースで拡張して、高速なデータ分析により意思決定の高速化を支えようとしている。“これからは、データ分析が高速で、トレンドや異状を速く見つけられる企業が勝つ”、と彼は言う。“大量のデータを分析しなければならない、という状況は今後も変わらないが、今では速度を重視したアーキテクチャにより、重要な発見や洞察がリアルタイムで得られるようになっている”。

Enigma

Engima は、先週行われたDisrupt NY 2013で優勝した。協同ファウンダのHicham Oudghiriによると、スピードのニーズの背後には必ず、データ量の絶えざる増大というニーズがある。しかし彼によると、EnigmaやPalantirなどが抱えるスケールの問題は、多くのスタートアップが日々直面している問題とまったく異なる。

“ふつうスケールというと、ユーザ数が数千、数万、数百万と増えていくことへの対応だ。だから、問題の形は、どの段階でも同じだ”、とOudghiriは言う。“複数のサーバを並列で動かすとか、予備機を増やすといったワンパターンの対応になる。Webサーバの稼働のラウンドロビン化、CloudFlareのようなCDNの利用、Amazonのようなオートスケール方式でトラフィックのピークに対応する、などなどの方法がある。しかしユーザ数ではなくてデータ集約的なアプリケーションでは、問題がまるで逆になる。スケーラビリティの問題はユーザ数ではなくて、一つのクェリのために何十億もの行を調べるという問題になる。さらにしかも、集めてくるデータの形式や性質や内容がそれぞれバラバラで不統一、という問題に遭遇することも多い”。

彼曰く、これらの問題には、サーバの台数を増やすなどの単純な解はない。ただし、データの保存という点では、冗長性が何よりも重要である。

“唯一の正しいモデル、というものはない。SQLかNoSQLかグラフデータベースか、という選択の問題でもない”、とOudghiriは言う。“それらをすべて使うこと、それぞれに適した役所(やくどころ)を与えることが重要だ。そうやって、各方式の持つ利点を最大限に利用しなければならない。データベースを、一つの理想的なシステムと見なすのではなく、それぞれの声が互いを補い合うことによって生まれる“ハーモニー”だ、と考える。一つの問題を解くときに、頭の中にはつねに、効果的に使い分けられる複数の道具がある、という柔軟性がとても重要だ”。

“第二に、RAMが自分の親友だと考えること、パーシステンシ(persistency,データのオフメモリの持続的存続)はサーバのクラスタで実装することが重要だ(サーバはパーシステンシのための装備であり、実稼働はもっぱらオンメモリで行う)。うちでは、検索のスケール(規模拡大)をRAM内で行っている。今は、メモリがとても安いから、それが十分に可能だ。ただしそうなると、RAMに保存したデータのパーシステンシを確実にメンテできるソフトウェアの構築が、重要な課題になる”。

しかし、中には、RAMのコストを問題視する人びともいる。この点について、彼に聞いてみた。

“部分的にSSDも使っているが、非常に水平的な検索(列よりも行指向)では十分に速くない”、とOudghiriは言う。“しかも、SSDは、こっちが事前に予期できないタイミングでパフォーマンスが急に落ちる。それに比べるとRAMはまったくパーシステントではないけど、むしろノンパーシステントだからこそ頼りになる。リスクと、得られる利点との、トレードオフだね”。

10gen

10genの見方は違う。10genは、NoSQLデータベースMongoDBのスポンサー企業だ。10genの技術部長Jared Rosoffは、スピードには少なくとも二つの側面、アプリケーション開発とアプリケーションのパフォーマンスがある、と言う。

“MongoDBのアプリケーション開発が速いことには、異論がない”、とRosoffは言う。“データモデルに柔軟性があり、ドライバが定型化されていることにより、デベロッパの生産性が高く、機能の改良も速い”。

アプリケーションのパフォーマンスに関しては、MongoDBは余っているメモリのすべてを最近使ったデータのキャッシュに使うので、メモリが十分に大きければインメモリの高パフォーマンスが達成される。

しかしRosoffによると、ワークロードが大きくなるとDRAMはけっこう高いものになる。

“でもビッグデータの仕事を完全にインメモリのデータベースでやろうとすると、十分な量のDRAMを使わざるを得ない。問題は、一台のサーバに載せられるRAMの量に限界があることと、RAMの費用そのものだ。MongoDBは、ディスクやフラッシュストレージを使って、一台のサーバの上で相当大きなデータ集合を処理できる。MongoDBの顧客の多くが、SSDやFlashストレージデバイスを使って、比較的安く、インメモリに近いパフォーマンスを達成している。

また、MongoDBの(NoSQLの)ドキュメント型データモデルではデータのローカリティ…局所性…を維持できるので、複雑なデータモデルと違ってディスクI/Oの回数が少ない。これも、ハイパフォーマンスの重要な鍵だ。

SlashDB

SlashDBは、関係データベースのAPIを作る。ファウンダのVictor Olexの説では、ユーザが求めるスピードはデータベースそのもののスピードに帰結する。

“データアクセスの速度は距離(ネットワークのレイテンシ)だけでなく、ファイルシステムやデータベースからデータを取り出すのに要する時間と、その間のデータ変換の量(フォーマットの変換、エンコード、デコード、圧縮など)にもよる。また、データの取り出しの効率は、データ構造の実装にもよるし、間接参照の少なさも重要だ*。とくに今のデータベース上のエンタプライズデータは(そのデータ構造が)、Webを利用する情報システムにとってボトルネックになっている。関係データベースは宣言型(not手続き型)のクェリができるので便利だが、そのためにインメモリでもディスクからでも、必要なレコードを取り出す計算費用が高くなる。逆にNoSQLのようなドキュメント型のデータベースは、一般的に数値キーでデータを取り出す。データを保存するときに数値を割り当てて、数値とデータを対照するルックアップテーブルを作っておくのだ”。〔*: 直接参照は「n番地にあるデータを読め」、間接参照は「n番地にあるデータに書かれている番地にあるデータを読め」。〕

“さまざまなキャッシング技術がデータアクセスのスピード向上に貢献しているが、そこには精度の低下という費用が発生する(目的データがキャッシュにないこともある)。たとえばWebページでは、キャッシュには古い日付のものしかないことが、よくある。でもそれは、実際にデータベースにアクセスして最新データを取り出す処理費用との、トレードオフという問題だ。我慢できるトレードオフ、と言うべきか。キャッシングとWebアプリケーションのレイヤはスケールアウト(out)して同時に複数のサーバを動かせるから、複数のリクエストを並列に処理できるが、しかしデータベースサーバの方は、一台のサーバの容量やプロセッサを増強するというスケールアップ(up)しかできない。SlashDBは企業のシステムにWeb型のサービスを提供している。つまりURLの中にクェリがあり、結果をHTTPのレスポンスで返す、という形のサービスだ。それは複数のノードでも動かせるし、通常のHTTPプロキシにも対応して、頻用されるリクエストをキャッシュしている”。

“データ集約的な処理は主に、サーバサイドのシステムの領分だった。モバイルデバイスの普及で状況はやや変わってきたが、しかしそれでも、人間の情報処理能力は昔と変わらない。一説ではそれは、毎秒60ビットと言われる。だから、それ以上速いスピードでデータを配布しても意味がない、無駄である、という説もあるのだ。Twitterやメールだけは、別かもしれないがね”。

AlchemyAPI

“AlchemAPIはスピードにこだわっている”、とCEOでファウンダのElliot Turnerは言う。“うちの顧客はみんな、情報の時間価値を知っている。だからデータをできるだけ速く処理することとうちの業績は直接結びついている。しかしデータ処理アプリケーションをもっと速く動かすための簡単な秘訣はない。ボトルネックはいろんなところで発生する。データの保存、取り出し、分析など、いろんな局面で”。

“データの分析の効率化にはさまざまな方法があり、GPUによるハードウェアアクセラレーションや、分散コンピューティング、アルゴリズムのイノベーションなどいろいろだ。AlchemyAPIはこれらすべてを組み合わせて利用するとともに、RAMやSSDを多用することによってデータの保存、取り出し、そして処理を高速化している”。

“RAMは着実に価格が下がりつつあるが(http://www.jcmit.com/mem2013.htm)まだSSDよりも一桁高いし、ハードディスクよりは二桁高い。ペタバイト規模のビッグデータを完全にRAM上で処理するのは、ちょっと費用的に無理かもしれないから、うちも含めてRAMとSSDを併用するハイブリッド方式のところが今は多い。でも、テラバイト規模の小さな展開では、徐々にRAMオンリーに変わりつつある。今後さらにRAMが安くなれば、展開規模も大きくできるだろう”。

まとめ

データ処理の高速化の話は、SSDやRAMや最新のデータベース技術だけで終わるものではない。しかし、一つだけ確かなのは、世界が高度に分散したデータメッシュになり、そしてその負荷が日に日に増大するとともに、新しい高速化の方法が必ず必要になることだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))