廃棄物管理にAIを活用するGreyparrotがシードで約2.4億円を調達

英国ロンドンを拠点とし、コンピュータービジョンAIでリサイクルの効率化を進めるGreyparrot(グレイパロット)が、シードラウンドで182万5000ポンド(約2億4000万円)を獲得した。以前プレシードで調達した120万ドル(約1億3000万円)を上回る。欧州のアーリーステージのテック企業へ投資するSpeedinvestがリードし、英国を拠点とするアーリーステージのB2B企業へ投資するForce Over Massが参加した。

2019年創業で、TechCrunch Disrupt SF battlefieldにも参加した同社は、機械学習モデルを訓練し、ガラス、紙、段ボール、新聞、缶、プ​​ラスチックなどのさまざまな種類の廃棄物を認識させ、選別をより効率的にすべく、廃棄物管理業界にデジタル化と自動化をもたらす。

Greyparrotは「世界中で毎年生成される20億トンの固形廃棄物の約60%がダンプカーで運ばれ、最終的に埋め立てられ、環境への悪影響を引き起こしている」と指摘する。グローバルのリサイクル率はわずか14%。非効率的なリサイクルシステム、人件費の上昇、リサイクル品に求められる厳しい品質が原因だ。同社が大きなチャンスとして注目したのは、廃棄物認識ソフトウェアによりリサイクル効率を高め、不純物を減らし、スケーラビリティをサポートすることだ。

同社によると、ハードウェアを選ばないソフトウェアを産業用リサイクルプロセスに組み込むことで、すべての廃棄物の流れをリアルタイムで分析できるため、効率性が向上すると同時に、リサイクル品の品質を買い手に保証し、リスクも軽減できるという。

現在、監視または監査されている廃棄物の量は1%未満だと同社は説明する。この作業を手動で行うと費用がかかる。つまり、環境や資源の状況を改善するこのAIは人間の仕事を奪うわけではない。基本的には人間の手を煩わせる仕事ではないからだ。

Greyparrotの最初の製品は廃棄物自動監視システムだ。選別施設のコンベヤーベルトに設置され、大量の廃棄物の流れを測定する。さまざまな種類の廃棄物の識別を自動化するとともに組成を分析し、リサイクル率を高める。

韓国最大のリサイクルシステムインテグレーターであるACIと提携し、製品と市場の早期適合に取り組んだ。新しい資金により製品開発を進め、グローバル市場全体に拡大する。また、ソフトウェアを統合するために、スマートゴミ箱や仕分けロボットなどの次世代システムのサプライヤーとも協力している。

「いま当社が取り組んでいる問題はデータの不足だ」と同社の共同創業者でCEOのMikela Druckman(ミケラ・ドラクマン)氏は声明で述べた。 「より循環的な経済へ移行するための洞察を得ようと、消費者、製造業者、政府、廃棄物管理者からの需要が高まっている。ディープラーニングを使用したデジタル化と自動化により廃棄物管理を最適化する喫緊の要請がある」。

「廃棄物は巨大な市場であるだけでなく、世界的な危機にも発展し得る。世界人口と1人当たり消費量の増加に伴い、廃棄物管理は我々の生活様式を維持するために重要だ。Greyparrotのソリューションは、リサイクルコストを削減し、プラントで廃棄物からの回収率を高めるのに役立つことが証明されている。最終的には廃棄物の価値を解き放ち、目に見える良い影響を環境にもたらす」とSpeedinvest IndustryのリードパートナーであるMarie-Hélène Ametsreiter(マリー・ヘレネ・アメッツレイター)氏は付け加えた。

Greyparrotの取り組みはEUの戦略的重点分野とも整合している。EUは従来型産業のデジタル化、産業データの共有AIへの投資、循環型経済への移行のための政策計画などに今後5年超にわたって取り組む。欧州委員会は5月27日、広範な新型コロナウイルス復興計画の一部として上述の取り組みを進めるため、750億ユーロ(約8兆9000億円)の汎EU支援策を発表した

画像クレジット:Aiko, Thomas & Juliette+Isaac / Flickr under a CC BY 2.0 license.

[原文へ]

(翻訳:Mizoguchi

YouTubeで中国批判コメントが削除されるのはモデレーター自動化のせいだった

YouTubeは、中国政府を批判するコメントを自動的に削除しているという報道に対して、それは検閲ではなく自動化モデレーションシステムのエラーだと述べている。

The Vergeの記事によると、YouTubeのコメントに中国共産党に対する批判と関連ある2つの中国語のフレーズ「communist bandit(中国共産悪党)」と「50-cent party五毛党)」のどちらかがあると、そのコメントはポジティブな内容であっても即座に削除された。後者の「五毛党」ないし「wumao dang」は中国政府による検閲を指し、特に金をもらってコメント投稿者が政府に対する批判をそらしているという考えを表している。

OculusとAndurilの創業者であるPalmer Luckey(パルマー・ラッキー)氏が、米国時間5月25日にその現象に気づいた。

中国共産党のインターネット上の宣伝部門であるWumao(五毛)について書いたコメントをYouTubeはすべて削除した。中国ですでに禁じられている米国のプラットフォームが、米国でホストしている米国の動画に対する米国人のコメントの検閲しようと、Googleの誰が決めたんだ?

YouTubeのスポークスパーソンはTechCrunchに対して、自動削除は「我々の強制システムのエラー」であり、現在その原因を調べていると語っている。

「ユーザーは疑わしい問題の報告で、エラーの解消と製品の改善に役立てることができる」とスポークスパーソンはいう。

YouTubeによると、それはヘイトスピーチやハラスメントやスパムを排除するコメントモデレーションシステムの偶発的な副作用だとのことだ。その自動化システムがどうやって用語をチェックして良し悪しを決めているのかに関する詳細を明らかにしていない。

従業員のほとんどがオフィスにいなくなったテクノロジー大手各社は、AIを使ったモデレーションにますます依存している。人間による監視が減ると誤って削除されるコンテンツが増えることを、同社は承知している。

関連記事: The pandemic is already reshaping tech’s misinformation crisis…パンデミックでテクノロジーの誤報も新時代へ(未訳)

Category

[原文へ]
(翻訳:iwatani、a.k.a. hiwa

ミュージックビデオをAI編集で制作できるTrashアプリに新機能追加

人工知能を使用してビデオ映像を編集するTrash(トラッシュ)アプリの開発チームは、誰にでも、特に独立系ミュージシャンの役に立つ、多くの新機能を今週リリースした。

私が昨年の夏、このスタートアップについて記事を書いたとき(未約記事)には、CEOのHannah Donovan(ハンナ・ドノバン)氏は、過去Vineのゼネラルマネージャーとして働いた経験から「ほとんどの人は見栄えの良いビデオを編集する技術的なスキルを身につけたと思えるようにはならないだろうと確信した」と語っていた。

それが動機となり、彼女と共同創業者で主任科学者のGenevieve Patterson(ジュヌビエーブ・パターソン)氏は、複数のビデオクリップを分析し、最も興味深いシーンを特定しそれらをつなぎ合わせて楽しいビデオを制作できるテクノロジーを開発したのだ。

それ以降Trashは、昨年の秋に行った一般向けの公開前から、多くのクリエイターを呼び込んできた。ドノバン氏は、ユーザーたちが「超洗練されたインフルエンサービデオ」を制作することを期待していたが、現実はその逆だったと説明した。

「Trash上に作られたコンテンツはとても個人的で、飛び抜けて本物で、極めて真に迫っているものです」と彼女は言う。「いい説明が見つからないのですが、SnapchatやInstagramのストーリーに表示されるようなものなのです」。

Trashは今週、Stylesを発表し、ユーザーにさらに多くの機能を提供しようとしている。これにより、作成したいビデオの種類を指定できるようになる。ダイジェスト動画(現在の推しはバケーションダイジェストだ)、ストーリー動画、またはより芸術的なものなどだ。制作結果はその指定に応じて調整され、ユーザーはクリップを移動するなどを行うことで、さらに調整を加えることができる。

画像クレジット:Trash

ミュージックビデオ向けのスタイルもある。多くのTrashビデオは、すでにビデオと音楽を組み合わせているが、ドノバン氏によればこの新しいスタイルは、特にYouTubeが新しい音楽を発見する主要な方法の1つになっている中で、編集スキルはないもののミュージックビデオを作成する必要に迫られている独立ミュージシャン向けに特別にデザインされたものだと説明している。「ミュージックビデオはかつてないほど重要になっています」と彼女は強調する。

Trashはこれらのミュージシャンにプロレベルのスタジオ品質映像を提供することはできないが、一方どんなに有名なミュージシャンであろうとも、誰もがほぼスマートフォンで自分を撮影する手法に縛られているのが現状だ。そしてドノバン氏は、パンデミックの後にもこの流れは続くと予想している。

「テキストメッセージなどの要素を組み込んだコマーシャルビデオでも同様です」と彼女は言う。「今、私たちが目にしているのは、リアルライフやバーチャルライフ、超洗練された高額予算の作品、DIYそのものでiPhone品質で撮影したものを、区別を気にせず盛大にミックスしたものなのです」。

どのようなものかを見てみたいなら、Trashで作成された最初のミュージックビデオのプレイリストを見るといいだろう。スタートアップはまた、ミュージシャンが自分の曲をアップロードしてミュージックビデオやプロモーションビデオを作成できるTrash for Artistsも立ち上げた、そこでは制作した作品を他のTrashユーザーにサウンドトラックとして提供することも可能だ。

新機能のリリースに加えて、Trashは先週、SnapのYellowアクセラレータプログラムを卒業した。ほかの投資家としては、National Science Foundation、日本のデジタルガレージ、そして元TechCrunch編集者のAlexia Bonatsos(アレクシア・ボナトソス)氏によって設立されたファンドであるDream Machineが含まれている。

関連記事:Trash uses AI to edit your footage into a fun, short videos

画像クレジット: Trash

原文へ]

(翻訳:sako)

マイクロソフトがより公平な機械学習モデルを作るためのツールを発表

Microsoft(マイクロソフト)は、米国時間5月19日のデベロッパーカンファレンスBuildで機械学習に力を入れていた。そして同社は多くの新しいツールや機能を発表しただけでなく、AzureクラウドとMicrosoftのオープンソースツールキットの両方で、より信頼性が高く公平なAIシステムの構築に取り組んでいることも強調していた。

そのシステムには、差分プライバシー(differential privacy)のための新しいツールや、モデルが異なるグループでも動くためのシステム、厳しい規制要件を満たしながら企業がデータの最大限に利用できるようにするツールなどが含まれている。

このところデベロッパーは、AIのモデルの構築方法を勉強しなければならない機会がますます増えており、そのシステムは「説明しやすいか」や「差別やプライバシーの規制を満たしているか」などと定期的に自問することになる。そのためには、モデルの結果をより良く解釈することを助けるツールが必要だ。そんなツールの1つが、Microsoftがしばらく前にローンチしたinterpretMLだが、MLのモデルの公平性を評価するツールキットであるFairlearnもある。このFairlearnは現在、オープンソースのツールとして利用できるが、2020年6月にはAzure Machine Learningに組み込まれるという。

差分プライバシーは、プライバシー情報を保護しつつ個人データからインサイトを得られる技術だが、マイクロソフトは新しいオープンソースのツールキットであるWhiteNoiseを発表した。GitHubとAzure Machine Learningの両方で使うことができる。WhiteNoiseは、マイクロソフトとハーバード大学のInstitute for Quantitative Social Science(定量化社会科学研究所)とのパートナーシップの結果だ。

画像クレジット:Akos Stiller/Bloomberg / Getty Images

[原文へ]
(翻訳:iwatani、a.k.a. hiwa

マイクロソフトはOpenAIと協力してAzure上に世界第5位となるスーパーコンピューターを構築

Microsoft(マイクロソフト)は米国時間5月19日に、デベロッパー会議であるBuild 2020で汎用AIを開発するスタートアップのOpenAIと提携したことを発表した。提携の中身にはいろいろあるが、その1つはマイクロソフトが10億ドル(約1078億円)を投資して、Azureのインフラストラクチャ上に、世界的にも最速レベルのスーパーコンピューターを構築することだ。マイクロソフトによると、28万5000コアを持つマシンで上位500位のスーパーコンピューターのランキングでも、トップ5に位置するものだという。

マイクロソフトはまだ多くを明らかにしていないが、1万基のGPUを備え、サーバー1台あたり毎秒400ギガビットのネットワーク通信速度を実現するという。これについては、マイクロソフトとOpenAIの言葉を信じるしかない。

現状でスーパーコンピューターランキングのトップ5に入るには、2万3000テラフロップスを超える必要がある。参考までに述べれば、現在第1位のマシンはIBMのPower SystemベースのSummitで、速度は14万8000テラフロップス以上に達している。それとの差はかなり大きい。マイクロソフトは同社のAIイニシアチブについて、4ページに渡るプレスリリースを出したにも関わらず、これまで実際のパフォーマンスの数値は公表していなかった。

「このコンピューターは、Azureに接続されてはいますが、OpenAIの専用リソースとなります。OpenAIはシステムの利用代金を、マイクロソフトと他のサプライヤーに対して支払います。その費用の総額は明らかにできません」と、マイクロソフトの広報担当は私の質問に答えて語った。また、システムは現在稼働中だという。

マイクロソフトによる大規模な投資を受けて以降、OpenAIはクラウドサービスとしてAzureを選択している。このスーパーコンピューターは「OpenAIと協力してOpenAI専用に」開発されたものだ。

OpenAIは、非常に大きなモデルをトレーニングすることで有名になった。それももちろん、これと同じように、1つのプロジェクトの目的なのだろう。

「私たちが、私たちのニーズを理解し、スーパーコンピューターを構成するすべてのコンポーネントのさまざまな限界についてよく知るにつれて、ようやくわかりました。私たちの夢をかなえるようなシステムを設計できるとすれば、それをどのようなものにすべきか、ということを表現できるようになったのです」と、OpenAIのCEOであるSam Altman(サム・アルトマン)氏は語った。「そして、マイクロソフトがそれを実現してくれました」。

原文へ

(翻訳:Fumihiko Shibata)

AI vs ウソと差別的発言、コロナ禍のいまFacebookが抱える大問題とは

FacebookのAIツールは、いまFacebookで吹き荒れている差別的発言や偽情報とユーザーの間に立つモデレーターの役割を一手に引き受けている。同社の研究者は、ミームを装った新型コロナウイルス感染症関連の偽情報や差別発言を特定することで、こうした発言に対する水際対策を講じるための機能をいくつか考え出した。

今は新型コロナウイルス関連の偽情報を検出して排除することが優先事項であることは間違いない。Facebookやその他のソーシャルメディアは、通常の憶測や議論だけでなく、組織的に不和の種をまいたりエセ科学を広めたりするなどの、悪意ある妨害の温床となっているからだ。

「新型コロナウイルス感染症の影響で、サイト全体でユーザーの行動が大きく変わってきている。我々が危険だと感じる偽情報が急増している」とFacebookのMike Schroepfer(マイク・シュローファー)CTOは報道陣の取材に答えた。

Facebookは世界中で数十社のファクトチェック団体と契約している。そうした団体との協力体制がどの程度の効果を上げているのかという疑問はさておき、偽情報はすぐに変異していく傾向があるため、1つの画像やリンクを削除するだけでも複雑な仕事になる。

一例として、次の1つの画像を見てほしい。

これらの画像は、背景、色、書体が同じであることからほぼ同一であるともいえる。だが、2枚目の画像は少し異なっている。オリジナルではなく、誰かがオリジナル画像のスクリーンショットを撮ったものだ。3枚目の画像もほぼ同じだが、文が逆の意味になっている。

あまり洗練されていない画像認識アルゴリズムでは、これらの画像はわずかに異なる部分があるために(生成されるハッシュ値がまったく異なるため)まったく別の画像として認識されるか、圧倒的に類似点が多いためすべて同じ画像として認識されるかのどちらかである。もちろん、人間が見ればすぐに違いが分かるが、この違いを確実に識別できるようにアルゴリズムをトレーニングするのはかなり難しい。それにFacebookでは情報がまたたく間に拡散するため、上記のような同じような画像が数千も存在する状態になることがある。

「我々の目的は、人が見れば同じ画像とみなされるこうした類似画像を同じ画像として検出することだ」とシュローファー氏はいう。「これまでのAIシステムは非常に精度が高かったが、その分、わずかな違いに対して非常に弱い。数ピクセル変更しただけで、別画像と認識してしまい、削除対象から除外されてしまう。そこで我々はこの2年半で、ニューラルネットワークベースの類似性検出システムを構築した。これにより、より広範囲にわたって、こうしたわずかに異なる画像を高精度で特定できるようになった」。

幸いにも、そうした規模での画像解析はFacebookの得意とするところだ。写真を比較して顔やあまり望ましくないものの特徴を検索するためのアルゴリズム基盤はすでに整っている。あとは何を探すのかを教えるだけだ。そうして数年の努力の結果完成したのが「SimSearchNet」だ。SimSearchNetは、最も目立つ(ただし人の目ではまったく気づかないような)特徴を詳しく調べることによって、ある画像に非常によく似た画像を検索および解析するシステムだ。

現在、InstagramとFacebookにアップロードされる1日あたり数十億にのぼる画像はすべて残らずSimSearchNetによって調査されている。

Facebook MarketplaceもSimSearchNetの監視の対象だ。このマーケットプレイスでは、アップロード画像に関するルールをすり抜けようとする人たちが、同じ出品アイテムについて、ほぼ同一だが少しだけ編集した画像(例えばN95マスクの画像など)をアップロードして、削除を免れるようにしている。SimSearchNetでは、色やその他の方法で編集された写真の類似性がチェックされ、(削除対象となっている写真と同一と判定されれば)出品が中止される。

差別的ミームと意味があいまいなスカンク

Facebookが対応に苦慮しているもう1つの問題がヘイトスピーチ、およびそれに準ずる不快表現だ。とりわけAIによる検出が特に難しいことが分かっている領域としてミームがある。

問題は、こうした投稿は画像とテキストの相互作用によって初めて意味を成すことが多いという点だ。テキストだけではまったく問題なかったり意味があいまいだったりしても、画像と組み合わせることで意味が明確になる。それだけではない。画像やフレーズにはそれこそ無限のバリエーションがあり、それによって意味が微妙に変わる(あるいは変わらない)ことがある。次の例をご覧いただきたい。

Facebook上のミーム

これらは悪意のあるミームだがトーンダウンされている。Facebookでよく見かける本当に差別的なミームはこんなものではない

パズルを構成する個々の画像は、コンテキストによって問題ないこともあれば、侮辱的にもなる。こうした善悪を機械学習システムでどのように判別すればよいだろうか?こうした「複合型ヘイトスピーチ」は、AIの動作の仕組みという観点からすると大きな問題となる。既存のAIシステムは言葉を理解し、画像を判別できるが、両者の相互作用によってもたらされる結果を特定するのは簡単ではない。

Facebookの研究者たちによると、このようなテキストと画像の相互作用というテーマに関する研究は驚くほど少ないという。その意味でFacebookの研究は解決策というより探査ミッションのようなものだ。この研究によりFacebookがたどり着いたテクニックは数段階の手順から成る。まず、人に膨大な数のミーム型画像も見てもらい差別的発言かどうかを示す注釈を付けてもらう。次に、このデータに基づいて機械学習システムをトレーニングして、既存のシステムとは決定的に異なるシステムを構築した。

こうした画像分析アルゴリズムはほとんどの場合、テキストと画像を同時に提示すると、まずはテキスト、次に画像という具合に別々に分類してから、両者の関連付けを行う。しかし、その方法には上述のような脆弱さがある。つまり、差別的ミームのテキストと画像を、コンテキストを考えずに別々に見ると、まったく無害なコンテンツであると判別される可能性がある。

Facebookのシステムはテキストと画像の情報をパイプラインの最初の段階で組み合わせて(これを「早期融合」と呼ぶ)、従来の「遅延融合」アプローチとの違いを生み出す。この方法は人の処理方法に近い。つまり、メディアを構成するすべての要素を見てからその意味やトーンを評価するというやり方だ。

この新しいアルゴリズムは現時点ではまだ本格的導入されてはいない。全体的な精度は65~70%程度だ。だがシュローファー氏によると、有効性の評価には「本当に判別の難しい問題」を使っているという。複合型ヘイトスピーチは簡単に判別できるものもあれば、人でも判別が難しいものもある。

システムのミーム判別能力をさらに高めるため、Facebookでは、今年後半に開催されるNeurIPS AIコンファレンスで「差別的ミームチャレンジ」と題するコンテストを実施する予定だ。コンテストは普通、機械学習システムにとって難しいタスクが課題として使われる。そのような新しい問題は研究者たちの大好物だからだ。

FacebookのポリシーにおいてAIが果たす役割の変化

Facebookは、新型コロナウイルス大流行の初期に、AIのモデレーターとしての役割を拡充強化していく計画を発表した。マーク・ザッカーバーグ氏は3月、記者会見で、「1万5000人のモデレーター契約社員が自宅で有給休暇を取っている状態を考えると、『偽陽性』(誤って削除対象にしてしまうコンテンツ)の件数が増えると思われる」と語った。

YouTubeTwitterも同時期にコンテンツのモデレーション作業のAI移行を強化したが、AIによるモデレーションへの依存度が大きくなると、ルールに違反していないコンテンツが誤って削除対象となる可能性があることを警告している。

FacebookはAI化を進める一方で、人間のレビューアの通常出勤を促すことに必死である。ザッカーバーグ氏は4月半ば、社員の通常出勤への復帰スケジュールを明示し、コンテンツレビュアーは通常勤務への早期復帰が最も望まれる「重要職」であると述べた。

FacebookはAIシステムによるコンテンツの削除は行き過ぎる可能性もあると警告しているが、新型コロナウイルス危機の拡大にともない、ヘイトスピーチ、悪質な脅し、偽情報などもサイトで拡散を続けている。Facebookは最近、マスクをしないようにとか、ワクチンが入手可能になっても買い求めないように促す、健康に関する偽情報ルールに明らかに違反した口コミ動画を広めたとして非難されている。

この動画は「Plandemic」という公開予定の偽情報ドキュメンタリーから抜粋され、最初はYouTubeで拡散したものだが、研究者たちはFacebookで活発に活動している陰謀論支持者グループが広くこの動画を共有した結果、ネット上で広く議論される主要な話題となったと見ている。陰謀説がちりばめられた26分間のこの動画は、アルゴリズムで解釈するのが難しいコンテンツの典型例でもある。

またFacebookは火曜、テロリズム、ハラスメント、ヘイトスピーチといったカテゴリ全体にわたるモデレーション作業の詳細を記述したコミュニティ規定違反対応レポートを発表した。今回のレポートにはパンデミックが発生してから1か月分の結果しか含まれていないが、AIによるモデレーションへの移行が進めば、次回は、その成果がより反映されたものとなるだろう。

Facebookのモデレーション作業に関する質問に対し、ザッカーバーグ氏は「パンデミックによって人によるレビューが大変難しくなった。ユーザーのプライバシー保護および社員の精神衛生の保護に関する懸念から、レビューアの在宅勤務は課題が多いが、それでも現在その方向に確実に進めている」と述べた。FacebookはTechCrunchの取材に対し、常勤コンテンツレビュアーの出社勤務については、ごく一部の希望者にのみ許可していると回答した。コンテンツ管理担当副社長Guy Rosen(ガイ・ローゼン)氏によると、大部分の契約コンテンツレビュアーは在宅勤務が可能となったという。「モデレーション作業では今後も人間の能力が重要な役割を果たすだろう」とローゼン氏は語った。

関連記事:いまさら聞けない機械学習入門

Category:AI・人工知能

Tag:Facebook 機械学習 画像認識

“新型コロナウイルス

[原文へ]

(翻訳:Dragonfly)

マイクロソフトが自律システム向け機械教示サービス「Project Bonsai」をプレビュー公開

米国時間5月19日、Microsoft(マイクロソフト)は同社主催のBuild 2020で、新しいMachine Teaching(機械教示)サービス、Project Bonsai(ボンサイ)を発表した。現在パブリックプレビュー版が公開されている。

この名前に聞き覚えがあると思う人は、おそらくマイクロソフトがBonsaiという会社を買収したからだろう。2018年、機械学習に特化していたBonsaiは、シミュレーションツールに複数の機械学習技術を組み合わせることで、産業用制御システムに焦点を当てた汎用ディープ強化学習プラットフォームを作った。

Project Bonsaiもまた企業の自律機械の学習と管理のために同様の狙いを持っていることは容易に想像できるだろう。「Project Bonsaiを使えば、AIの専門知識を持たない特定分野の専門家が、最先端の知識を機械システムに追加できる」とマイクロソフトはリリース文で語っている。

「パブリックプレビュー版のProject Bonsaiは、Bonsai社の技術と、2019年のBuildとIgniteでプライベートプレビューを発表した自律システムをベースに開発されている」。

マイクロソフトによると、Project Bonsaiは顧客の自律システム開発を支援するための同社の長期的展望の第1弾にすぎないという。同社はMachine Learning(機械学習)と比較してMachine Teaching(機械教示)の優位性を強調し、他の手法よりブラックボックス的要素が少なく、期待どおりに動かない時にデベロッパーやエンジニアがデバッグしやすい点を指摘した。

Bonsaiの他にもマイクロソフトは、エンジニアやデベロッパーがリアル世界の制御システム開発の基本を学ぶためのオープンソースのバランシングロボットであるProject Moabを発表した。3本の腕で支えられた台の上にボールをバランスさせるようロボットに教えるというものだ。

ロボットは3Dプリントして作るか、2020年中に売り出させる完成品を買うことができる。MathWorks(マスワークス)が開発したシミュレーションがあるので、デベロッパーは今すぐ試してみることもできる。

「卵を立てるといった従来の方法では容易でなかった分野に今すぐ参入できる」とマイクロソフトのゼネラルマネージャーであるMark Hammond(マーク・ハモンド)氏はいう。「Project Moabの鍵は、エンジニアがいろいろな問題に挑戦し、ツールやシミュレーションモデルの使い方を学べるプラットフォームを提供することだ。ひとたび概念を理解すれば、他のまったく新しい分野に応用できる」

関連記事:Microsoftが強化学習のスタートアップBonsaiを買収して自律型システムの研究開発を推進

[原文へ]

(翻訳:Nob Takahashi / facebook

AIソングコンテスト優勝者の容赦なく楽観的な楽曲に注目

「Beautiful the World」という曲では、全体の3分の2(2分30秒)くらいのところで「The music of the Earth has arrived」(地球の音楽がやって来た)というささやきが聞こえてくる。Uncanny Valley(不気味の谷)というチームが作ったこの3分半の曲は「Dreams Still Live in the Wings of Happiness」(幸福の翼で夢は今も生きている)といった理解しやすく心に訴えるフレーズをちりばめ、ひたすらに楽観的な断片をリスナーに浴びせかける。

ロボットが作ったような曲に聞こえるが、それは間違いではない。新型コロナウイルス(COVID-19)の影響で「Eurovision Song Contest」(欧州放送連合加盟放送局によって開催される毎年恒例の音楽コンテスト)が中止になったことで世界中の人々の心に穴を空けたが、この曲はその穴を埋めるためにオランダの放送局VPROが開催した第1回「Eurovision AI」の優勝曲だ。

このAIソングコンテストはEurovisionの公式イベントではないが、家にこもっている世界中の多くの人から注目された。13カ国から参加したチームが競い、1万2000票ほどの投票の結果、オーストラリアのUncanny Valleyチームが優勝を勝ち取った。

Uncanny Valleyの優勝曲は、過去の多くのEurovision受賞作品と、コアラやタスマニアデビル、ワライカワセミといったオーストラリアの生き物のオーディオサンプルを組み合わせた機械学習で作られた。オーストラリアの生き物を使うのは、不朽の名作と言われるMen At Workの「Down Under」に間接的にインスパイアされたことでもある。オーストラリアの野生の生き物が大規模な森林火災で長期にわたり厳しい状況に置かれたことを表している。

BBCによれば、AIの専門家である審査員たちもUncanny Valleyを高く評価したが、最終的にはドイツのDadabotsの作品を支持した。「It couldn’t be done, I’m committed to band Sherman / that one」(そんなことはできなかった。バンドShermanに専念していた、そう、あの)といった歌詞の曲で、このチームが第2位になった。

[原文へ]

(翻訳:Kaori Koyama)

コンピュータビジョンを利用して動画の特定部分のみにエフェクトをかけられるスマホ向け編集アプリ「Vochi」

ベラルーシを拠点とするスタートアップのVochiが、150万ドル(約1億6000万円)のシード資金の調達に成功した。同社は、スマートフォン向けにコンピュータービジョンベースのビデオ編集・エフェクトアプリを開発している。

今回のラウンドは、Genesis Investmentsがリードした。ウクライナ拠点のこのベンチャーキャピタルは、ダイエットアプリなどを開発するBetterMeや、アフリカでオンラインクラシファイド広告サービスを運営するJijiなどに出資している。なお今回の調達は、2019年4月のBulba Venturesからのプレシード時の資金調達に続くものだ。ちなみにVochiの創業者でCEOのIlya Lesun(イリヤ・レスン)氏は、創業以前にBulba Venturesでプロダクトアナリストして働いていた。

TikTokのようなショートムービープラットフォームが急成長している中でレスン氏は、クリエイターが差別化を図るのに役立つ簡単に動画編集ができるモバイルアプリ開発に乗り出した。

Vochiはコンピュータービジョン・テクノロジーをベースにした独自のアルゴリズムでビデオ内の単一の対象を切り出し、その部分だけに各種のエフェクトを適用できる。これによりスタイルやシナオリの組み合わせをリアルタイムで試せるので、ユニークな動画を作るチャンスの幅がかなり拡がる。高度なデスクトップソフトを使って精細度の高い動画処理をするには多くの時間とコンピューティングパワーを必要とする。モバイルデバイスでこの効果が簡単に得られ、公開前にプレビューもできるのはクリエイターにとって非常に有用だ。

レスン氏はTechCrunchの取材に対して「モバイルコンテンツの制作、視聴が拡大するにつれ、作成ツールの需要も高まっている。多様な機能を備えたビデオ編集ツールははプロ、アマ、ホビイストを問わずコンテンツのクリエーターに価値をもたらすことができる。Vochiはユーザーのポケットに収まるコンテンツ編集スタジオだ」と語る。

「Vochiのプロダクトとライバルの最も大きな差は、ビデオ内のオブジェクトに適用するエフェクトやフィルタなどにコンピュータ・ビジョンを使っていることだ。Vochはアルゴリズムによって動画内の特定のオブジェクトに分類できるので、その部分だけを編集できる。1080pのビデオのオブジェクトにリアルタイムでエフェクトを与えることができる」と同氏。

ターゲットに想定しているのはコンテンツクリエイター、つまり動画をスマートフォンに保存して終わりにするのではなく、ソーシャルメディアに頻繁に動画を投稿するユーザーだ。

「ビデオブロガーやインフルエンサーは視聴者の目を引きつけるような意外性のある動画を必要としている。面白い動画を作って友達と共有したいクリエイティブなユーザーもいるだろう。しかしもちろんスマートフォンのユーザーなら誰でも簡単にこのアプリを使うことができる」と同社は説明する。

原文へ

(翻訳:滑川海彦@Facebook

合成音声に人間の深い感情を吹き込むSonantic、本当に人が泣いているかのような表現も可能に

Amazon(アマゾン)のAlexa(アレクサ)やApple(アップル)のSiriなどの音声アシスタントには「情緒」とか「表現力」といった言葉は無縁に思える。声のトーンは平坦で慇懃で、感情は一切表に出さない。アシスタントならそれでもいいが、合成音声をゲームや映画、その他の物語性の高いメディアには使いづらい。

そこで、Sonantic(ソナンティック)というスタートアップは、真に迫った泣き方をする「人間の深い感情」を表現できるAIの開発に取り組んでいる。英国を拠点とするこのスタートアップは、先月、EQT Ventures主導による230万ユーロ(約2億7000万円)の投資を獲得したと発表したが、5月12日にその技術がどれほどのものかを示す動画が公開した。

動画を見れば、読者もその結果を評価できるだろう。Sonanticによれば、すべての声は技術的に作り出されたものだそうだ。私個人の感想としては、優れた声優に置き換えられるほどではないといった感じだ。しかし、これまで聞いたどの合成音声よりも確かに感情がこもっている。

Sonanticの実際の製品は音声エディターだ。すでにゲームメーカーでテストが進められている。共同創設者でCEOのZeena Qureshi(ジーナ・クレシ)氏によると、このエディターにはさまざまな音声モデルが含まれており、それらは実際の声優とともに開発したものだという。そして、声優には売り上げの一部が還元される。

「私たちは、声のディテールと息遣いのニュアンスにこだわりました」とクレシ氏。「声そのもので物語が表現されなければなりません」。

共同創設者でCTOのJohn Flynn(ジョン・フリン)氏は、わかりやすい出発点としてゲームスタジオがあると話す。ゲームでは、何千何万という会話を録音しなければならないからだ。「これがあれば、時間をかけることなく、状況に応じて同じセリフにさまざまな表情を付けることができる」と同氏は説明する。例えば、走っているキャラクターが息を弾ませながら話すといったシチュエーションだ。また、キャラクターが泣いたり叫んだりしても、声優の喉に負担をかける心配もない。

フリン氏は映画の映像処理の世界で働いていた経験があり、Sonanticの技術はゲーム以外にも数々の業界で応用できると考えている。声優に置き換わることが狙いではなく、目指すのはむしろ「語り」の新しい活躍の場の発掘だ。

「実写映像の処理にどれほどCGが使われているかを考えてみてください」と彼は言う。「どちらかを選ぶという性質のものではありません。新しいテクノロジーとは、夢のような方法で新しい物語を聞かせてくれものなのです」。

Sonanticは、初期の音声モデル開発に協力した女優のArabella Day(アラベラ・デイ)氏を私に紹介してくれた。デイ氏は、何時間もかけてたくさんのセリフを録音したという。そしてついにフリン氏から電話があり、彼女の声の合成音声版を聞かされた。「私はフリンにこう言ったんです。それが私?私が録音した声? って」と彼女は振り返っていた。

Sonanticでの仕事は「本物のパートナーシップ」だったと彼女は話していた。彼女が新しい音源を提出すると、それを基にボイスモデルがどんどん改良されていく。最近では、彼女の音声が米国人のアクセントになっていたものもあるらしい。デイ氏によれば、彼女の声の使い方について、本人が心配しないよう会社は気を使ってくれたという。ブラックリストに載せたい会社はないか、いつも聞かれていたとのこと。

「女優として演劇の未来はAIだなどとは、まったく思っていません」とデイ氏。「これが私の仕事の道具のひとつになればいいと願っています。頼りになる私の特別な強みにね」。

同時に彼女は、多くの業種でAIが人間の労働者に置き換えられることへの「合理的」な懸念も抱いてもいる。「それがエンターテインメントの未来だとしても、私もその一員でいたい」と彼女は言う。「でも、その一員として、一緒に働きたいんです」。

関連記事:ゲームの人工音声をより「人間らしく」するSonanticが約2.8億円を調達

画像クレジット:Sonantic

原文へ

(翻訳:金井哲夫)

コンピュータービジョンで製造作業員の動きのエラーを検知、トヨタも手を組むInvisible AI

「組み立て作業」と聞けば製造プロセスでの単純な過程を思わせるかもしれないが、組み立て式家具を購入したことがある読者なら、これがいかに腹立たしく複雑な作業になり得るかお分かりだろう。Invisible AIはコンピュータービジョンを用いて、明らかな危険を回避し、安全性と効率性を維持するため、組み立て作業を行う人々をモニターすることを目的としたスタートアップだ。同社は360万ドル(約3億8000万円)のシードラウンドを活用してこの目的を達成する予定である。

Invisible AIは、高度に最適化されたコンピュータービジョンアルゴリズムを用いてカメラに映る人々の動きを追跡する、内蔵型のカメラコンピューターユニットを製造している。作業員の動きを模範的な動き(作業が正しく実行されている場合の様子)と比較することにより、システムがミスを監視したり、不足パーツや怪我などワークフローにおける問題を特定したりすることができる。

このシステムは一見どうみても、労働者が絶えず上昇し続ける人工的な基準を満たせない場合、それを逐一罰するコンピューターの皮を被った冷酷な監督のようなもののように感じられる。おそらくAmazonはすでに採用しているだろう。しかし、共同創設者兼CEOのEric Danziger(エリック・ダンジガー)氏は、そういった意図はまったくないと説明する。

「この製品の最も重要なポイントは、これが作業者自身のために作られたものだということです。これらの労働には熟練した技術が必要とされ、彼らは仕事に対して大きな誇りを持っています。最前線で仕事をしているのは彼らであり、ミスを見つけて修正することはとても重要な部分です」。

「こういった組み立て作業は、かなり肉体的でペースの速い労働です。15ステップを記憶し、その後場合によってはまったく異なるバリエーションのタスクへ進まなければなりません。すべての工程を頭に入れていなければならずとても難しい仕事です」とダンジガー氏は続ける。「目標はリアルタイムでその流れの一部になるということです。作業者が次のパーツに移る際に、同製品が再確認をして『ステップ8をとばしていますよ』という具合に伝えることができる。これにより多大な苦労を回避することが可能です。たとえケーブルを差し込むという程度のことでも、そこでミスを防げるというのは偉大です。車両がすでに組み立てられた後でミスを見つけた場合、再度分解する必要があるのですから」。

このような動作追跡システムは、それぞれ異なる目的のためにさまざまな形で存在する。たとえばVeo Roboticsは、深度センサーを使用して作業員とロボットの正確な位置を追跡し、動的に衝突を防止している。

しかし、この産業全体での課題は「人の動きをどう追跡するか」ではなく「人の動きを追跡した結果をどのようにして簡単に展開し適用するか」である。システムの導入に1か月、再プログラムに数日かかっていては意味がないのだ。そのためInvisible AIは、コーディングの必要がなく完全にエッジベースのコンピュータービジョンを使用して、導入と管理の簡素化に重点を置いた。

「可能な限り簡単に展開できるようにするのが目標でした。コンピューティングやすべてが組み込まれたカメラを購入し、それを施設に設置し、プロセスのいくつかの例を示してから注釈を付けるだけです。想像されるよりもずっと簡単です」とダンジガー氏。「1時間足らずで稼働を開始できます」。

カメラと機械学習システムをセットアップしたら、そこからはそれほど難しい問題ではない。人間の動きを追跡する機能は、最近のスマートカメラにとってかなり簡単な作業であり、それらの動きをサンプルセットと比較することも比較的簡単だ。動画のキャプション付けや手話の解釈に特化したAIで見られるような(どちらもまだ研究コミュニティーで開発途中である)、人が何をしているのかを推測したり、ジェスチャーの膨大なライブラリーに一致させたりするなどの「創造性」は必要ない。

プライバシーに対する課題や、カメラに常時映っているという事実に不安を感じるなどの可能性については、このテクノロジーを使用する企業がしっかりと対応する必要がある。ほとんどの新しいテクノロジーと同じく、善となる可能性と同様に悪となる可能性も備えている。

Invisible AIを早い段階でパートナーとした企業の1つはトヨタだ。トヨタはアーリーアダプターではあるが、同時にAIと自動化に関して慎重派である。複数の実験の後に到達した同社の哲学は、専門労働者に力を与える、というものだ。このようなツールは、労働者らがすでに行っていることに基づき、体系的な改善を提供する良い機会である。

非情なまでの最適化のため、労働者が非人間的な割り当てを満たすように強いられるAmazonの倉庫のような場所にこのシステムが導入されるというのは簡単に想像がつく。しかしダンジガー氏によると、すでに同社と協同している企業の話では労働者自身による作業改善を促す結果となっているとのことだ。

何年もの間、来る日も来る日も製品を作り続けている従業員は正しい製造方法について深い専門的知識を持っているが、その知識を正確に伝えるのは難しい場合がある。「ボルトで締める際に自分の肘が邪魔にならないよう、こうやってパーツを持つように」とトレーニングで指示するのは簡単だが、それを身につけるのは一筋縄ではいかない。Invisible AIの姿勢と位置の検出機能は、そういったことに役立てることができる。

「個人の一連の作業に要する時間にフォーカスするのではなく、ステップの合理化や反復ストレスの回避などが見られています」とダンジガー氏。

重要なポイントは、この種の機能が、結果を送信するためのイントラネット以外に接続を必要としないコードフリーのコンパクトなデバイスで提供できるということだ。分析するためにビデオをクラウドにストリーミングする必要はなく、必要に応じてフッテージとメタデータの両方を完全にオンプレミスで保持することが可能だ。

世間の魅力的な新テクノロジーと同様に不正使用される可能性も幾分あるが、Clearview AIのような取り組みとは異なり、同製品は悪用を目的として作られたものではない。

「そこには微妙な境界線があります。同製品を導入する企業の性質を反映するでしょう」とダンジガー氏は言う。「弊社とやり取りする企業は、従業員を本当に大切にしており、彼らができるだけ尊重され、プロセスに関与することを望んでいます。そういった事には大いに役立ちます」。

360万ドル(約3億8000万円)のシードラウンドは8VCが主導し、iRobot Corporation、K9 Ventures、Sierra Ventures、Slow Venturesなどの投資家が参加している。

関連記事:いまさら聞けないコンピュータービジョン入門

Category:人工知能・AI

Tags:コンピュータービジョン 機械学習 Invisible AI

[原文へ]

(翻訳:Dragonfly)

Amazon KendraはAIと機械学習で企業内サイトの検索精度を強化

エンタープライズサーチは常に難題だった。目標は社内用のGoogle検索だ。キーワードを入力すると結果の上位に、常に完璧な結果を得たい。でもローカルな検索ではコンテンツが少ないので、満足な結果を得ることが難しかった。

Google(グーグル)にはWorld Wide Webという大きな宇宙があるが、エンタープライズが得る検索結果はもっと小さい。対象が少なければ理想的な結果を得やすいと思いがちだが、事実はその逆だ。データは、多ければ多いほど目的の情報を得やすい。

Amazon(アマゾン)は、エンタープライズサーチでもウェブのような完全な結果が得られるために、機械学習の導入による検索技術のアップデートを目指している。

米国時間5月11日に同社が一般公開したAmazon Kendraは、同社が昨年のAWS re:Inventで発表したクラウドベースのエンタープライズサーチプロダクトだ。自然言語処理の機能があるのでユーザーは単純に質問を入力でき、すると検索エンジンに接続された複数のリポジトリから正確な答えを見つける。

同社はリリース声明で「Amazon Kendraはエンタープライズサーチをゼロから作り直して、ユーザーは正しいキーワードだけでなく本当の質問を入力して、複数のデータサイロ全域を検索できる。そして内部では機械学習のモデルを利用してドキュメントの内容とそれらの間の関係を理解し、リンクのランダムなリストではなくユーザーが求める正確な答を提供する」と説明している。

AWSはこの検索エンジンを、IT、ヘルスケア、保険など主要な業種分野別にチューンアップしている。年内に対応を予定している業種分野は、エネルギー、工業、金融サービス、法務、メディア、エンターテインメント、旅行とホスピタリティ、人事、ニュース、通信、鉱業、食品と飲料、そして自動車だ。

ということは、この検索エンジンは各専門分野の特殊な用語も理解するので、導入したらその日からすぐに使える。また、会社で作るアプリケーションやウェブサイトにKendraを組み込んでもいい。現在では検索入力に必須ともいえる、入力補助機能(先行入力機能)もある。

エンタープライズサーチの歴史は長いが、今回AIと機械学習が加わったことによって、ついにその最終解が得られたと言えるかもしれない。

関連記事:AWS announces new enterprise search tool powered by machine learning(AWSがエンタープライズサーチに機械学習を導入、未訳)

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

米国議会図書館が機械学習で300年ぶんの新聞の画像を抽出し検索可能に

昔の事件や人々に関する記録に関心のある歴史家たちは、かつては古い新聞の目録カードをかき分けていたが、次にマイクロフィルムをスキャンするようになり、やがてデジタルリストを検索するようになった。だが現代の技術は、個々の単語や写真に至るまで索引化を可能にした。米国議会図書館では、最新鋭の機械学習を使って1何世紀も前からの新聞記事の写真やイラストをデジタル化し分類する取り組みを進めている。

同図書館の「招聘イノベーター」の座を獲得したワシントン大学研究員であるBen Lee(ベン・リー)氏が主導するプロジェクトNewspaper Navigator(ニューズペーパー・ナビゲーター)では、アメリカの歴史に残る1600万ページぶんを超える新聞の画像を収集しデータを抽出している。

リー氏とその仲間は、昔の新聞や印刷物のデジタル化で先行しているChronicling America(クロニクリング・アメリカ)の仕事に刺激を受けた。Chronicling Americaは新聞のあらゆる内容を光学文字認識(OCR)でスキャンしているが、これはクラウドソース・プロジェクトでもあるため、さらなる分析のための画像の特定や切り出しは人の手が必要だ。ボランティアの作業員は、第一次世界大戦に関係する画像を枠で囲んで説明文を書き写し、画像を分類している。

この限定的な取り組みを見て、リー氏のチームは考えた。「印刷物の画像の特性を生かすものとして、私はそれが大好きでした。そのプロジェクトから生まれた内容の視覚的多様性を見て、純粋に素晴らしいと感じ、米国中の新聞記事を対象にこのような内容を記録できたらどうだろうかと考えたのです」とリー氏はTechCrunchに語った。

彼はまた、ボランティアが作り出したものが、実は機械学習システムのトレーニング用データとして最適であることに気がついた。「これを使ってオブジェクト検出モデルを構築し、あらゆる新聞紙面を読み込ませれば、宝の箱を開けることはできないかと私は自問しました」。

うれしいことに、答えはイエスだった。最初の人力による画像と説明文の切り出し作業を利用し,彼らは、それを自力で行えるAIエージェントを構築した。普通に微調整や最適化のあと、彼らはChronicling Americaがスキャンした新聞記事の完全なデータベースの中にそれを解き放った。

上段左から、画像をダウンロードしてMETS/ALTOでOCR、視覚コンテンツ認識を実行、視覚コンテンツの切り出しと保存、画像埋め込みの生成。下段左から、OCR、予測された境界ボックスからOCRを抽出、抽出されたメタデータをJSON形式で保存

「19日間ノンストップで稼働しました。私が経験した中で最大のジョブです」とリー氏。しかし、結果は驚くべきものだった。3世紀(1789年から1963年)にわたる無数の画像が、それらに本来付属していた説明文から抽出されたメタデータとともに分類されたのだ。この処理が解説されている研究論文は、ここで読める。

説明文が正しいと仮定すると、これらの画像(つい最近までアーカイブを日付ごとに追いかけ、文章をひとつひとつ読んで、片っ端から調べなければ見ることができなかったもの)は、他の言語資料と同じように内容で検索できるようになる。

1870年の米国大統領の写真を探したいなら、もう狙いをつけて何十ページもの新聞を読みあさり写真の説明文の内容を何度も確かめる必要はなく、Newspaper Navigatorで「president 1870」と検索すれば済む。または、第二次世界大戦時代の風刺漫画を見たいなら、日付の範囲を指定するだけで、すべてのイラストが入手できる(彼らはすでに写真を年別のパッケージにまとめていて、その他のコレクションもそうする予定だ)。

下にいくつかの新聞紙面の例を示す。機械学習システムが切り出した枠が重ねられている(注意:帽子の広告が山ほどあり、差別的な内容も含まれる)。

  1. newsnav-examples-4

  2. newsnav-examples-3

  3. newsnav-examples-2

  4. newsnav-examples-1

  5. newsnav-examples-5

少しの間、気楽に眺めるのも楽しいが、重要なのは、これが研究者たち(そしてその他の資料一式)に何をもたらすかだ。研究チームは本日、このデータセットとツールの公開を記念して、データの利用法のアイデアを競うイベントを開催する予定だ。新しい使い道の発見と実用化の方法が得られればと彼らは期待している。

「このデータセットの創造的な利用法をみんなで考える、素晴らしい催しになればと考えています」とリー氏。「機械学習という観点から私が心底ときめいたのは、人々が独自のデータセットを作れるユーザーインターフェイスを構築するというアイデアです。風刺漫画やファッション広告など、自分の興味に応じてユーザー自身が定義し、それに基づいて分類器のトレーニングができるインターフェイスです」。

南北戦争時代の地図を要求したことを想定した検出例。

視点を変えれば、Newspaper NavigatorのAIエージェントは、その他のコレクションのスキャンやデジタル化に使える、より具体的な内容のエージェントの親になることができる。これは実際、米国議会図書館で計画されていることだ。デジタルコレクションの担当チームはNewspaper Navigatorがもたらした可能性と機械学習全般を、おおいに歓迎している。

「私たちが興味を抱いていることのひとつに、私たちが使える検索や発見の手段をコンピューターが拡大してくれる可能性があります」と米国議会図書館デジタル戦略ディレクターのKate Zwaard(ケイト・ツワード)氏は語る。OCRのおかげで、それなしに探せば何週間も何カ月もかかったであろうものが見つけられるようになりました。図書館の蔵書には、美しい図版やイラストが掲載されたものが数多くあります。しかし、たとえば聖母子像にはどんなものがあったかを知りたいとき、一部は分類されていますが、その他のものは本の中にあって分類されていません」。

その問題は、画像と説明文を結びつけるAIが体系的に本を熟読することで、早々に解決できる。

Newspaper Navigatorを構成するコード、画像、そしてそれが生み出した結果のすべては、完全なパブリックドメインとして、目的にかかわらず無料で利用でき、改変もできる。コードは同プロジェクトのGitHubで入手可能だ。

画像クレジット:Library of Congress

[原文へ]

Googleの失敗から学ぶ、AIツールを医療現場へ適用することの難しさ

AIによる医療分野での魔術的な活躍がよく話題になる。機械学習モデルがまるで専門家のように問題を検出するスクリーニングという分野では、特にそれが言えるだろう。しかし、多くの技術と同じように、試験所でうまくいくことと、実社会で機能することは全く話が違う。Googleの研究者たちは、タイの田舎で行われた診療所でのテストを通じ、その厳しい事実を見せつけられた。

Google Healthは、目の画像を処理し、世界中で視力喪失の主な要因となっている糖尿病網膜症の兆候を見つける深層学習システムを開発した。しかし理論的な正しさとは裏腹に、同ツールは実際の現場テストで実用に向かないことが判明した。結果が安定せず、また現場の診療方法とうまく調和しないため、患者と看護師の両方が不満を訴えている。

ここではっきりさせておくべきことは、得られた結果は苦いものだったとはいえ、この種のテストを行うためには必要不可欠で、かつ道義性のある段階を踏んでいたという点である。また、Googleが体裁の悪い結果を公表したことは評価に値する。さらに、同社の文書を読む限り、担当チームが結果を肝に銘じていることは明らかである(ただし、ブログ記事では実際の経緯をやや楽観的に描いてはいる)。

研究報告では、タイにある数箇所の診療所で、糖尿病網膜症(DR)患者を選別する既存の手順を強化するためのツールの使用経緯が記録されている。既存の手順を手短に説明すると、看護師は糖尿病患者に1名ずつ対応し、目の画像(眼底写真)を撮影し、画像を検査して結果を報告する眼科医へまとめて送付する。患者数が多いため、通常は結果が得られるまで4~5週間かかる。

Googleシステムは、わずか数秒で眼科医レベルの専門作業を完了させる目的で開発された。社内テストでは、90%の精度でDRの度合いを判定している。これで、看護師は病院を紹介して推薦したり、さらなる検査を行う決定を1か月ではなく1分で行えることになる(自動判定は1週間以内に眼科医によってグランドトゥルース検証された)。見事な結果だ-理論的には。

目の画像(眼底写真)

理想的には、同システムはこのような結果を素早く返し、患者も確認できる

しかし、この理論は報告の著者たちが現場へ適用するやいなや、崩壊してしまった。報告には次の通り記載されている。

今回の研究では、11箇所の診療所において、目のスクリーニングプロセスをできるだけ多様に観察した。画像を取得してグレードを判定するプロセスはどの診療所でも同じである。しかし、看護師はスクリーニングのワークフロー構成において大きな自主性を持っており、また、診療所ごとに利用可能なリソースも異なっていた。

目のスクリーニングを行う環境や場所も、診療所に応じて大きく異った。高品質の眼底写真を撮影できるように、周囲を暗くして患者の瞳孔が十分に大きく映すための専用の選別室を設置した診療所は、わずか2箇所にとどまった。

環境条件とプロセスがばらばらであったため、サーバーへ送信された画像もアルゴリズムで要求される高いレベルを満たしていなかった。

この深層学習システムでは検査対象の画像が厳格な基準を満たす必要がある…画像にわずかなぼやけや暗い箇所があれば、明確に発症予測できる場合でも、システムは画像を拒否する。診療所の制約下で繰返し作業する看護師が撮影した画像の一貫性や品質は、システムが要求する高い画質を満足させなかった。このため不満が高まり、仕事量が増加した。

DRの症状を明らかに示しても画質の低い画像はシステムに拒否されるため、手順が混乱し、長引くこととなった。しかし、そもそもシステムへ画像をアップロードできなければ、こうした問題点を扱うことすらできない。

インターネット接続が良好であれば、結果は数秒で表示される。しかし、今回の研究に参加した診療所のインターネット接続は、遅くて不安定な場合が多々あった。このため、画像によってはアップロードに60~90秒かかり、スクリーニングの待ち時間が伸び、1日で処理できる患者数が減ることとなった。ある診療所では、目のスクリーニング中に2時間程度インターネット接続が途切れたため、選別した患者数は予定された200名からわずか100名へ下がった。

「最低限、危害は出ない」原則を思い出す必要があるだろう。新テクノロジーを活用する試みのおかげで、治療を受けられる患者数がかえって減ってしまった。看護師は様々な方法で埋め合わせようとしたが、画像の不安定さやその他の原因が重なり、患者に対して研究に参加しないよう勧める結果となった。

うまくいったケースでも、不慮の事態が発生している。患者は、画像送信後ただちに検査が行われて、次回の診察予約を行う準備ができていなかった。

今回の研究は、前向き研究(プロスペクティブスタディ)として設計されているため、紹介先の病院を訪れる予定をその場で立てなければならない。そのため、第4および第5診療所では、看護師は不要な面倒が増えないように、患者に対して前向き研究に参加しないよう勧告していた。

また、ある看護師はこう述べている。

「(患者)は検査の正確さではなく、その後何をしなければいけないのかを心配しているのだ。結果的に病院へ行かなければいけないのなら、診療所で検査するのは無駄なのではないかという疑問が浮かんでいる。私は患者に対し、「病院へ行く必要はない」と安心させる。彼らはまた、「もっと時間がかかるか?」「別の場所へ行かなければいけないのか?」とも聞く。出かけることができないため、研究にそもそも参加しない人もいる。40~50%の人は、病院へ行かなければいけないと考えて、研究に参加しない。」

もちろん、悪いニュースばかりではない。問題は、混みあったタイの診療所ではAIが何の役にも立たないことではない。課題と場所にソリューションをぴったり合わせなければいけないことだ。わかりやすい瞬間的な自動検査は、うまくいっている間は患者と看護師の両方から歓迎された。時には、目のスクリーニングという行為自体が緊急に対策が必要な深刻なケースを自覚させることに役立っている。当然のごとく、著しく制限されたリソース(現場の眼科医)への依存を減らすという主なメリットは、医療現場の状況を変革させる可能性がある。

しかし、今回のレポートを読む限り、GoogleのチームはこのAIシステムを時期尚早かつ部分的にのみ適用してしまった結果を真摯に受け止めているように見える。彼らはこう述べている。

新たな技術を導入したとき、企画担当者、政策立案者、技術設計者は、複雑な医療プログラムで起こる問題は流動的かつ緊急的であることを考慮していなかった。私たちは、人々のモチベーション、価値観、職業上の信念、そして仕事を形成する現行の規則と繰返し作業など、それぞれの都合を考慮することが、技術の導入を企画する際に不可欠であると考える。

この研究レポートは、AIツールが医療環境でどう効果を発揮するかを解説しており、また技術面の問題や技術を活用する人々が直面する問題の両方を理解できるため、十分に読む価値のある入門書だ。

関連記事:AIとビッグデータが新型コロナとの戦いで奇跡を起こすことはない

Category:ヘルステック 人工知能・AI

Tags:Google Google Heath 機械学習

[原文へ]

(翻訳:Dragonfly)

OpenAIの新たな音楽活動はエルビスの不気味の谷に入った

AIが音楽を作るという新分野は大変に興味深いが、潤沢な資金を誇る研究団体OpenAI(オープンエーアイ)は、エルビスや2パックなどのアーティストのスタイルを真似てAIに歌を作らせるという、未踏の高みに到達した。作品はそれらしく聞こえるが、音楽の「不気味の谷」に突き落とされる気持ち悪さもある。まあまあの出来だが、酒に酔ってドラッグでぼやけた頭でカラオケを聞いているような感じがする。

OpenAIが開発した新しい音楽制作システムJukebox(ジュークボックス)は、米国時間4月30日に公開されたブログ記事と研究論文に詳細が記されている。OpenAIは、ちょうど1年前にMuseNet(ミューズネット)という面白いシステムを披露している。MIDI形式の楽曲を大量に採り込んだ機械学習システムで、ジャンルや楽器のミキシングやマッチングができるというものだ。

関連記事:バッハからジャズまでオリジナル曲を瞬時に作るMuseNet

しかし、複雑な和声や音声によってでははなく、個別の音階と打鍵情報のみで構成されるMIDIは、本物の楽器を演奏して最終的に録音される音楽よりもデータとしては単純なものだ。

クラシックのピアノ曲をAIに理解させようとすれば、音のタイミングや打鍵の情報は、無数にある要素のほんの一部に過ぎない。実際の演奏を録音した音声は、1秒間に(通常は)4万4100サンプルと、もっとずっと濃密だ。

楽器の音や声を学習し模倣する機械学習システムは、直前の言葉や音に注目して、その先の数ステップを予測する仕組みになっている。だが、一般にそれらが処理できるデータは数十から数百のオーダーだ。たとえば直前の30個の言葉または音から、次の30個がどうなるかを予測する。となるとコンピューターは、10秒間の波形のほんの一部から抽出した44万サンプルから、90秒400万サンプルを使った場合と同程度の歌を作るには、どうしたらいいのだろうか。

OpenAIの答は、歌をもっと理解しやすい部分に切り分けることだった。音程や和音というよりは、そのようなもの、つまりコンピューターが扱いやすい1/128秒間の要約を、2048種類の「語彙」から拾い出すというものだ。正直言って、うまい例えが見つからない。なんとか理解できる範囲で考えても、人間の記憶や理解の方法とはまったく異なっているからだ。

(上)生の音声:1秒間に4万4100サンプル。各サンプルは、その瞬間のサウンドの振幅の代理となる浮動小数点数、(中)折り畳みニューラルネットワークを使用してエンコード、(下)圧縮された音声:1秒間に344サンプル。各サンプルは候補となる2048の語彙トークンのひとつ。実際に色分けされているわけではなく、あくまで波形の区切りを図解している

その結果、AIエージェントは、追跡するトラックの数が多すぎない程度に大きく、それでいて歌の音声を確実に再構築するのに最低限必要な程度に小さい、自分で理解しやすい部品に安定的に切り分ける方法を獲得した。実際は、ここで説明したよりもずっと複雑な処理が行われている。歌をひとつながりの「言葉」に確実に分解し、そこから歌を再構築するというのが、この研究の肝なのだが、技術的な詳細については、OpenAIの論文を参照してほしい

またこのシステムでは、歌詞の意味を解析する必要もある。この分野のその他ほとんどの要素と変わりなく、これも話で聞くよりずっと複雑だ。人がボーカルのパターンを記憶し利用する能力は、生まれつき備わっているものと、後から学習したものとがある。我々は当たり前に思っているが、大変に高度な力なのだ。コンピューターにはそのような能力が備わっていないため、音が混ざり合う中から人の声を聞き分け、何を言っているのかを理解し、単なる言葉の羅列である歌詞と照合する。音階やテンポといったその他の要素に関する情報は、そこには一切含まれない。それにも関わらず、OpenAIのシステムは、その作業で満足のいく結果を出している。

Jukeboxは、音楽に関するさまざまな仕事を熟すことができる。その結果は歌と呼べる代物にはなっていないかも知れないが、現在、このようなシステムはこれ以外には存在せず、一から歌を再構築して、目標とするアーティストに似ていると感じさせるまでになっていることを理解して欲しい。120万曲を使ってトレーニングを行ったこのシステムは、最終的には多面的な能力を身につけ、基本的に、与えられた歌詞と、目標とするアーティストのその他の要素を取り込んで学習したスタイルから即興で歌を作ることが可能になった。

そのため、エラ・フィッツジェラルドがどのように歌うか、楽器は彼女の歌とどう絡んでくるかという知識から、「アット・ロング・ラスト・ラブ」を彼女らしく、しかし作者のコール・ポーターが想定していたものとはまったく違うであろうスタイルで歌い上げる(この歌と他の歌のサンプルのリンクは、OpenAIのブログ記事の上の方にある)。

Jukeboxはまた、完全にオリジナルの歌詞を誰かのスタイルで歌うこともできる。別のAI言語モデルが作った「Mitosis」(有糸分裂)という歌詞をエルビスが歌った例はかなり奇妙だ。

聞き取れなかった人のために歌詞を書いておこう。

From dust we came with humble start;
From dirt to lipid to cell to heart.
With [mitosis] with [meiosis] with time,
At last we woke up with a mind.
From dust we came with friendly help;
From dirt to tube to chip to rack.
With S. G. D. with recurrence with compute,
At last we woke up with a soul.

我々は塵から慎ましく始まった
土から液体から細胞から心臓へ
[有糸分裂]と[減数分裂]と時間をかけて
ついに我々は心と目覚めた
塵から優しい助けを借りて我々は生まれた
土から管からチップからラックへ
SGDと再現と演算で
ついに我々は魂と目覚めた

たしかにエルビスだ。いかにもAIらしく、細胞分裂を人生のメタファーに使っている。なんて時代だ。

最後に、Jukeboxは「仕上げ」作業を行う。ライブラリーで行った基礎学習に加え、歌の最初の12秒を学習して、それを元に残りの部分を同様のスタイルで作ってゆく。オリジナルからAIが生成した歌へ切り替わる部分は、エーテルをぶち込まれた感じだ。

MuseNetは、それほど複雑ではないため、ほぼリアルタイムで曲を演奏できた。しかしJukeboxは膨大な演算を必要とするため、曲の1秒分を作るのに数時間かかる。「私たちは、異なるジャンルの10人のミュージシャンを最初のセットとしてJukeboxに教えました。これらのミュージシャンは、創造的作業に向いているとはすぐに自覚できませんでした」と論文の著者は皮肉っている。それでも、これはとても楽しくて魅力的な研究だ。これまでの流れからすると、来年の4月には、さらに進化したOpenAIの音楽活動が期待できる。

画像クレジット:alengo / Getty Images under a RF license

[原文へ]

(翻訳:金井哲夫)

UCバークレー発祥のDetermined AIが機械学習インフラをオープンソースに

機械学習は、ニッチな分野から無数にあるソフトウェアスタックの重要なコンポーネントへと急速に移行したが、だからといって簡単に手がつけられるわけではない。機械学習の開発と管理管理に必要なツールは企業グレードで、多くの場合企業だけを相手にしている。だがDetermined AIは、同社のAIインフラストラクチャ製品全体をオープンソース化することで、これまで以上に使いやすくすることを狙っている。

同社は、組織化された信頼性の高い方法でAIを開発するための「Determined Training Platform」を開発した。これは大企業が自分たちのために作って(秘匿している)ものと似たようなものだと、同社は昨年1100万ドル(約12億円)のシリーズA調達を行った際に説明した。

「機械学習は、今後のソフトウェア開発方法の中の大きな部分を占めることになります。しかし、GoogleやAmazonのような企業が生産性を確保するためには、こうしたソフトウェアインフラをすべて自前で構築しなければなりませんでした」とCEOのEvan Sparks(エバン・スパークス)氏は述べている。「私たちが働いていたある会社では、70人がAIのための内部ツールを構築していました。このような取り組みを続けられる企業は、地球上にそれほど多くありません」。

小規模な企業では、学術的な仕事や個人研究を目的としたツールを使って、小規模なチームによる機械学習(ML)の実験が行われている。実際の製品を開発している何十人ものエンジニアに向けてそれを拡大するには…多くのオプションは残されていない。

「そうした人たちはTensorFlowやPyTorchのようなものを利用しています」と語るのは、チーフサイエンティストのAmeet Talwalkar(アミート・タルウォーカー)氏だ。「仕事のやり方の多くは決まったやり方です。例えば、モデルはどのように訓練されるのか?どこにデータを書き留めればベストなのか?データを適切な形式に変換するにはどうすれば良いのか?これらはすべて、極めて基本的な作業なのです。それを行う技術はありますが、まだまだ開拓途上なのです。そして、それを準備するためにしなければならない仕事の量たるや。大規模なハイテク企業がこれらの内部インフラを構築するのには相応の理由があるのです」。

カリフォルニア大学バークレー校のAmpLab(Apache Sparkの本拠地)からスタートしたDetermined AIは、数年前からそのプラットフォームを開発し、有料の顧客からのフィードバックと検証を受けてきた。そして今彼らは、オープンソースデビューの準備が整ったと言う。もちろん、Apache 2.0ライセンスを使ってだ。

「私たちは、それを選んだ人たちが、あまり多くの助けがなくても、自分自身でそれを使うことができると確信しています」とスパークス氏は言う。

ローカルまたはクラウドのハードウェアを使用して、プラットフォームを自分でホストして、インストールすることもできるが、最も簡単な方法は、AWSやお好みの場所から自動的にリソースを供給して、不要になったら破棄できる、クラウドマネージドバージョンを使うことだろう。

Determined AIプラットフォームが、多くの小規模企業が同意できる基礎レイヤーのようなものになり、結果や標準への移植性が提供されることで、すべての企業やプロジェクトをゼロから始める必要がなくなることが期待される。

今後数年間で機械学習による開発が桁違いに拡大すると予想される中、パイのほんの一部に対してでも取り分を主張する価値はあるが、もし運が良ければ、Determined AIは中小企業にとってAI開発の新たなデファクトスタンダードになるかもしれない。

このプラットフォームは、GitHubまたはDetermined AIの開発者サイトで確認できる。

画像クレジット:Getty Images

原文へ

(翻訳:sako)

より平等な税制を考えるSalesforceの「AIエコノミスト」

税制とは、まさに複雑怪奇なもの。政治に関心を持つ人なら、望ましい税制のあり方について強い意見をお持ちだろう。Salesforce(セールスフォース)のAI研究者は、いつだって間違いなく高度に政治的なプロセスである税制について、人工知能に考えさせるモデルの開発に挑戦している。

SalseforceのAI研究主任Richard Socher(リチャード・ソーチャー)氏によると、同社はAIとビジネスに関するあらゆるソリューションと、それがSalesforceの製品ファミリーの改善にどう役立つかを研究しているが、彼の部署では製品ラインへの応用を超えて、AIをより広範な社会問題の解決に役立てる方法も探っているという。

今の時代の大きな問題に目を向けるとき、とりわけ大きいのが経済的不平等だが、私たちはその解決方法を政策に求める。そこでSalseforceでは、さまざまな経済的変数を精査できる「AIエコノミスト」と同社が呼ぶモデルと、幅広い数々の経済モデルを構築した。そして、AIのパワーを利用し、政策の違いが、経済的不平等と生産性の関係性にどのような影響を及ぼすかを示し始めた。

「私たちは強化学習を使い、最適な課税方法の特定を試みています」とソーチャー氏は言う。それには、モデルの構築が伴う。最初は、資源の売買や家の建築といった基本の経済的インプットを使い、シナリオの違いが不平等にどう影響するかを調べるという、きわめてシンプルなものだ。

同社のウェブサイトに掲載されているQ&Aで、研究チームの一員Stephan Zheng(スティーブン・ジェン)氏は、その仕組みをこう説明している。

AIエコノミストは、税制の違いによって変化する実際の人間の対応をシミュレートするAIエージェントを数多く使っています。それぞれのAIエージェントは資源を集めて販売しお金を儲け、家を建てます。エージェントは、自分の活動、商売、建築の行動様式を調整することで、自身の有用性(つまり幸福)を最大化することを学びます。そのひとつの方法として、たとえば、時給を可能な限り高くして、収入を最大化し労力を最小化するというものがあります。

モデル化は、巨大な経済全体を見渡し、すべてのデータをAIエコノミストに与え、最適なモデルが構築できるようAIの強みを活かす形で行われる。このレベルのデータになると、どんなに有能なエコノミストであっても理解が難しくなるが、そこはAIが大得意とするところ。複雑なデータの集大成を見て、そのすべての情報を使い、人がよりよい判断を下せるように手助けしてくれる。

ゆくゆくは、このモデルがエコノミストや政治家を助けて、より平等な税制を作り出せるようになればと同社は願っているが、個々の政府がそれを作ることも可能だ。

「私たちがここで選択した目的は、生産性と平等性の配合でした。これが、純粋な株主資本主義から平等な利害関係者資本主義への移行の手助けになればと願っています。また、平等性対生産性のスペクトルの中の最適点が見つかることを期待しています」とソーチャー氏は説明している。

これはまだ初期段階だとソーチャー氏も認める試みだが、追々、もうひとつ複雑なレイヤーを加えたいと彼らは考えている。それは初期のゲノム研究に似ていると彼は言う。ゲノム研究では、具体的な結果はすぐには現れなかったが、そのうちCRISPRのようなツールが開発されるようになった。このアプローチが、彼らの最初の研究基盤の上に研究を積み重ねるにつれ、同様の影響を税制に与えるようになると彼は期待している。

「少なくとも私たちのシミュレーション環境では、もっとも広く使われている課税のベースラインよりもさらに最適なポイントを私たちは発見しました」と彼は話していた。

画像クレジット:Ron Miller

 

[原文へ]

(翻訳:金井哲夫)

ソースコードをオートコンプリートするAIプラットフォームCodotaが13億円を調達

スマートフォンとその小さなキーボードのおかげで、今や私たちが文章を書く際には、オートコンプリートがほぼ常識になっている。言いたいことをキーボードが提案してくれるので、作業が少しだけ楽になって、文章を書いて(少なくとも親指が太い私の場合)言葉を修正することで食われる貴重な時間を節約してくれる。だが、人工知能とセマンティック(意味論)分析がこうした形で利用されているのは、電子メールやメッセージを書くときだけではない。本日、コンピューター・プログラムのコーディングの世界にこのコンセプトを採り入れたプラットフォームを開発したスタートアップが、事業拡大のための投資を獲得したと発表した。

Codota(コドタ)は、作業の時間短縮(「生産性が25パーセントまで向上」と同社は主張)と文法と「スペル」の修正を目的に、記述中のコードを行ごとにオートコンプリートしてくれるAIツールを開発したイスラエルのスタートアップだが、e.venturesから1200万ドル(約13億万円)のシリーズA投資を獲得した。このラウンドには、前回の投資会社Khosla VenturesのほかTPY CapitalとHetz Venturesが新規に加わった。同社はこれまでに合計で1600万ドル(約17億万円)を調達したが、企業評価は公表していない。

この資金調達は2018年末(発表は3月になってから)で、Codotaが自社よりも大きな競合相手であるカナダのTabNine買収した直後に確定した。買収の目的は対応するプログラミング言語を増やすためだ。現在のところPython、JavaScript、Java、C、HTMなどを含むすべての主要言語に対応していると同社は話している。またVSCode、Eclipse、IntelliJといった主要な統合開発環境にも横断的に対応しているという。

この資金は、現在の範囲からさらにリーチを広げ、より多くの顧客を獲得するために使われる。今日、Codotaのツールをすでに利用している顧客はそうそうたる顔ぶれだ。Google、AmazonをはじめNetflix、Alibaba、Airbnb、Atlassianなどなど数多くの企業の開発者が顧客リストには含まれている。2019年は顧客ベースが1000パーセント以上に拡大し、月に100万人の開発者が利用しているという。

今回の資金調達のニュースは、Codotaのセマンティック技術とTabNineのテキスト技術を融合させたJavaScript用オートコンプリートの新バージョンをCodotaがローンチした時期と一致していた。

上に示した顧客リストの筆頭であるGoogleとAmazonは特に驚くべき存在だが、Codotaは狙いが定まっていて、現在の行動は正しいようだと彼らも明言している。この2つの企業は、それ自身が巨大AI企業であり、どちらも開発者向けに非常に強力なツールセットを提供している。特にGoogleは、Gmailのために同社が開発したツール群によってオートコンプリートの代名詞ともなっている。

2015年創立のCodotaが注目を集める理由は、共同創設者でCTOのEran Yahav(エラン・ヤハブ)氏によると、他の言語では進歩している意味論の専門家にとってすら、コーディングはそれまで難物だったからだという。

「数年前まで、それは実現不可能なものでした」と彼は話す。さらに、コーディングのオートコンプリートを可能にしたのは、次の4つの技術的な流れが合致したためだという。アルゴリズムに供給できる高品質なオープンソースのソースコードが入手可能になったこと。セマンティック分析が、洞察の抽出を大規模にできるまでに発達したこと。機械学習が発達して機械学習のコストが本質的に下がったこと。すべてをクラウドで処理できる計算資源が、誰でも、どこにいても利用できるようになったことだ。オープンソースが非常に活況となり、その他のすべてのものが一緒に付いてきた。他にも同じ研究をしている企業はあるが、Codotaはこの理想的な嵐をつかんだのだ。

「成功の度合いに違いはあれ、他社でもやっています」ともう1人の共同創設者でCEOのDror Weiss(ドロール・ワイス)氏はいう。「私は推測していますし、実際に知ってもいますが、他の企業も同じことをしています」。その他の企業とはKiteUbisoft、Mozillaなど数多い。

Codotaが構築してきたものの中でも、今、特にタイムリーな一面により正確なコーディング支援を開発者にもたらすと同時に、特定の環境や職場でのベストプラクティスは何かを「学習」する能力がある(個人向けコースと企業向けコースの両方があるが、この機能が提供されるのは企業コースだ)。あらゆる状況で便利に機能するが、とりわけ今の、開発者が家で1人で作業する場面では、あたかも同じ場所で仕事をしているかのように、即座に手助けをしてくれる。

非常に多くのAIが自律システムの考え方に傾いているが、ワイス氏は短期的にもましてや長期的にも、それは目標としていないと強調する。

「開発者に置き換わるものを作れるとは思いませんし、作りたいとも思いません。私たちの目標は、ありふれた繰り返しの側面を取り出して、そこを肩代わりすることです」と彼は言う。その点でいえば、バックオフィス機能におけるロボティック・プロセス・オートメーションと変わらない。「文法やベストプラクティスを覚えることには、それほど高い価値はありません。Smart Composeを使えば、(カスタマーサービスの)例文の提案はしてくれるでしょうが、あなたの心を読んで、あなたの言いたいことを察してまではくれません。なので、あなた自身に置き換わったり、あなたの意図を汲んで応答するといった方向に進む可能性はとても低いのです。そんなことは、私たちは長期目標にすらしていません」。

2019年にe.venturesは、アーリーステージの投資のための4億ドル(約430億円)のファンドを発表した。今回の投資はそこからのもののようだ。このラウンドにともない、e.venturesのジェネラルパートナーTom Gieselman(トム・ギーゼルマン)氏がCodotaの役員に加わった。

「私は開発者用ツールの市場を20年間見てきましたが、Codotaはコミュニティー、製品、テクノロジーの面において独占的なプレイヤーの地位を確立したと信じています」と彼は声明の中で述べている。「ソフトウエア開発を変革して、コーディングを楽にして、企業内のチームを構成する個人開発者の効率を高めるというドロールとエランの使命を支援できることを、私は誇りに思います」。

画像クレジット:Cavan Images / Getty Images

[原文へ]
(翻訳:金井哲夫)

コードを書かずにソフトウェアテストをAIで自動化するAutify、ローンチ半年で導入企業累計100社を突破

オーティファイは4月27日、AIを用いたソフトウェアテスト自動化プラットフォーム「Autify」の導入企業が国内外で100社を突破したことを明らかにした。2019年10月のAutifyのオフィシャルグローバルローンチからの半年での達成で、同社によると「想定よりも早い」実現だったそうだ。

同社は、2019年にTechCrunch Japanが主催した「TechCrunch Tokyo 2019」の「スタートアップバトル」のファイナリスト。応募総数120社超から選ばれたファイナリスト20社の中からファーストラウンドを勝ち抜き、ファイナルラウンドに進出した6社の中の1社だ。また、日本人を含むチームとしてはB2B領域に特化した米国シリコンバレーのアクセラレータープログラム「Alchemist Accelerator」を初めて卒業したスタートアップでもある。

Autifyは、コードを書かずに簡単にテストシナリオを作成・メンテナンスすることができる、ソフトウェアテストツール。コードを書く必要がないので、エンジニア以外でも扱えるのが最大の特徴だ。ソフトウェアテストは、ネット企業では日々発生する業務。ウェブサイトのデザインを少し変更するだけでも、ページ内のボタンの大きさや配置場所、PCやスマートフォンなどの画面サイズ、使用ブラウザーによる見え方の違いなど、さまざまなテストが必要となる。

通常、ソフトウェアテストを実施する場合、エンジニアがチェックツールを自作してテストしたり、日本よりも人件費が安い東南アジアの会社にチェック業務をアウトソーシングするなどしている企業が多い。しかし現在のソフトウェア開発は、計画や設定など工程管理されたウォーターフォール型から、仕様変更が頻発するアジャイル開発が主流になってきており、その仕様変更に迅速に対応するは難しかった。Autifyを使えば、社内での即時テストが可能で、外部に出さないためセキュリティーの面でも安心して使えるメリットがある。

主な導入企業は以下のとおりで、同社は今後も、IT(自社サービス、受託開発)、エンターテイメント、不動産、製造業、金融、ヘルスケア、物流、小売・卸などの業種への導入を促進する考えだ。

想定よりも早い、導入100社突破について同社代表取締役の近澤 良氏は、「オーティファイからの営業活動はほとんどやっておらず、多くはウェブサイトからのデモリクエストから導入が決まった」とのこと。そして「さまざまなツールによる自動化や省力化、契約書撤廃といったオペレーションの効率化が導入企業の増加に貢献したかもしれない」と続ける。

実際に同社では設立当初から、社内における人事関連の処理や社外とのNDA(秘密保持契約)の提携などに印鑑を使わず、DocuSignを用いた電子署名を利用してきた。Autifyはグローバルローンチしていることから、海外とのやり取りにも使えるDocuSignを選んだという。

また、Autifyのローンチ直後はクライアントとの利用契約書を作成して製本捺印をしていたが、双方とも非常に手間がかかっていたことを問題視。弁護士などと相談のうえ、利用申し込みフォームにTypeformを導入し、このフォームにデリバリー条件と利用規約に同意してもらう方式に変更した。これにより利用契約書の撤廃が可能になっただけでなく、署名や捺印自体もなくすことで契約処理を迅速化したのだ。

同社は現在、デモリクエストを申し込んだ企業から順次案内を進めているほか、新型コロナウイルス(COVID-19)の影響による在宅勤務の拡大を受け、現在1カ月無料キャンペーンも実施中だ。

新型コロナウイルス 関連アップデート

Linux VMインフラのパフォーマンスを最適化するGranulateが13億円相当を調達

最近の企業は経費節減にますます熱心なため、その波に乗ってイスラエルのアーリーステージスタートアップGranulateは、インフラストラクチャの使い方を最適化する巧妙な方法を提案しようとしている。同社は米国時間4月22日にシリーズAで1200万ドル(約12億9000万円)を調達した。

このラウンドはInsight Partnersがリードし、TLV PartnersとHetz Venturesが参加した。投資に伴う合意により、Insight PartnersのマネージングディレクターのLonne Jaffe(ロン・ジャフェ)氏がGranulateの取締役会に加わる。Granulateによると、これで同社の調達総額は1560万ドル(約16億8000万円)になる。

同社は、オンプレミスでもクラウドでもインフラストラクチャのコストを20%から最大80%カットできると主張している。現在、世界の経済が大波乱に陥っているため、かなり意義のある節約率となる。

Granulateの共同創業者でCEOのAsaf Ezra(アサフ・エズラ)氏によると、同社はLinux仮想マシンについて徹底的な研究を行なった結果、その効率化技術に到達した。6カ月あまりの実験により、ボトルネックを取り除き、Linuxのカーネルが効率を大幅にアップするためにやっていることの利用の仕方を学んだ。

Linuxはリソースの公平性を目指して最適化をしていることが判明しているが、Granulateの創業者たちはその発想を逆転して、公平性ではなく反復性に着目した。多くのファンクションに公平にリソースを割り当てるのではなく、1つのファンクションに集中させる。

「実際のプロダクションシステムでは、マシンの中に大量の反復性がある。ユーザーは、1つのことをしっかりやって欲しいと考えている」と彼は語る。

またエズラ氏は、VMである必要はないと指摘する。コンテナやKubernetesのポッドで十分だという。ここで忘れてならないのは、Linuxに固有のインタラクティビティや公平性はもはや気にしないということであり、むしろ重要なのは、マシンがある特定のものに向けて最適化されていることだ。

「そのプロダクションシステムのユーティリティファンクションが何かを教えていただきたい。すると我々のエージェントが、そのユーティリティファンクションを用いるすべての意思決定を最適化する。つまり、そういう利益を得るために何一つコードを書き換える必要がない」とエズラ氏は説明する。

しかも、そのソリューションは機械学習を利用して、さまざまなユーティリティファンクションがどのように機能しているかを理解し、長期的にもっとパフォーマンスを向上するためのさらなる最適化を提供する。

InsightのJaffe(ジャフィ)氏は、そんなソリューションのポテンシャルと適時性をよく認識している。

「パフォーマンスの高いデジタル体験とインフラストラクチャの低いコストの両立が今ほど厳しく求められている時代はない。Granulateの機械学習を利用する高度に差別化されたプロダクトは、構成管理やクラウドリソースの購入などのレベルに依存していない」とJ声明で述べている。

エズラ氏も、このようなプロダクトが特に今、役に立つことを理解している。「我々は現在、ユニークな立場にいる。我々のプロダクトは現在、人を解雇せずにコストを節約することによって、沈滞期における企業の生存を助ける」と彼はいう。

同社は2018年に創業され、現在は20名の社員がいる。年内に倍増する予定だ。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa