「AVA Travel」にAIホテルおすすめ機能追加、「エクスペディア」との連携で

AI旅行提案サービス「AVA Travel(アバトラベル)」を運営するAVA Intelligence(アバインテリジェンス)は12月26日、ホテル・航空券の予約サービス「エクスペディア」とシステムを連携し、AIによるホテルの個別提案を開始した。

2019年8月にベータ版としてリリースされたAVA Travelは、ユーザーへの質問をもとに、性格や旅行に求めることを判断。旅行先でのんびりしたいのか精力的に動きたいのか、計画的かそうでないか、旅行中は贅沢に過ごしたいのか安く済ませたいのか、行きたいのは買い物なのか博物館なのか、それともスポーツ観戦なのか、といった条件から、どの都市がおすすめかを提案する。

  1. avatravel_top

  2. avatravel_enquate

  3. avatravel_result_c

今回、エクスペディアとのシステム連携により、AVA Travelのサイト内で航空券やホテルの検索・閲覧が可能になった。また、エクスペディアが取り扱うホテルの中から、AIがユーザーごとのおすすめ順で一覧表示。ユーザーは自分に合ったホテルや航空券を、より短時間で、手間をかけずに見つけやすくなった。

実際にログインした状態で、ホテルの一覧表示を試してみたのだが、エクスペディアのサイトではホテルの数が多すぎて、予算やエリア、設備などの条件をかなり絞り込んで、ようやく選びやすくなるところが、AVA Travelでは都市を選び、宿泊日と宿泊人数だけ入力すれば、ほぼ「こういうところに泊まりたかった」という価格帯や雰囲気のホテルがリストアップされるので、かなり楽に選択できそうな印象を持った。毎回細かい条件まで自分で設定してホテルを選びたい人には、従来のエクスペディアのサイトの方が向いていると思うが、何となく自分に合った宿を手早く見つけたいなら、便利だと思えるのではないだろうか。

AVA Intelligence代表取締役の宮崎祐一氏は、今後、エクスペディア以外のサービスとの連携も順次進めていくと話している。海外の現地ツアーやテーマパークなどが申し込める、アクティビティ体験予約サイトとの連携も予定。また国内旅行の提案についても、来春以降展開できるよう、開発を進めているということだった。

AIが顔、絵師が身体の作画を担当する全身イラスト制作サービス「彩ちゃん+」とは?

ラディウス・ファイブは12月25日、AIの特性と絵師の特性を生かしたハイブリッド全身イラスト制作サービス「彩ちゃん+」(さいちゃんぷらす)の提供を開始した。「彩ちゃん」と名付けられたAIが利用者の好みから複数の顔を瞬時に自動生成し、その中から利用者が選んだ顔に合わせて、人間の絵師が全身のイラストを制作するというサービスだ。AIと絵師が顔と身体の作画を分担することで、一般的なイラスト制作に比べて3分の1の時間や料金で制作できるのが特徴とのこと。

同社はデザインの現場に最適化したAIの開発を進めており、2019年2月にデザイン作業を効率化する各種AIツールを提供するプラットフォームとしてcre8tiveAI、写真やイラストを高解像度化するAI Photo Refinerをリリース。2019年9月には100万種類以上の顔イラストを生成するAIとして彩ちゃんをローンチしていた。彩ちゃん+はこの顔イラスト作成AIである彩ちゃんを活用したサービスとなる。なお身体部分の作画は、国内の有名ゲームタイトルの作画経験のある絵師が担当する。

具体的な流れは、AI(彩ちゃん)が提示する3種類の顔イラストを1つを選ぶと、その系統のさまざまな顔イラストが瞬時に生成・表示されるので、その中から好みの顔を選んでいけばいい。最終的にどの顔にするかが決まったら「確定」ボタンを押して絵師への依頼ステップに移る。

絵師には、AIが作成したイラストをそのまま使うのか、バランスを考えて絵師に修正してもらうか、どういった服装を着せるのか、どういうポーズをとらせるのかなどを答えたあとに発注する。

全身のイラスト制作の最近は3万3000円で、納期は1〜2週間程度。2000×2000ピクセルの
PSD/PSD形式のデータで納品される。なお、喜怒哀楽の表情差分制作(4差分)を依頼する場合はプラス5000円、8000×8000ピクセルの高解像度化はプラス1000円となる。

AIトラベルアシスタントボットのEddy TravelsがTechstars主導のプレシードラウンドを終了

テキストとボイスメッセージを理解するAI(人工知能)を利用したトラベルアシスタントボットのEddy Travels(エディトラベルズ)は、リトアニアのTechstars Toronto、Practica Capital、Open Circle CapitalのVCファンドがリードし、アメリカ、カナダ、イギリスのエンジェル投資家らが参加した約50万ドル(約5500万円)のプレシードラウンドを終了した。

2018年11月にローンチしたEddy Travelsは、全世界で10万人以上のユーザーがいるという。

旅行者はEddy Travelsボットに音声やテキストメッセージを送ることで、最適なフライトのためのパーソナライズされた提案を受けられる。使いやすさのおかげで、現在は月間4万回のフライト検索が行われている。これは主要な旅行ポータルと比べると少ないがFacebook Messenger、WhatsApp、Telegram、Rakuten Viber、Line、Slackなどのチャットアプリで利用できるボットとしては悪くない。

チームは現在、宿泊施設、レンタカー、その他の旅行サービスへの拡大を目指している。Eddy Travelsの検索は、SkyscannerとEmirates Airlineとの提携によって動作している。

Eddy Travelsの創設者はリトアニア出身のEdmundas Balcikonis(エドマンダス・バルシコニス)氏、Pranas Kiziela(プラナス・キジエラ)氏、Adomas Baltagalvis(アダム・ホワイトヘッド)氏で、本社はカナダのトロントにある。

 

[原文へ]

(翻訳:塚本直樹 Twitter

AIが声の調子を理解してカスタマーエクスペリエンスを向上させるOtoが5.8億円を調達

SRI Internationalの研究からスピンオフしたスタートアップのOtoは、声の語調を理解してカスタマーサービスの運営に生かそうとしている。このOtoが米国時間12月18日、シードラウンドで530万ドル(約5億8000万円)を調達したと発表した。

画像:filadendron / Getty Images

このラウンドには、Firstminute Capital、Fusion Fund、Interlace Ventures、SAP.iO、SRI Internationalが参加した。Otoによれば、総額には以前のシードラウンドの100万ドル(約1億900万円)が含まれる。

Otoの共同創業者でCEOのTeo Borschberg(テオ・ボルシュベルク)氏によれば、同社はSRI International社内の研究からスタートした。同社は、後にApple(アップル)のSiriのもととなる技術を開発していた研究機関だ。OtoはSRIの研究に基づいて語調のデータを作成し、カスタマーサービスに電話をかけてきた顧客の感情への対処を向上させようとしている。この分野のAIを活用して、カスタマーサービス担当者と顧客との間のやり取りをリアルタイムで改善することが目標だ。

Otoは研究の一環として、セールスに関する200万圏件の会話から3000人の話者の10万とおりの発言を抜き出してデータベース化した。同社はこのデータから、カスタマーサービス業務で語調を自動で理解するツールをいくつか構築した。

ツールの1つは、ライブコーチングだ。マネージャーがすべての通話をモニタリングすることは難しく、モニタリングできるのはごく一部だ。Otoのツールを使うと、カスタマーサービス担当者はすべての通話のコーチングをリアルタイムで受けることができ、担当者の活力を高めたり、問題をエスカレートさせることなくイライラしている顧客を落ち着かせたりすることができる。「リアルタイムで電話担当者の声の響きや意欲について本人に助言し、担当者がもっと前向きになれるように働きかける」とボルシュベルク氏は説明する。

同氏は、このツールには主なメリットが3つあるという。担当者に対するエンゲージメントの向上、セールスのコンバージョンレートの上昇、顧客満足度の向上とコスト削減だ。

これとは別に、コールが終わるごとに語調からカスタマーエクスペリエンスの質を測定しスコアを算出して、担当者(とその上司)がサービスの結果を知るプロダクトもある。スコアはダッシュボードに表示される。ボルシュベルク氏は「我々は語調から満足度に関して普遍的な理解を構築し、ここから好意的、否定的、そのどちらでもない音の特徴を学習することができる」と言う。

ボルシュベルク氏は、昨年SAPに80億ドル(約8750億円)で買収されたQualtricsのように、こうした市場には巨大なチャンスがあると見ている。人々を調査することはストーリーのほんの一部だと同氏は言う。エクスペリエンスがうまくいっているかどうかの語調を理解すれば、カスタマーエクスペリエンスを向上させることができる。尺度を導入することで、うまくいっているのか、いないのかが簡単にわかる。

Otoには現在20人の従業員がいて、ニューヨーク、チューリッヒ、リスボンにオフィスがある。同社のプロダクトを使っている顧客はこれまでに7社で、まだアーリー段階にあると言える。

[原文へ]

(翻訳:Kaori Koyama)

自然言語処理ライブラリ開発のHugging Faceが約16億円調達

Hugging Faceは、Lux Capitalがリードする投資ラウンドで、1500万ドル(約16億4200万円)の資金を調達した。同社が最初に開発したのは、AIの親友とチャットできるモバイルアプリで、暇を持て余した10代向けのチャットボットの一種だった。このスタートアップは、最近、自然言語処理アプリ用にオープンソースのライブラリをリリースし、大成功を収めている。

A.Capital、Betaworks、Richard Socher、Greg Brockman、Kevin Durantなども、今回の投資ラウンドに参加している。

Hugging Faceが、オリジナルのチャットボットアプリをリリースしたのは2017年初頭だった。同社はそのチャットボットが、カスタマーサポートでも使えるよくできたコマンドライン・インターフェイスである必要はないことを証明したいと考え、それから数カ月の間作業に取り組んだ。

Hugging Faceのアプリでは、デジタルの友人を自ら作り出し、その友人とメッセージのやり取りが行える。アプリはユーザーが考えていることを理解してくれるだけでなく、ユーザーの感情を察知して、その気持ちに合ったメッセージを返してくれる。

このチャットボットアプリ支えている技術は、確かなものだとわかっている。Lux CapitalのBrandon Reeves(ブランドン・リーブス)氏も書いているように、これまでコンピュータービジョンと画像処理に関しては多大な進歩があったが、自然言語処理は遅れをとっている。

Hugging FaceがリリースしたオープンソースのフレームワークであるTransformersは、これまでに100万回以上ダウンロードされた。GitHubプロジェクトとして、1万9000個ものスターを集めている。これはオープンソースのコミュニティが、開発用のパーツとして有用であることを認めている証拠だ。Google、Microsoft、Facebookなどの研究者も、これをあれこれいじり回している。

すでに、Hugging Faceのライブラリを製品に利用している会社もある。チャレンジャーバンクであるMonzoは、顧客サポート用のチャットボットに使っているし、Microsoft Bingでも利用している。フレームワークのTransformerはテキスト分類、情報の抽出、要約、テキストの生成た対話型の人工知能といったものに利用することも可能だ。

今回の投資ラウンドを受けて、同社はニューヨークとパリで従業員を3倍に増やす予定だ。

原文へ

(翻訳:Fumihiko Shibata)

CiscoがFPGAによる超高速ネットワーキングデバイスを開発するExablazeを買収

Ciscoは米国時間12月16日、オーストラリアのExablaze(エグザフレイズ)を買収したことを発表した。この企業は、FPGA(Field Programmable Gate Array)に作り込んだ高度なネットワーキングハードウェアを設計および製造している。特に強い方面は、レイテンシーが極めて低いネットワーキングを必要とする企業のためのソリューションで、主に1日中非常に高い頻度で取り引きをやってるような企業だ。Ciscoは、Exablazeの技術を自己の製品に統合していく計画だ。

Ciscoの企業開発部門のトップであるRob Salvabno(ロブ・サラヴァブノ)氏は「Exablazeのこの分野でトップの超低レイテンシーのデバイスとFPGAベースのアプリケーションが弊社のポートフォリオに加われば、金融やHFT(高頻度取引)の分野の顧客は自己の事業目的を達成しやすくなり、彼らの顧客価値提案を実現できるようになります」と語る。

2013年創業のExablazeは、オフィスがシドニーとニューヨークとロンドンと上海にある。金融取引は同社のソリューションの真っ先に思い浮かぶ用途だが、同社によるとビッグデータの分析やハイパフォーマンスコンピューティング、そして通信の業界にもユーザーがいる。

Ciscoの計画では、Exablazeは同社のデータセンター用スイッチであるNexusのポートフォリオに加わる。また同社によると、Exablazeを現在のポートフォリオに統合することに加え、両社共同で次世代のスイッチの開発に取り組む。そこでは特に、AIやML方面の用途を重視し、新しい需要を開拓する。

Exablazeの共同創業者で会長Greg Robinson「グレッグ・ロビンソン)氏は「この買収によってCiscoのグローバルなリーチと営業力、サポートチーム、幅広い技術と生産ベースに、さらにExablazeの最先端の低レイテンシーネットワーキングとレイヤ1スイッチング、タイミングとタイム同期化技術、そして低レイテンシーのFPGA専門技術が加わることになるのだ」と説明する。

いつも買収を狙っているCiscoは、これで今年の6つめの買収になる。多くはソフトウェア企業だが、Acacia Communicationsの場合は、光相互接続方面のファブレス半導体企業の買収意図を示した。

[原文へ]

(翻訳:iwatani、ak.a. hiwa

機械学習のDataRobotが前処理のPaxata買収、プラットフォーム強化へ

各種の機械学習サービスの自動化がトレンドになっているが、この分野の有力企業であるDataRobotは、機械学習のためのデータを準備するプラットフォームを開発・運営するPaxataを買収することを発表した。買収予定金額などの詳細は明かされていない。Paxataはこれまでに計9000万ドル(約98億4400万円)の資金を調達したと発表している。

DataRobotは現在まで、開発ワークフローのうち主として機械学習とデータサイエンスの分野に注力していた。モデルのデザインとテスト、それに続くシステムの構築等だ。利用するデータの準備はPaxataなどほかのベンダーに任せていたが、このギャップを埋めるため、DataRobotは9月に2億600万ドルの資金(約225億円)を調達している。

DataRobotのプロダクト開発およびカスタマー・エクスペリエンス担当シニア・バイスプレジデントを務めるPhil Gurbacki(フィル・グルバッキー)氏はTechCrunchの取材に対して次のように述べた。

「DataRobotは長年機械学習に集中してきたため、この分野で成果を得ることが可能ないくつかの優れたデータ準備システムが存在することに気づいていた。我々は機械学習モデル構築のためのユニークで実効あるデータ準備を構築することができた。このシステムはDataRobotの知識とノウハウをベースに我々のプラットフォームにPaxataのデータ準備ツールを統合したものだ」。

Paxataの共同創業者でCEOのPrakash Nanduri(プラカシュ・ナンドゥリ)氏は両社は統合に向けた適合性が非常に高いことを認めて次のように述べた。「DataRobotのユーザーはそれぞれにデータ、情報の管理の問題を抱えている一方、Paxataは急速にユーザーを増やし、データから価値を生み出す手助けをすることが可能になる。この統合により、ユーザーにとっての両社の価値は指数関数的にアップする」。

DataRobotがボストンに本拠を置くのに対し、Paxataはカリフォルニア州レッドウッドのスタートアップだ。今後はPaxataはDataRotの西海岸支社を兼ねることになる。両社合計して100人あまりの社員は全員がDataRobotに所属することとなる。

買収によりPaxataはDataRobotプラットフォームに密接に統合されることなるのはもちろんだが、Paxataプロダクトはスタンドアロンのブランドとして従来どおり提供が続くという。

PitchBookによればDataRobotは総額4億3100万ドルの資金を調達している。前述のように最近のラウンドでは2億600万ドルを調達した。このときDataRobotは「適切な対象があれば(この資金で)買収を検討したい」と述べていた。実際、この案件では両社の主力事業が補完関係にあるだけでなく顧客も重複しているためマッチ度は高い。買収手続きは年来にも完了する見込みだ。

画像:Getty Images

原文へ

(翻訳:滑川海彦@Facebook

米国ではアップルとSpotifyのポッドキャストをEchoで聴ける

Amazon(アマゾン)のAlexaがApple(アップル)のポッドキャストを再生できるようになり、Amazonの一連のEchoデバイスは、AirPlayを使わずにアップルのポッドキャストをサポートする最初のサードパーティクライアントになった。これまで、このレベルのサポートはAppleのHomePodだけだった。Amazonによると、これによりAlexa対応デバイスはアップルが保有するの80万件あまりのポッドキャストライブラリにアクセスできることになる。そしてユーザーは、アップルのポッドキャストtをお気に入りに指定できる。

以前にも、最近は両ライバルのパートナーシップが見られるようになっていた。例えばAmazonのFire TVにApple TVアプリが提供されたし、Apple MusicがEchoデバイスFire TVでアクセスできるようになった。そしてAmazonの売り場では、Apple TVやiPad、iPhone、Apple Watchなどのアップル製品を扱うようになった。

Alexa対応デバイスでアップルのポッドキャストにアクセスするためには、Alexaのアプリの中でアップルの自分のIDをリンクする。そして聴きたいポッドキャストをAlexaに指示する。「次」や「早送り」などのプレーヤーコマンドも使える。デバイスを変えても、各エピソードの聴取位置が同期しているので、Alexaの続きをiPhoneで聴くこともできる。

Alexaアプリの設定アップルのポッドキャストをデフォルトに指定すると、Alexaのポッドキャストを要求するだけでアップルのポッドキャストからのストリーミングが始まる。

これに負けたくないSpotifyは、アメリカにおけるAlexa上のポッドキャストのストリーミングのサポートを米国時間12月13日に発表した。Spotify Premiumのユーザーは前からSpotify Connectを使ってEchoへストリーミングできていたが、本日からは米国の無料と有料の両方の顧客がAlexaにポッドキャストを頼めるようになり、Spotifyをデフォルトに指定することもできる。

AlexaのSpotifyポッドキャストのサポートは、シアトルで行われた例年のAlexaイベントでそのほかのニュースとともに9月に発表されていたので、アップルほどのサプライズはない。

そのときAmazonは、米国ではSpotifyのポッドキャストライブラリのサポートを加える。それによりAlexaから数十万のポッドキャストにアクセスできると語っていた。それにはSpotifyの数多い限定版ポッドキャストも含まれるので、それがSpotifyをデフォルトに指定する動機になるかもしれない。

シアトルでの発表の直後、Spotifyは有料だけでなく無料のサービスもAlexaデバイスにストリーミングできると表明していた。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

機械学習により状況に合う音楽をリアルタイムで作るArcona

Arcona MusicはTechCrunch Disrupt Berlinのステージで、状況対応型音楽サービスを披露した。ベルリンにある同社は、機械学習を活用してさまざまな状況に合わせたサウンドトラックをリアルタイムで制作する。ユーザーが数項目のパラメーターを入力するだけでサービスがそれに合わせる。

共同創業者のRyan Groves(ライアン・グローブズ)氏はTechCrunchに対し、次のように説明した。「スタイル、気分、音楽のテーマを入力し、『これを再生して』と言うだけだ。するとエンジンがその状況を設計として把握し実現する。気分やスタイルが変わったらいつでも、エンジンはそれに対応し、基本的には無限に音楽をストリーミングする。環境が変化しても、特定の曲の設計を必要なだけ再生できる」。

現時点では、このサービスはまだ始まったばかりだ。フルタイムのスタッフは創業者の2人だけで、あとはパートタイムの開発者が1人いる。グローブズ氏と、もう1人の共同創業者のAmélie Anglade(アメリ・アングラード)氏が会社を立ち上げ、資金調達はまだしていない。

グローブズ氏は作曲と音楽理論の専門家で、以前はAIベースの作曲サービスで人気のDittyで仕事をしていた。アングラード氏はSoundCloudで働いていた、音楽情報検索のスペシャリストだ。

このサービスを活かせるのは、まず人気ジャンルであるリズムゲームだ。リズムゲームには変化するサウンドトラックが使われていて、音楽の事前のプログラミングが最小限で済むならメリットがあるだろう。ほかにも幅広い分野で可能性がある。

グローブズ氏は「相当長期的に見れば、このサービスはARやGPSなどあらゆるものを活用して自分専用のパーソナルオーケストラとなり、環境に応じた音楽を聴けるようになるだろう」と語った。

[原文へ]

(翻訳:Kaori Koyama)

機械学習モデルのパフォーマンスをモニタリングするArthurが約3.6億円調達

機械学習は複雑なプロセスだ。まずモデルを構築し、実験室の条件でテストしてから、世界に公開する。だがその後、そのモデルが意図した動作にどのくらい従っているのかをモニターするにはどうすればいいだろうか?Arthurはそこを助けようとする企業だ。米国時間12月11日にステルス状態から浮上し、現場で実際に使われている機械学習モデルをモニタリングするプラットフォームを公開した。同社はまた、8月に330万ドル(約3億5800万円)のシードラウンドを行ったことも発表した。

画像クレジット: Vladyslav Bobuskyi / Getty Images

ArthurのCEO兼共同創業者であるAdam Wenchel(アダム・ウェンチェル)氏は、ArthurはNew RelicやDataDogのようなパフォーマンスモニタリングプラットフォームに似ているが、システムの稼働状況をモニタリングするのではなく、機械学習モデルのパフォーマンスを追跡するだと言う。

「私たちはAIをモニタリングし説明能力を引き出す企業です。つまり、実稼働環境に置かれたモデルが軌道を外れておらず、何をしているかを説明できるようにモニタ可能にするということです。パフォーマンスが悪くなく、完全に偏っているわけではないこと。モデルがうまくいかなくなる可能性をすべてモニタリングするのです」とウェンチェル氏は説明する。

データサイエンティストたちはラボの中で機械学習モデルを構築しテストを行うが、ウェンチェル氏が言うように、そのモデルがラボの制御された環境を離れてしまうと、多くの問題が発生する可能性があり、それを追跡することは困難なのだ。「モデルはラボの中では常に良好に機能しますが、現実の世界でモデルを使用すると、多くの場合、パフォーマンスが低下します。実際、常に低下すると言っても過言ではないでしょう。そのため、測定とモニタリングをする能力が、本当に求められているのです」と同氏。

興味深いことにAWSは先週、SageMaker Studioの一部として新しいモデルモニタリングツールを発表した。またIBMも、今年初めに Watsonプラットフォーム上で構築されたモデル向け の同様のツールを発表したが、ウェンチェル氏は、Arthurの製品はプラットフォームに依存していないので、大企業が参入してくることは彼の会社にとって有利になるだろう述べている。「スタック全体で同等に機能する、モニタリングのための中立なサードパーティツールがあることには、大きな価値があります」と語る。

シード調達は、Work-Bench とIndex Venturesが共同で主導し、HomebrewのHunter Walk(ハンター・ウォーク)氏、AME VenturesのJerry Yang(ジェリー・ヤン)氏などが参加した。

Work-BenchのゼネラルパートナーであるJonathan Lehr(ジョナサン・レア)氏は、多くの可能性を秘めた会社として見ている。「私たちはFortune 1000企業の機械学習責任者と定期的に話し合っていますが、よりデータ駆動型に進む彼らの最大の関心事の1つが実稼働におけるモデルの振舞いなのです。Arthurプラットフォームは、AIのモニタリングと透明性に関して、私たちがこれまで見てきた中では最高のソリューションです」とのこと。

ニューヨークに拠点を置く同社は、現在10人の従業員を抱えている。2018年に発足して以来、彼らはこの製品の開発に真剣に取り組んできた。本日をもって製品が公にリリースされた。

原文へ

(翻訳:sako)

Googleの機械学習がスマートデバイス上で天気と気温に応じたアラームを即興

Lenovo(レノボ)のSmart ClockやAmazon(アマゾン)のEcho Show 5などのスマートディスプレイが登場すると、まず実装されるのが目覚まし時計の機能だった。Lonovo、Amazon、Googleなどはそれぞれ機能やデザインに工夫を凝らしている。

米国時間12月10日の朝、Googleはスマートディスプレイの目覚まし時計に新しい機能を付け加えた。これはImpromptu(即興演奏)と呼ばれるアラームメロディーのカスタマイズ機能で、機械学習アルゴリズムが天気や設定時刻などの情報を利用してその状況にふさわしいアラーム曲を作る。

ちなみに下が気温10℃のときの早朝向けのアラームだ(クリックで再生)。

ガーシュインのピアノ風だが、目覚ましサウンドとしては悪くなさそうだ。

本日朝に公開されたGoogleのブログ記事によれば、このカスタムリングトーンは同社のオープンソースAIプロジェクトであるMagentaを利用したものだという。

MagentaはGoogle Brainのチームがスタートさせた作曲、作画のためのプロジェクトだが、もちろんGoogleの他の部門のエンジニアも多数が協力し、重要な貢献をしてきた。.

我々は作曲、画像処理、描画などさまざまな分野でディープラーニングと機械学習のアルゴリズムを新たなレベルに強化している。その一環がアーティストやミュージシャンが利用できるモデルをスマートツールとそのインターフェイスで構築することであり、ツール、モデルとも(オープンソースの)TensorFlowライブラリに登録され、GitHub上で公開される。

新機能は本日公開される。

原文へ

(翻訳:滑川海彦@Facebook

NFLとAWSが機械学習の活用で頭部のケガを減らす取り組みを開始

米国ラスベガスで開催されたAWS re:Inventで、NFLのRoger Goodell(ロジャー・グッデル)コミッショナーはAWSのAndy Jassy(アンディ・ジャシー)CEOとともに登壇し、今後両者は機械学習を活用して頭部のケガの減少に取り組むことで協力していくと発表した。

画像:Ron Miller/TechCrunch

ジャシー氏はこの発表について「新たな戦略的パートナーシップを発表でき、たいへん嬉しく思う。このパートナーシップは、クラウドコンピューティング、機械学習、データサイエンスを組み合わせて、選手の健康と安全に寄与するものだ」と述べた。

NFLフットボールは大柄な選手たちがプレイする、スピードがあり危険なスポーツだ。ケガは日常茶飯事だが、NFLは特に大きな問題である頭部のケガを減らしたいと考えている。2017年の研究で、死亡した111人のNFLプレイヤー経験者のうち110人は慢性外傷性脳症(CTE)と診断されていたことがわかっている。

NFLにはプレイヤーに関する膨大なデータがあり、機械学習を行いやすい。数十年分のプレイを収めたビデオもあり、頭部を守るヘルメットの設計に役立つ有意義なシミュレーションができるだろう。また、アメフトにつきものである脳しんとうのリスクを減らせるようにルールの変更も進められる。

グッデル氏は、NFLにはデータは十分にあるがそれを生かす専門知識が不足していると認めている。そこでこのパートナーシップの出番だ。同氏は「パートナーとNFLとでゲームを変えていくような関係を結べることはほとんどない。このパートナーシップにとても期待している」と語る。

NFLの健康・安全イノベーション担当エグゼクティブVPのJeff Miller(ジェフ・ミラー)氏は、NFLはここ数年、試合中の頭部のケガを減らすさまざまな取り組みをしており、このパートナーシップはそのひとつだと語る。ミラー氏は今回の発表に関して「およそ3年半前、NFLは『エンジニアリング・ロードマップ』というプロジェクトを始めた。これはオーナーたちから数十億ドルの支援を受けて、フィールドで起こる脳しんとうの影響を研究し、頭部のケガを減らしたり、ヘルメット業界を進化させたりする取り組みだ」と述べた。

NFLエンジニアリング委員会のJeff Crandall(ジェフ・クランドル)委員長は、この取り組みには3つの柱があると述べている。1つ目は、フィールドで何が起きるのか、とりわけ誰がなぜケガをするかを把握すること。2つ目はそのデータをヘルメット業界と共有して、より安全性の高いヘルメットを作ること。そして3つ目はヘルメット業界に安全性の高いヘルメットを作るよう奨励することで、そのためにNFLは300万ドル(約3億2600万円)のヘルメットチャレンジ賞金を設けた。

AWSは、機械学習のツールセットとNFLが持つデータを連携させることで協力していく。AWSのAI担当バイスプレジデントであるMatt Wood(マット・ウッド)氏は、データがそろっていることは大きなアドバンテージであり、これらをデータレイクに入れAWS SageMakerのツールセットを使うことで、NFLが持つデータが理解でき、安全策を生み出せると語る。

頭部のケガがどのように発生するのか、激しい競技で可能な限りケガを防ぐにはどうすればいいのかを知ることに加えて、すべてのケガを減らせる安全性の高い器具をデザインし、ルールを変えるのが狙いだ。データを活用し機械学習のツールと組み合わせることで、こうした狙いを実現できるかもしれない。

[原文へ]

(翻訳:Kaori Koyama)

AIの能力をテストするために作られた16種のゲーム

AIが得意とするところを把握するのは、AIを理解する上で最も難しいことの1つ。それを判断できるようにするため、OpenAIは1セットのゲームを開発した。機械学習エージェントが、本当に基本的なスキルを学べているのか、あるいは、ありがちなことだが、単に自分の都合のいいようにシステムを操作する方法を把握しただけなのか、研究者が判断するのに役立つもの。

AI研究ではよくあることで、ぬか喜びしがちなのだが、研究者が求めていることなら、何でもうまくできると見せかけようとして、エージェントがルールを曲解したり、無視したりすることがある。ズルをすることは、既成概念を打ち破るものであるかもしれないが、常に受け入れられるとは限らない。本当の能力を確認するには、ちょっとだけルールを変えて、そのシステムが機能しなくなるかどうか見てみればいい。

実際にエージェントが学んだことは、新たな状況に置かれたときにも、その「スキル」が適用できるかどうかを調べることによって評価できる。状況が変われば、獲得した知識の一部しか適合しなくなるからだ。

たとえば、AIがマリオのようなゲームの遊び方を学んだかどうか判断したいとしよう。右方向に移動しながら障害物を飛び越えるタイプのゲームだ。その場合、左に移動しなければならないようにしたり、障害物の順番を変えたりと、いろいろ状況を変更してみればいい。あるいは、ゲームの中身も変更して、右に進むとモンスターが登場して、AIが攻撃しなければならないようにしてもいいだろう。

もしエージェントが、このようなゲームの遊び方を本当に学んだとすれば、まったく新しいものよりもずっと速く、変更後のゲームの遊び方を習得できるはず。これは「汎化」と呼ばれ、既存の知識を新たな異なる状況に適用するもの。人間なら常にやっていることだ。

OpenAIの研究者は、研究の過程で、こうした状況に何度も遭遇した。そこで、汎化可能なAIの知識を基本レベルでテストできるよう、一種のAIアーケードを設計した。エージェントは、少しずつオーバーラップしつつも、それぞれ異なるゲームのコンセプトを学習したことを証明しなければならない。

彼らが設計した16種類のゲームは、パックマン、スーパーマリオブラザーズ、アステロイドなど、私たちにも馴染みのあるゲームに似ている。違うのは、AIがプレイすることを意識して、最初から作り直されていること。そのため、操作、得点、グラフィックはシンプルなものとなっている。

それぞれが、AIの能力にとって異なるタイプの負担を課す。たとえば、あるゲームでは、数秒間じっと止まってゲーム環境を観察していても、特に支障はないかもしれないが、別のゲームでは、そんなことをしていてはエージェントを危険にさらすことになるかもしれない。またあるゲームでは、AIは周辺まで探検しなければならないが、別のゲームでは、1つの大きなボスの宇宙船に集中すべきかもしれない。しかし、そうした違いは、それぞれ明らかに異なるゲームとして作り込まれている。もちろん多少の違いはあるものの、アタリのゲーム機やファミコン用のゲームと似たところもある。

下のGIFで確認できる16種類のゲームは、左上から右下に向かって順に挙げると、以下のようなもの。

  • Ninja:爆弾を避けたり、手裏剣を投げて迎撃しながら忍者をタワーに登らせる。
  • Coinrun:トラップやモンスターを避けながら進んで、面の右端でコインを獲得する。
  • Plunder:画面の下部から砲弾を発射し、味方の船に当たらないよう敵の船を攻撃する。
  • Caveflyer:アステロイドと同じようにコントロールして洞窟内を移動し、障害物を避けながら敵を撃つ。
  • Jumper:ダブルジャンプするウサギと、ゴールの方向を示すコンパスがあるオープンワールドタイプのプラットフォーム型ゲーム。
  • Miner:土を掘ってダイヤモンドと岩を手に入れる。アタリ製ゲームのような重力が働いている。
  • Maze:さまざまなサイズの、ランダムに生成された迷路をナビゲートする。
  • Bigfish:自分より大きな魚に食べられないよう注意しながら、小さな魚を食べて自分が大きくなる。
  • Chaser:パックマンのようにドットを食べ、戦略的にパワーアップのペレットを取って敵を食べる。
  • Starpilot:敵の弾を避けながら素早く敵の宇宙船を破壊するグラディウスのような撃ち合いゲーム。
  • Bossfight:再生可能なシールドを備え、ランダムに攻撃してくるボス宇宙船と1対1で戦う。
  • Heist:錠と同じ色の鍵を取ることで迷路をナビゲートする。
  • Fruitbot:他のモノを取らないように注意しながら果物だけを集めて、次のレベルに進む。
  • Dodgeball:壁に触れないように部屋を動き回り、他の人の投げたボールに当たらないようにしながら、他の人にボールをぶつける。
  • Climber:星を集めながらモンスターを避けつつ、上のステージに登っていく。
  • Leaper:車や丸太などを避けながら道路を横断するフロッガータイプのゲーム。

AIは、Heist、Maze、Chaserなどのようなグリッドベースのもの得意としても、Jumper、Coinrun、あるいやBossfightのようなものは苦手だと想像できる。そうした傾向は人間と同様かもしれない。それぞれのゲームが、異なるスキルを要求するからだ。ただし、共通するものもある。相手の動きの特徴を把握したり、動いているオブジェクトには意味があることや、画面の特定の領域には入ることができない、といったことを理解する能力だ。即座に汎化して適応できるAIは、汎化がうまくできないAIに比べて、どんなタイプのゲームでも、短時間でマスターする方法を学習できるはずだ。

このようなゲームの1セットと、それに対するエージェントのパフォーマンスを観察して評価する手法は、ProcGenベンチマークと呼ばれている。というのも、ゲームの環境や敵キャラの配置が手続き的に生成される(Procedurally Generated)からだ。このプロジェクトのGitHubページを開けば、より詳しい情報と、自分用のAIテスト環境のビルド方法が解説されている。

原文へ

(翻訳:Fumihiko Shibata)

なぜAWSはMIDIキーボードを売って機械学習を教えようとするのか

今週の初めにAWSは、AIを勉強して音楽を作るウェブ上の一連のツールと、メロディーを入力するための99ドルのMIDIキーボードを組み合わせたDeepComposerをローンチした。しかしそのローンチはかなりの混乱を招いたので、私たちはAWSのAI DevicesグループのディレクターであるMike Miller(マイク・ミラー)氏に会って、DeepComposerが同社の一連のAIデバイスの中でどんな位置づけになるのかを聞いてみた。そのほかのAIデバイスとしては、DeepLensカメラAIカーのDeepRacerなどが挙げられるが、どちらも、AIの特定のコンセプトをデベロッパーに教えることが目的だ。前者は画像認識、後者は強制学習に特化している。

まず重要なのは、DeepComposerが学習ツール(教材)であることだ。ミュージシャンではなく、生成AIについて学びたいエンジニアが使う。「世界初のデベロッパーのための機械学習対応の音楽用キーボード」というAWSの説明はあまり理解の助けにならないが、キーボードそのものはごく普通のMIDIキーボードだ。それ自身に人工知能はない。AIの仕事はすべて、クラウドで行われる。

ミラー氏は「目標は生成AI(Generative AI)を、機械学習の最近10年間の最も興味深いトレンドとして教えることだ。具体的にはそれはGANs(Generative Adversarial Networks、敵対的生成ネットワーク)のことで、2つのネットワークが一緒に訓練される。我々から見て興味深いのはそれが極めて複雑で、デベロッパーが2つを一緒に訓練するとき、機械学習のモデルの訓練に関するいろんな要素が絡み合っているからだ」と語る。

DeepComposerを使ってデベロッパーは、学習の基礎的な過程を一歩一歩学んでいく。キーボードから単純なメロディーを入力できるが、実際はそれをする必要はない。画面上のキーボードから第九交響曲の歓喜の歌などのデフォルトのメロディーを入れてもいい。そしてデベロッパーが曲調を指定すると、そのメロディーに合った伴奏をシステムが生成する。物事を単純化するためにこのシステムは、曲の速さや音の強弱など一部の要素を無視する。だからこれは、ミュージシャンが使う楽器ではない。しかしもっと重要なのは、デベロッパーが、システムが生成したモデルを調べられることだ。それらをJupyter Notebookにエクスポートすることもできる。

DeepComposerの目的にとってMIDIデータは、デベロッパーにGANsとSageMakerについて教えるためのデータソースの1つにすぎない。後者のSageMakerは、楽屋裏でDeepComposerを動かしているAWSの機械学習プラットホームだ。

ミラー氏によると「MIDIファイルを訓練用に使うことの利点は、訓練に使うデータの表現が、画像などの中のデータ表現と同じ形式であることだ。だからとても使いやすく(画像などとの)類似性がある。デベロッパーがSageMakerのnotebookを見てデータのフォーマッティングとその渡し方を理解すると、それを他の分野にも応用できる」とのこと。

そこでこのツールは、損失関数やアナリティクス、そして受容できる結果を得ようとしてトライしたときのさまざまな結果など、あらゆる生データを露出する。当然ながら音楽を作る道具でもあるので、ピッチや空の小節など、音楽に関するデータも露出する。

「デベロッパーはSageMakerのモデルを学ぶと思うので、音楽ではない他の分野への応用でも、自分で比較的楽にモデルを作れるようになるだろう」と同氏は語る。

これまでの結果を聴いたかぎりでは、DeepComposerからヒット曲が生まれることはないだろう。ドラムスのトラックは上手だが、ベースラインにはエラーがある。でも、機械学習のテクニックのデモとして見ればなかなかクールだ。個人的感想としては、DeepRacerほどの人気者にはならないだろう。DeepRacerは単純明快だから、多くのデベロッパーが気に入りそうだ。それに対し楽器の演奏は、苦手な人は苦手だろう。

追加記事提供:Ron Miller

関連記事
AWSが開発者向けの機械学習キーボード 「DeepComposer」 を発表
Why AWS is building tiny AI race cars to teach machine learning(なぜAWSは機械学習を教えるために小さなレースカーを作るのか、未訳)
AWSが機械学習のためのミニレースカー「DeepRacer」をアップデート
Amazonが開発者たちに機械学習を教えるために、縮小版自動運転車を発表

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

将棋AIのHEROZが東証マザーズから東証一部/二部に市場変更、B向けサービスがC向けを上回る

HEROZは12月6日、同社株式の上場市場を東京証券取引所マザーズから東京証券取引所市場第一部または市場第二部へ市場変更することを明らかにした。

同社の2020年4月期を決算日とする第2四半期決算で、売上高7億5700円(前期比+17.2%)、EBITDA2億7500万円(前期比+15.2%)となり、第2四半期累計でAI(BtoB)サービスの売上がAI(BtoC)サービスを上回っている。

SMBC日興証券との継続的なAI技術の活用に向けて業務提携契約も発表。HEROZのディープラーニングなどの機械学習技術をSMBC日興証券の新たな金融サービスの開発および業務効率化に適用していく。具体的には、AIを活用した新たな金融サービスの開発とリテールなど各種業務の生産性の向上を目指す。

詳細は追って記載する。

東大とソフトバンクが共同で本郷と竹芝にAI研究所を開設、10年間で200億円規模を投資

東京大学とソフトバンクは12月6日、Beyond AI研究所の開設および研究成果の事業化に向けた取り組みに関する協定を提携したことを発表した。ソフトバンク本体やそのほかのグループ会社で10年間で200億円規模の取り組みを目指す。

2020年春ごろを目標に基礎研究領域の研究所を東大本郷キャンバス、2020年冬ごろを目標に応用研究領域の研究所をソフトバンクの竹芝新オフィスにそれぞれ設置する。メンバーは150人ほどになる。なおソフトバンク内には40人ほどの候補がおり、研究所の入所を働きかけていくという。

具体的な取り組みとしては、東大と海外有力大学の世界最高レベルの最先端AIの研究を進めていくほか、新たなジョイントベンチャーを制度を活用して研究成果を事業化していくとのこと。ベンチャーの創出については、ソフトバンク系でAI関連の事業に投資しているディープコアと、東京大学協創プラットフォーム開発、東京大学関連ベンチャーキャピタルとも連携する。

詳細は追って記載する。

GoogleのAI音声認識の自動文字起こしがPixel 3/3aでも利用可能に

Pixel 4が発表された10月のGoogleのハードウェアイベントで強く印象に残ったデモが、AI音声認識を利用した自動文字起こしアプリだ。このRecorderアプリは最新のAIテクノロジーを利用してユーザーの音声を聞き取り、リアルタイムでテキストを生成するもので驚くほど誤りが少なかった。残念なことにこの時点ではRecorderは新しいPixel 4専用のアプリだった。

Android Policeが発見したところによれば、RecorderはPixel3/3aなど以前のPixelデバイスのユーザーにも利用可能になっているという。このアップデートは米国時間12月5日に行われたもようで、Sensor Towerも確認している。ただしGoogleからの告知がなかったため、ダウンロード数はまだ1000回以下だ。

voice recorder

GoogleではRecorderアプリを広い範囲で利用可能にするつもりだと以前から明らかにしていた。最近のRedditのスレッドで、Googleの担当者は「今後のアプリのアップデートでさらに広い範囲のPixelユーザーが利用できるようになる」と述べていた。ただし日時については明らかにしなかった。

ボイスレコーダーは無数に出回っているが、リアルタイムで文字起こしができるアプリは非常に少ない。Otter.aiのように文字起こしをサポートする場合でも、結果には間違いが多く意味が取りづらい文章になっていた。ただ正確性を欠くにせよ、長い録音で目的の箇所を検索するには文字起こし機能は便利だった。

Googleの10月のイベントのデモではRecorderアプリの文字起こし精度は従来のアプリとは比べて非常に高かった。もちろんこの時点ではまだ一般公開されていなかったわけで、異なる声質、訛り、背景雑音であっても精度を維持できるかどうかは不明だった。また発言者を区別してマーキングする機能がなかった。これは会議やインタビューなど発言者が複数となる録音では重要な機能だ。

そういう問題はあっても当初のテストは成功で、ウォールストリートジャーナルのJoanna Stern(ジョアンナ・スターン)氏のレビューは好意的だった。ただし話し方によって多少の問題があったようだ。他のレビューでもデザインに多少問題はあっても機能は強力だという評価が多かった。TechCrunchのPixel 4のフルレビューでも文字起こし機能がテストされており、Brian Heater(ブライアン・ヒーター)記者は高い点数を与えている。

pixel voice recorder

まだ多少の欠点はあるにせよ、Recorderがライバルに比べて大きく有利なのはオフラインで作動可能だというだ。録音、文字起こしはすべてデバイスのアプリ内で完結する。ユーザーが明示的に転送しない限りデバイスの外に内容が漏れることはない。これはセキュリティ上非常に重要な要素となるが、同時に飛行機の中や屋内で携帯網に接続できない状態でも利用できることを意味する。

また組み込まれている「高度な検索」機能を利用すると特定の単語、フレーズ、音を検索キーにできる他、録音中のどの箇所で発言されたのかも表示されるので再生したい場所に素早くジャンプできる。

Googleはリアルタイム音声認識、文字起こしの機能をこれまでさまざまな場所で利用してきた。例えば、Live CaptionはYouTubeの字幕生成機能に似ているが、ユーザーのAndroidデバイスに保存されたビデオやオーディオのファイルからリアルタイムで字幕を起こせるテクノロジーだ。

Recorderアプリは無料でGoogle Playからダウンロードできる。

我々はGoogleに「Pixel以外のAndroidデバイスでRecorderを利用できるようにする計画があるか?」と問い合わせているが、まだ回答がない。

【Japan編集部追記】アプリは上のリンクからPixel 3にインストールできる(Pixel 3のPlay Storeから検索しても表示されない)。インターフェイスは日本語化されており、録音も正常にできる。なお、自動文字起こしも英語では非常に高精度で実行されたが、日本語音声にはまだ対応していないようだ。

原文へ

(翻訳:滑川海彦@Facebook

初めての電池駆動Echoスピーカーがインド限定で発売

Amazonはインドでこの2年間にEchoスピーカーの10種を超える機種を発売してきたが、米国時間12月4日の発表では、今度はこの国で最も要望の多かった機能を実現した機種を新発売する。その機能とは、ポータビリティと携帯性だ。

本日発表された新機種のEcho Input Portable Smart Speaker Editionは電池を内蔵する。その4800mAhの内蔵バッテリーは、音楽の再生なら最大10時間、待機モードなら11時間を持ちこたえる。

Alexaデバイス担当副社長であるMiriam Daniel(ミリアム・ダニエル)氏は「ポータビリティはインドでリクエストが最も多い機能だった。自分の家の中でも、AIアシスタントAlexaを部屋から部屋へと持ち運びたいのだ。そこで今回、そんな人たちのための製品を設計した」と語る。

同社によると、Echo Input Portable Smart Speaker Editionという超長い名前のデバイスは、ハードウェアのアーキテクチャはEcho Inputと同じとのこと。それは、昨年発売されたスピーカーのないEchoだ。

そのバッテリーで動くEchoはインド専用に設計された。お値段は5999インドルピー(約9100円)だ。今は新発売記念で4999インドルピー(約7600円)で発送は12月18日からになる。

バッテリーパックを内蔵していること以外の機能は変わらない。およそ30000種のAlexaスキルにアクセスできることも従来の室内用と同じ。Alexaの音声アシスタントをサポートすることも同じ。違うのは4つのLEDでバッテリーの充電状態が分かることだ。

Echoスピーカーがインドで何台売れたかをAmazonは公表していないが、インドが重要な市場であることは表明している。9月に行われたカンファレンスでAlexaのAIを担当している副社長で上級サイエンティストのRohit Prasad(ロヒト・プラサード)氏が、「インドにおけるAlexaの採用は驚異的」ととコメントした。

インドに50億ドルあまりを投資しているAmazonは、他の多くの国際企業と同様、その13億人の人口が世界最大の市場になることに賭けている。そして市場を勝ち取るためには製品とサービスのローカライゼーションが欠かせない。9月には、Alexaのヒンズー語サポートが発表され、訴求対象を一気に拡大した。Amazonの役員によると、しかしこのバッテリーバージョンのスピーカーは他の市場でも売りたいそうだ。

[原文へ]

(翻訳:iwatani(a.k.a. hiwa

AWSが機械学習を利用する企業向け検索ツール「Kendra」を発表

12月3日に開催されたのre:InventでAWSは、Kendra(ケンドラ)と呼ばれる新しい検索ツールを発表した。機械学習を利用してコンテンツのさまざまなリポジトリーを自然言語で検索する。

AWSの人工知能担当副社長であるMatt Wood(マット・ウッド)氏によると、この検索ツールは機械学習を使うけど、ユーザーは機械学習の専門知識をまったく必要としない。その部分は、ボンネットの下に隠されたままだ。

ユーザーはまず、コンテンツのリポジトリーを指定する。それはS3のストレージでもOneDriveでもSalesforceでも何でもいい。AWSは既製のコネクターをいろいろ提供しているので、ユーザーは自分の認証情報でAWSにアクセスし、これらのさまざまなツールに接続できる。

Kendraは自分が接続されたリポジトリーに見つけたコンテンツのインデックスを作り、ユーザーは自然言語のクエリを使ってこの検索ツールとの対話を開始できる。このツールは時間などの概念を理解するので「When is the IT Help Desk is open」(ITのヘルプデスクはいつオープンしているか)と質問すると時間であることを理解し、正しい情報をユーザーに渡す。

この検索ツールがすごいのは、機械学習を使っているだけでなく、ユーザーのフィードバックから自動的に学習して、良い回答と改良を要する回答を見分けられることだ。フィードバックは、笑顔や悲しい顔などの絵文字でもいい。

この検索ツールをセットアップしたら、会社のイントラネットに検索機能を持たせたり、アプリケーションの中で使ったりできる。タイプアヘッド(先行入力、候補文字をユーザー入力よりも前に表示する能力)など、検索ツールにあるべき機能はほぼそろっている。

[原文へ]
(翻訳:iwatani、a.k.a. hiwa

AWSが開発者向けの機械学習キーボード 「DeepComposer」 を発表

米国時間12月2日、Amazon(アマゾン)はデベロッパーカンファレンスであるAWS re:Inventの開始とともにDeepComposerを発表した。

「AWS DeepComposerは、32キー、2オクターブのキーボードで、独自かあるいは訓練済みのモデルに関わらず、開発者がGenerative AIを体験できるように設計されている」と、AWSのJulien Simon(ジュリアン・サイモン)氏はAmazonの最新の機械学習ハードウェアを紹介するブログ記事で書いている。

このキーボードは、開発者が機械学習について楽しく学べるだけでなく、音楽を作ることもできる。また、人工知能で創造的な作品を生み出すことを「生成的ネットワーク」と呼ぶ。つまり、「生成的かつ敵対的なネットワーク」を使って、創造的なものを生み出すように機械に教えることができるのだ。

「開発者はMLや音楽の経験に関わらず、生成的かつ敵対的なネットワーク(GANs)から始めることができる。この生成的AIの技術では、2つの異なるニューラルネットワークを互いに比較し、サンプル入力に基づいて新しいオリジナルのデジタルワークを生成する。AWS DeepComposerを使えば、GANモデルをトレーニングして最適化し、オリジナルの音楽を作ることができる」と、アマゾンは述べている。

開発者は独自の機械学習モデルをトレーニングしたり、あるいはアマゾンが提供するモデルを使って学習を始めることができる。どちらの方法でも、モデルに基づいて音楽を作成し、AWSクラウド上のDeepComposerコンソールで微調整してから、音楽を生成する。必要であれば、完成した作品をSoundCloudで共有することもできる。

これは、2017年に導入されたDeepLensカメラや昨年導入されたDeepRacerレーシングカーに続き、Amazonからの3番目の機械学習の指導装置だ。なお、デバイスはまだ準備できていないが、アマゾンはユーザーがプレビューにサインアップできるようにしている。


[原文へ]

(翻訳:塚本直樹 Twitter