埼玉工業大学が世界で初めて水陸両用船の無人運転技術を開発、八ッ場あがつま湖で実証実験

八ッ場ダム無人運航船の入水シーン

八ッ場ダム無人運航船の入水シーン

埼玉工業大学は3月22日、群馬県八ッ場あがつま湖にて、群馬県長野原町が所有する水陸両用船「八ッ場にゃがてん号」を使った自動航行の実証実験(3月14日実施)に参加したと発表した。陸上から入水し、障害物を避けながら水上を航行、再び上陸する一連の自動運航を成功させた。水陸両用船の無人航行の実証は世界初となる。

無人運航の実証実験を行った水陸両用船「八ッ場にゃがてん号」(全長11.83m、総トン数11トン)

無人運航の実証実験を行った水陸両用船「八ッ場にゃがてん号」(全長11.83m、総トン数11トン)

埼玉工業大学は、ITbookテクノロジーとの共同研究により、自動運転・自動運航が可能な水陸両用バスのためのソフトウェアとシステムを設計・開発。同実証実験は、長野原町所有の水陸両用船「八ッ場にゃがてん号」にその成果である自律航行システムを搭載して行われた。航行距離は約2km、所要時間は約30分だった。

入出水と水上航行での経路追従のための位置推定には、高精度GNSS(全球測位衛星システム)とジャイロを利用。自動運転には、自動運転システム用のオープンソースソフトウェア「Autoware」を使用し、そのモデル予測制御に船舶モデルを導入。水上と陸上の高精度な経路追従を実現した。障害物の自動検知と回避は、LiDAR、カメラ、ソナーとAutowareの深層学習アルゴリズムを組み合わせて行っている。車用と船用の制御装置を同時制御することで「船舶と車両の自動切り替えもスムーズに行えるシステム」を開発したとのことだ。

無人運航船の運転席

無人運航船の運転席

自動運転バスの研究を行っている埼玉工業大学は、すでに2台の自動運転バスを開発し、公道での営業運行を行っている。ITbookテクノロジーとの共同研究では、その経験を活かして水上の自動運航技術の開発に取り組んできた。2年間の共同研究の成果として、「離着水、離着桟における位置推定および自動運転技術」「水上障害物検知および回避のための技術」「ローカル5Gなどを用いた遠隔操作技術」をすでに構築している。

今回の実証実験は、日本財団が推進し、無人運航船の国際標準化の先導などを目指す無人運航船プロジェクト「METURI2040」の一環として行われた。このプロジェクトでは、国内で5つのコンソーシアムがそれぞれの取り組みを行っているが、これはその1つ「水陸両用無人運転技術の開発〜八ッ場スマートモビリティ〜」によるもの。現在は主に観光目的で利用されている水陸両用船だが、自動運航を実用化することで、将来的には災害時に役立つ技術転用や、「離島へのシームレスな物流インフラ」の構築を目指している。

画像クレジット:
日本財団

大阪大学、薬剤耐性菌・非耐性菌を電子顕微鏡画像と深層学習により形で判別することに成功

薬剤耐性菌(左)と非耐性菌(右)の電子顕微鏡画像。耐性菌は外膜の形状が変化し、一部ブレブ構造(矢頭)も認められる。白矢印は異染顆粒

薬剤耐性菌(左)と非耐性菌(右)の電子顕微鏡画像。耐性菌は外膜の形状が変化し、一部ブレブ構造(矢頭)も認められる。白矢印は異染顆粒

大阪大学は3月16日、薬が効かない薬剤耐性菌を画像で判別できることを明らかにした。顕微鏡画像と深層学習により、耐性の獲得による形態の変化を検知し、さらにその特徴に寄与する遺伝子の紐付けにも成功した。薬剤耐性化の過程での細菌の形態変化、遺伝子や耐性化因子の変化が、機械学習によって複合的に理解できるようになるという。

抗菌薬に長い間さらされることで耐性を獲得した薬剤耐性菌による感染症が問題になっている。薬剤耐性菌が出現するメカニズムについては盛んに研究されているものの、耐性化の抑制に欠かせない総合的な理解は進んでいない。大阪大学産業科学研究所の西野美都子准教授、青木工太特任准教授、西野邦彦教授らによる研究グループは、複数の薬が効かなくなる多剤耐性に関する研究を行っており、その過程で、耐性を獲得した細胞は遺伝子だけでなく形も変化させていることを発見した。そこで細菌の顕微鏡画像と深層学習を用いて形態からの薬剤耐性菌・非耐性菌の判別を試みた。

電子顕微鏡解析の流れ

研究グループは、薬剤耐性菌であるエノキサシンを用いて、急速冷凍固定法で凍結して電子顕微鏡用のサンプルを作り、細菌の細胞内部構造が観察できるようにした。これを1万枚以上撮影し、深層学習で判別したところ、90%以上の正解率で耐性菌と非耐性菌の判別ができた。Grad-CAM(勾配加重クラス活性化マッピング)法で耐性菌の形態学的特徴を可視化すると、外膜領域に注目領域が集中していて、目視の所見と一致した。さらに、抽出された画像的特徴量と遺伝子発現データとの相関を計算すると、外膜を構成するリポタンパク質など、膜の構成に関わる遺伝子との高い相関が認められた。

Grad-CAMによる特徴の可視化。判別の根拠となった注目領域をヒートマップにて可視化。耐性菌(図左)の外膜に注目領域が集中している。非耐性菌(図右)は顆粒に集中している

顔認証など深層学習による画像判別技術は発展しているものの、微生物(肉眼では見ることのできない生物)、特に薬剤耐性菌を対象にした研究は、ほとんど例がないという。将来的には、細菌の形態から薬剤耐性能を自動的に予測する技術の開発につながることが期待されると研究グループは話している。

放射線治療で必要な臓器の自動認識と輪郭作成をAIで高精度に高効率に行うシステムを開発

放射線治療で必要な臓器の自動認識・輪郭作成をAIで高精度に高効率に行うシステムを開発

広島大学は3月11日、放射線治療で欠かせない腫瘍や臓器の輪郭作成を、AIで自動的に高精度に行うシステム「Step-wise net」を開発したと発表した。CTやMRIの画像から臓器の輪郭を自動的に抽出し、輪郭作成を行うというものだ。従来の方式に比べて、精度が「著しく向上」したという。

放射線治療では、臓器ごとに線量分布を評価できるように、CTやMRIの医療画像上で腫瘍の領域や正常な臓器の輪郭を作成する。臨床試験では、この輪郭作成は統一したルールの下で行われなければいけない。そのためにも、自動輪郭作成ツールの需要が高まっている。そこで広島大学学大学院医系科学研究科(河原大輔助教、小澤修一特任准教授、永田靖教授)と日本臨床腫瘍研究グループ(JCOG。西尾禎治教授)からなる研究グループは、従来の深層学習を用いた輪郭作成技術を発展させた「Step-wise net」を開発した。

このシステムは、輪郭作成の対象となる臓器周辺域の抽出と、抽出した領域内での臓器の高精度な輪郭作成という2段構えになっている。研究グループは、これを用いて頭頸部の輪郭作成精度の評価を行った。その結果、すべての臓器において、画像変形技術を用いた非AIの市販ツール「Atlas」法よりも精度が高かった。さらに、従来のAI技術である「U-net」と比較しても、すべての臓器において「Step-wise net」の精度が高い結果となった。

ツール別の輪郭作成の結果。黄色が正解、緑線がツールが描いた輪郭。(a)Atlas、(b)U-net、(c)Step-wise-net。

自動輪郭作成が可能になれば、輪郭作成時間は従来の1/10にまで短縮予定で、臨床業務が改善されるという。また、手動で輪郭を描き出す方式とは異なり、施設ごとの差がなく、均質な輪郭が取得できるため、この自動輪郭作成ツールの活用が期待されるとのことだ。

Strong Computeは機械学習モデルのトレーニングを「100倍以上高速化」できると主張する

ニューラルネットワークのトレーニングには、市場で最も高速で高価なアクセラレータを使ってさえも、多大な時間がかかる。だから、多くのスタートアップ企業が、ソフトウェアレベルでプロセスを高速化し、学習プロセスにおける現在のボトルネックをいくつか取り除く方法を検討していることも、不思議ではないだろう。オーストラリアのシドニーに拠点を置くスタートアップで、最近Y Combinator(Yコンビネーター)の22年冬クラスに選抜されたStrong Compute(ストロング・コンピュート)は、学習プロセスにおけるこのような非効率性を取り除くことによって、学習プロセスを100倍以上高速化することができると主張している。

「PyTorch(パイトーチ)は美しいし、TensorFlow(テンソルフロー)もそうです。これらのツールキットはすばらしいものですが、そのシンプルさ、そして実装の容易さは、内部において非効率的であるという代償をもたらします」と、Strong ComputeのCEO兼創設者であるBen Sand(ベン・サンド)氏は語る。同氏は以前、AR企業のMeta(メタ)を共同設立した人物だ。もちろん、Facebook(フェイスブック)がその名前を使う前のことである。

一方では、モデル自体を最適化することに注力する企業もあり、Strong Computeも顧客から要望があればそれを行うが、これは「妥協を生む可能性がある」とサンド氏は指摘する。代わりに同氏のチームが重視するのは、モデルの周辺にあるものすべてだ。それは長い時間をかけたデータパイプラインだったり、学習開始前に多くの値を事前計算しておくことだったりする。サンド氏は、同社がデータ拡張のためによく使われるライブラリのいくつかを最適化したことも指摘した。

また、Strong Computeは最近、元Cisco(シスコ)のプリンシパルエンジニアだったRichard Pruss(リチャード・プルス)氏を雇用し、すぐに多くの遅延が発生してしまう学習パイプラインのネットワークボトルネックを除去することに力を注いでいる。もちろん、ハードウェアによって大きく違うので、同社は顧客と協力して、適切なプラットフォームでモデルを実行できるようにもしている。

「Strong Computeは、当社のコアアルゴリズムの訓練を30時間から5分に短縮し、数百テラバイトのデータを訓練しました」と、オンライン顧客向けにカスタム服の作成を専門とするMTailor(Mテイラー)のMiles Penn(マイルス・ペン)CEOは語っている。「ディープラーニングエンジニアは、おそらくこの地球上で最も貴重なリソースです。Strong Computeのおかげで、当社の生産性を10倍以上に向上させることができました。イテレーション(繰り返し)とエクスペリメンテーション(実験)の時間はMLの生産性にとって最も重要な手段であり、私たちはStrong Computeがいなかったらどうしようもありませんでした」。

サンド氏は、大手クラウドプロバイダーのビジネスモデルでは、人々ができるだけ長くマシンを使用することに依存しているため、彼の会社のようなことをする動機は一切ないと主張しており、Y Combinatorのマネージングディレクターを務めるMichael Seibel(マイケル・サイベル)氏も、この意見に同意している。「Strong Computeの狙いは、クラウドコンピューティングにおける深刻な動機の不均衡です。より早く結果を出すことは、クライアントから評価されても、プロバイダーにとっては利益が減ることになってしまうのです」と、サイベル氏は述べている。

Strong Computeのベン・サンド氏(左)とリチャード・プルス氏(右)

Strong Computeのチームは現在、依然として顧客に最高のサービスを提供しているが、その最適化を統合してもワークフローはあまり変わらないので、開発者はそれほど大きな違いを感じないはずだ。Strong Computeの公約は「開発サイクルを10倍にする」ことであり、将来的には、できる限り多くのプロセスを自動化したいと考えている。

「AI企業は、自社のコアIPと価値がある、顧客、データ、コアアルゴリズムに集中することができ、設定や運用の作業はすべてStrong Computeに任せることができます」と、サンド氏は語る。「これにより、成功に必要な迅速なイテレーションが可能になるだけでなく、確実に開発者が企業にとって付加価値のある仕事だけに集中できるようになります。現在、開発者は複雑なシステム管理作業のML Opsに、最大で作業時間の3分の2も費やしています。これはAI企業では一般的なことですが、開発者にとって専門外であることが多く、社内で行うのは合理的ではありません」。

おまけ:下掲の動画は、TechCrunchのLucas Matney(ルーカス・マトニー)が、サンド氏の以前の会社が開発したMeta 2 ARヘッドセットを2016年に試した時のもの。

画像クレジット:Viaframe / Getty Images

原文へ

(文:Frederic Lardinois、翻訳:Hirokazu Kusakabe)

トマトが熟れる際の遺伝子発現を深層学習で予測、遺伝子編集で果実のデザインも可能に

トマトが熟れる際の遺伝子発現を深層学習で予測、遺伝子編集で果実のデザインも可能に

岡山大学は3月8日、AIを使ってトマトが熟れるときに重要となる遺伝子の働きを予測する技術を開発したと発表した。また、「説明可能なAI」(XAI。Explainable AI)と呼ばれる技術を用いてAIの判断の根拠を探ることで、重要なDNA配列の特定も可能にした。その配列を編集すれば、果実の特徴に関する緻密なデザインも可能になると期待される。

果実の色や甘さや香りなどは、数万にもおよぶ遺伝子発現(遺伝子の働き)の組み合わせによって決まる。遺伝子発現は、プロモーターと呼ばれる領域に転写因子というタンパク質が結合して調整されているが、プロモーターのDNA配列には複数のパターンがあり、遺伝子発現は転写因子の複雑な組み合わせによって変化する。そのため、全ゲノム配列の情報がわかっていても、予測はきわめて難しいという。

そこで、岡山大学学術研究院環境生命科学学域(赤木剛士研究教授、増田佳苗氏、桒田恵理子氏)、農業・食品産業技術総合研究機構筑波大学大学院生命環境系九州大学大学院システム情報科学研究院からなる共同研究グループは、深層学習を用いた遺伝子発現の予測と、そこで重要となるDNA配列の特定を試みた。まずは、分子生物学で標準的に使われるモデル植物シロイヌナズナの、転写因子が結合するDNA配列情報のデータベースをAIに学習させ、3万4000以上あるトマトの全遺伝子のプロモーターの転写因子が結合するポイントを予測させた。次に、トマトが熟れる過程の全遺伝子発現パターンを学習させることで、遺伝子発現の増減を予測するAIモデルを構築することができた。

さらに、「説明可能なAI」を用いて、そのモデルで「AIが判断した理由を可視化」することで、予測した遺伝子発現の鍵となるDNA配列を「1塩基レベル」で明らかにする技術を開発した。このDNA配列を改変した遺伝子をトマトに導入すると、AIによる予測と同じ結果が得られた。つまり、トマトのゲノム情報の複雑な仕組みをAIが正確に読み解いたことになる。

この技術は、トマトの食べごろの予測に限らず、果実の色、形、おいしさ、香りなど、様々な特徴に関する遺伝子の発現予測にも応用できるという。また、予測した遺伝子の発現に重要なDNA配列を特定する技術を使えば、遺伝子編集により最適な遺伝子発現パターンを人工的に作り出して、自由に果実のデザインができるようになるとも研究グループは話している。

音声の文字起こし、要約、モデレートを行うオールインワンAPIのAssemblyAIが32.1億円を調達

ここ数年、音声や動画のコンテンツやインターフェースが爆発的に増えているのは明らかだが、それらのメディアを扱う方法はまだ発展途上だ。そんな中、AssemblyAIが2800万ドル(約32億1000万円)の新たな資金調達により、音声解析のための主要なソリューションとなることを目指す。同社の超シンプルなAPIを利用することで、一度に数千の音声ストリームの文字起こし、要約、その他何が起きているのかを把握することができる。

電話や会議がビデオ通話になり、ソーシャルメディアの投稿が10秒のクリップ動画になり、チャットボットが発話し、音声を理解するようになるなど、マルチメディアは信じられないほど短期間に多くのものの標準となった。数え切れないほどの新しいアプリケーションが登場してきているが、他の新しい成長産業と同様に、アプリケーションを適切に実行したり、アプリケーションの上に新しいものを構築したりするためには、アプリケーションが生成するデータを操作できる必要がある。

問題は、音声はもともと簡単に扱えるものではないことだ。音声ストリームの「検索」はどのように行えば良いだろう。波形を見たり、通して聴いたりすることもできるが、それよりもまずは文字に書き起こして、その結果得られたテキストを検索する方が良いだろう。そこでAssemblyAIの出番となる。音声文字起こしサービスは数多くあるものの、自社のアプリや業務プロセスには簡単に組み込めない場合が多い。

AssemblyAIのCEOで共同創業者のDylan Fox(ディラン・フォックス)氏は「音声コンテンツのモデレーションや検索、要約を行う場合には、データをより柔軟で、その上に機能やビジネスプロセスを構築できる形式に変換する必要があります」と語る。「そこで、Twilio(トゥイリオ)やStripe(ストライプ)のように、たとえハッカソンの場でも使えるような、誰でも使える超高精度の音声分析APIを作ろうということになったのです。こうした機能を組み上げるためには多くの支援が必要ですが、その際にあまりにも多くのサービスプロバイダーを組合せたくはありません」。

AssemblyAIは、極めてシンプルに(1、2行のコードで)呼び出せる数種類のAPIを提供しているが、そのAPIを利用することで「このポッドキャスト中に禁止されている内容がないかチェックする」「この会話の話者を特定する」「この会議を100文字以内に要約する」などのタスクを実行することができる。

コードして、コールして完了(画像クレジット:AssemblyAI)

だが、私もそうだったが、この仕事が一歩踏み込めばどれだけ複雑な作業になるかと考えると、果たして小さな会社がこれだけ多くのことを簡単にこなせる道具を作れるのかどうかと疑問に思うだろう。フォックス氏は、これが困難な課題であることを認めつつも「技術は短期間で大きく進歩したのです」と語った。

「特にここ数年で、こうしたモデルの精度が急速に向上しています。要約、勘定識別……どれも本当に良くなりました。そして、私たちは実際に最先端の技術を推進しています。私たちは大規模なディープラーニング研究を行っている数少ないスタートアップの1つですので、私たちのモデルは、世間一般のものよりも優れているのです。研究開発やトレーニングのためのGPUや計算資源には、今後数カ月間だけでも100万ドル(約1億1500万円)以上を投入します」。

簡単にはデモンストレーションできないので、直感的に理解するのは難しいかもしれないが、画像生成(「このXXは存在しません」の類)やコンピュータービジョン(顔認証、防犯カメラ)と同様に、言語モデルも進歩してきている。もちろん、GPT-3はその身近な例だが、フォックス氏は、書き言葉を理解し生成することと、会話やくだけた話し方を分析することは、実質的にまったく別の研究領域であると指摘する。よって機械学習技術の進歩(トランスフォーマーや新しい効率的なトレーニングのフレームワーク)は両者に貢献してきたが、多くの意味ではそれらはリンゴとオレンジの関係(同じ果物というだけで、それ以外の属性は異なっている)のようなものだ。

いずれにせよ、数秒から1時間程度の音声でも、APIを呼び出すだけで効果的なモデレーションや要約処理を行うことができるようになった。これは、ショートビデオのような機能を開発したり統合したりする際などにとても有効だ。たとえば1時間に10万件ものクリップがアップロードされることを想定した場合、それらがポルノや詐欺、パクリでないことを確認する最初のスクリーニングはどうすれば良いだろう?また、そのスクリーニングプロセスを構築するためにローンチがどれくらい遅れるだろう?

フォックス氏は、このような立場にある企業が、ちょうど決済プロセスの追加に直面したときと同様に、簡単で効果的な方法を選ぶことができるようになることを希望している。つまり機能をゼロから自分で構築することもできるし、15分で「Stripe」を追加することもできるということだ。これは、根本的に望ましいものだというだけでなく、Microsoft(マイクロソフト)やAmazon(アマゾン)などの大手プロバイダーが提供する、複雑でマルチサービスなパッケージの中の音声分析製品とは明らかに一線を画している。

インタビューに答えるフォックス氏(画像クレジット:Jens Panduro)

同社はすでに数百の有料顧客を数え、2021年1年間で売上を3倍に伸ばし、現在は1日100万件のオーディオストリームを処理している。フォックス氏はいう「100%ライブストリーム処理です。大きな市場と大きなニーズがあり、お客様からの支払いもあります」とフォックス氏はいう。

2800万ドル(約32億1000万円)のラウンドAは、Accelが主導し、Y Combinator、John(ジョン)とPatrick(パトリック・コリソン)氏 (Stripe)、Nat Friedman(ナット・フリードマン)氏 (GitHub)、そしてDaniel Gross(ダニエル・グロス)氏(Pioneer)が参加している。全額を、採用、研究開発インフラ、製品パイプラインの構築などに振り向ける計画だ。フォックス氏が指摘したように、同社は今後数カ月の間にGPUとサーバーに100万ドル(約1億1500万円)を投入する(大量のNVIDIA A100が、信じられないほど計算集約型の研究とトレーニングのプロセスを支えることになる)。もしそうしなければ、クラウドサービスにお金を払い続けることになるのだから、間借り生活から早めに脱却したほうが良いのだ。

採用に関しては、音声解析関連技術に力を入れているGoogleやFacebookと直接競合するため、苦労するのではないかと質問してみた。しかし、フォックス氏は楽観的だった。そうした大企業の文化が遅く窮屈なものであると感じているからだ。

「本当に優秀なAI研究者やエンジニアには、最先端で仕事をしたいという願望が間違いなくあると思います。そして同時に実用化の最先端にも関わりたいという願望です」と彼はいう。「革新的なことを思いついたら、数週間後には製品化できる…そんなことができるのはスタートアップ企業だけです」。

画像クレジット:AssemblyAI

原文へ

(文:Devin Coldewey、翻訳:sako)

アニメーションと音声で写真に生命を吹き込む、MyHeritageとD-IDが提携し故人が話す動画が作成可能に

2021年、家系調査サービスのMyHeritageが、故人の顔写真を動画化できる斬新な「ディープフェイク」機能を導入して話題になった。TikTokのユーザーたちはいち早くその技術に反応して、動画を投稿し、自分が会ったこともない親戚やまだその死を悲しんでいる故人を蘇らせて、「ディープノスタルジア」と呼んだ。今日まで、1億枚以上の写真がこの機能で動画になった。そしてその機能が進化した。米国時間3月3日、MyHeritageはパートナーのD-IDとともに「ディープノスタルジア」を拡張した「ライブストーリー」機能をローンチした。写真の人物を生き返らせるだけでなく、彼らに話をさせるのだ。

MyHeritageが技術をライセンスしたD-IDはテルアビブのスタートアップで、AIとディープラーニング利用した再現動画の技術で特許を取得している。

D-IDの技術は、APIを通じて開発者に提供され、メディア、教育、マーケティングなど、さまざまなライセンシーに利用されています。例えばWarner Bros.(ワーナー・ブラザーズ)は、D-IDを利用して、ユーザーが映画の予告編をアニメーション写真でパーソナライズできるようにしたり、ハリー・ポッター展のために協力した。Mondelēz International、広告代理店のPublicis、Digitas Vietnamは、地元の祭りのマーケティング活動でD-IDと提携している。インドの短編動画アプリJoshは、顔アニメーションの技術をクリエイティブツールとして統合した。また、非営利団体や政府も、さまざまな啓発キャンペーンにこの技術を利用している。

MyHeritageは、こライブストーリーでD-IDの最新AI技術をユーザー向けに利用している。この機能を使うためには、ユーザーはまず無料でMyHeritageのアカウントを無料で作成することができ、その技術を何度か無料で試用できる。その後は、有料のサブスクリプションでライブストーリーを無制限に利用できる。

本技術で先祖の人生を物語にしたり、それを本人に語らせることもできる。それを可能にするのが、D-IDの特許取得技術Speaking Portrait Technology(肖像発話技術)だ。アップロードされた写真をもとにナレーション入りの動画を作り、それを合成音声生成装置にかける。語られるストーリーは、ユーザーが提供したテキストだ。

 

言葉と唇の動きが同期するためにD-IDは、人が話している動画のデータベースでニューラルネットワークを訓練した。言語は、どんな言語でもよいというが、MyHeritageは10種ほどの方言や、性による声の違いを含む31言語をサポートしている。

D-IDの共同創業者でCEOのGil Perry(ギル・ペリー)氏によると「優秀な技術であるためドライバービデオは不要です」という。つまり、本物の人物の動きを動画で撮影し、それを静止画像にマップする処理は不要だ。「テキストと写真があれば、その人が話している動画ができ上がります」という。「ただし、まだ完璧な技術ではありません。現状は、本当に良質なリップシンクらしいものを作ったにすぎません」とのこと。

そうやって作成されたライブストーリーは、それを見たり、友だちと共有したり、ソーシャルメディアに投稿することができる。テキストを編集し、さらに話をカスタマイズし、別の声を選んだり、自分が録音したオーディオをアップロードしてもいい。

画像クレジット:D-ID

D-IDの長期的な展望は、この技術をメタバースの環境で使うことだ。メタバースであれば顔だけでなく、デジタルアバターを動画にできるし、体全体の動きを3Dで表現できる。ペリー氏はユーザーが自分の幼児期や家族、歴史的人物の写真をアップロードして、それらをメタバースで動かし、会話をさせることもできると考えている。

「子どもたちがAlbert Einstein(アインシュタイン)と会話して、彼の話を聞いたり、彼に質問したりすることもできるでしょう。しかも彼は疑問に答えてくれます。さらにユニバーサル翻訳であれば、アインシュタインはユーザーの母国語で会話することもできるはずです」。

もちろんそんな技術は何年も先のことだが、実現するとすれば、それらはディープノスタルジーやライブストーリーのような、今日開発したコンセプトに基づいて作られることとなる。

MyHeritageとD-IDはそれぞれ、この技術を別々のやり方でデモする独自のアプリを世に送り出す。D-IDによると、それは数週間後だという。

MyHeritageのライブストーリー機能は本日、米国時間3月3日、家族史テクノロジーのカンファレンスRootsTechで発表された。デスクトップとモバイルウェブ、MyHeritageのモバイルアプリで利用できる。

MyHeritageの創業者でCEOのGilad Japhet(ギラッド・ジャフェ)氏は、ライブストーリーのローンチに関する声明で次のように述べている。「最新機能で、MyHeritageは今後もオンライン家族史の世界をビジョンとイノベーションの両方でリードし続けることになります。AIを利用して歴史的な写真に新しい命を吹き込むことはユニークな機能であり、何百万もの人が先祖や愛する故人との感情的な結びつきを掘り起こし一新することができます。家系の本質は家族史の表現と保存にあり、私たちは世界に向けて家系の楽しさと魅力を伝えていきたい」。

D-IDは、Sella Blondheim(セラ・ブロンドハイム)氏とEliran Kuta(エリラン・クタ)氏が創業。現在、チームは32名で今後は米国や英国、シンガポール、そしてイスラエルでそれぞれ現地の人数を増やし、社員数を倍増したいと考えている。

画像クレジット:D-ID

原文へ

(文:Sarah Perez、翻訳:Hiroshi Iwatani)

農研機構、栽培施設内を無人走行し果実の収穫量をAIで予測する「着果モニタリングシステム」

農研機構、栽培施設内を無人走行し果実の収穫量をAIで予測する「着果モニタリングシステム」

農業・食品産業技術総合研究機構(農研機構)は施設栽培向けに、着果を監視し収穫量を予測するAIシステム「着果モニタリングシステム」を開発。従来対象のトマトに加え、パプリカにおいて実用化の目途がたったと3月1日に発表した。モニタリング装置を施設内で無人走行させ、収穫可能な果実数を推定することで、管理や収穫に必要な人員を効率的に配置できるようになる。

施設園芸の大規模化が進んでいるが、大規模生産法人では生産コストの約3割が人件費とされている。特に収穫には多くの時間がかかるため、収穫作業の効率化が経営改善に大きく影響する。だが作業を効率化するためには、収穫に必要な人員の数や配置を適切に計画する必要があり、それには収穫できる果実の位置や数を適切に予測することが重要となる。

農研機構が開発したこのシステムは、着果モニタリング装置を搭載した高所作業車を施設内で無人走行させながら植物を撮影し、その画像をつなげた展開画像をAIで分析することで、収穫可能な果実を自動検出するというものだ。深層学習により構築した果実検出モデルにより、画像から果実を検出。画像の色から果実の成熟度を評価し、成熟順に分類。そこから収穫可能な果実の数と位置を割り出し、管理や収穫に必要な人員の効率的な配置を策定できるようにする。

この技術はトマトを対象に開発されてきたが、パプリカでも実用化の目途がついた。大規模パプリカ生産法人で試験を行ったところ、同システムが収穫可能と判断した果実の数と、翌週の実際の収穫量とがほぼ一致した。そこで農研機構は、3月9日から12日まで東京ビッグサイトで開催される「国際ロボット展2022」にこのシステムを出展することにした。

同開発機は、2022年度以降の実用化を目指すという。また今後は、作業者の違いによって生じる収穫作業時間の予測誤差の低減、予測適応時間の拡大を図り、トマトとパプリカ以外の作物の適用可能性、着花計測、病害虫や整理障害株の検出、葉面積計測など、汎用的な画像収集装置としての利用も検討する予定。

花王とPFN、健康や生活など1600項目以上のデータを推定できる統計モデル「仮想人体生成モデル」プロトタイプを共同開発

花王とPFN、健康や生活など1600項目以上のデータを推定できる統計モデル「仮想人体生成モデル」プロトタイプを共同開発深層学習を中心とした最先端技術の研究開発を行うPreferred Networks(PFN。プリファード・ネットワークス)と花王は2月28日、「仮想人体生成モデル」のプロトタイプを共同開発したと発表した。1600以上のデータ項目で構成される人体の統計モデルで、ある項目のデータを入れると、別の項目の推定値が示されるというものだ。

たとえば、健康診断の結果から内臓脂肪量を統計的に推定できる。その他のデータと組み合わせて、その人のライフスタイル、運動や食事の習慣などに合わせた最適な健康管理方法を提案するといった使い方も可能だ。また、今の体重から2kg減ったら他の項目にどれだけの影響があるかを推定するといったこともできる。

1600の項目には、健康診断などで示される身体に関する情報のほか、食事・運動・睡眠などのライフスタイル、性格・嗜好・ストレスの状態・月経といった日常生活で関心の高いものまで多岐にわたって含まれる。これらのいずれかの項目にデータを入力すれば、他の項目の推定値が出力される。この項目も入出力可能だ。

これは、人の身体、心理、生活など多岐にわたって研究を重ねてきた花王の研究資産と、深層学習などPFNの最先端の計算科学技術によって生み出されたものだ。この仮想人体生成モデルは、協業する事業者や研究機関などにAPIで提供されることになっているため、事業者は自社製アプリなどに機能を組み込み、エンドユーザーにサービスを提供することができる。入力されたデータが収集されたり蓄積されることはなく、利用者のデータが二次利用される心配はない。花王とPFN、健康や生活など1600項目以上のデータを推定できる統計モデル「仮想人体生成モデル」プロトタイプを共同開発花王とPFN、健康や生活など1600項目以上のデータを推定できる統計モデル「仮想人体生成モデル」プロトタイプを共同開発

まだプロトタイプの段階だが、2022年中の実用化を目標に検証を進めてゆくという。2023年初頭にはAPI経由での提供し、新規デジタルプラットフォーム事業を開始する予定。

植物由来肉を人工脂肪でおいしく満足できるものにするYali Bio

Yali Bioのチーム。左から3人目がCEOのユーリン・ルー氏(画像クレジット:Yali Bio)

フードテックの企業にとっては人の食習慣を変えることが重要だが、特に代替肉製品の場合は、味も匂いも食感も本物の肉のようでないと多くの人は満足しないため、なかなか難しい。

Yali Bioは、この問題を解決したと称する企業の1つで、同社はそのために、植物由来の食肉や乳製品のための人工脂肪(designer fats)を開発した。同社は現在、代替食肉の味を良くするための顧客特注の脂肪を生産するプラットフォームを作っている。

その加工技術を支えるものは、合成生物学とゲノミクスのツール、およびディープラーニングの技術で、それらによって作られる脂肪は、現在植物性の蛋白質に使われているココナッツなどの油脂よりもサステナブルだ。しかもその味や質感は、動物性脂肪を模倣している、とCEOのYulin Lu(ユーリン・ルー)氏は主張している。

ルー氏とチーフサイエンティストのPeng Xu氏は、カリフォルニアで同社を2021年に創業した。ルー氏はフードテックの前歴があり、Impossible FoodsやEat Justの躍進をこれらの企業の社員として見てきた。Peng氏は合成生物学が専門で、微生物を利用するシステムで脂質を開発してきた。

「明らかに現在は、製品の質と消費者体験が伸び悩みの段階にある。食肉は成功したブランドもあるが、そこから先がない。人びとが好む高級肉はいろいろな種類があるが、その代替製品に共通して欠けているのが製品の質を高める脂肪だ」とルー氏はいう。

彼によると、今はほとんどの植物由来の食肉が、脂肪に代わるものとしてココナッツオイルを使っているらめ、食品企業はどうしても風味添加物を使うことになり、消費者の好みに合わない製品を作っている。しかしYali Bioの技術は、非常に多種類の機能性脂肪を作ることができ「市場の鍵」を開けることができる。それまでその市場は、製品の質と消費者体験に限界があった。

顧客が必要とする脂肪を作れるようになった同社は、今度はそれらの人工的な脂肪を製品中に効率的に利用できる生産システムに取り組んでいる。これまで他社が使っていた方法の中には、動物の細胞や脂肪組織を使うものもある。

しかしYali Bioが採用したのは、微生物を利用する精密発酵という技術だ。独自の技術で微生物の菌株のライブラリを作り、それらをすべてテストした。次の段階は、発酵器の中で菌株を活動させ発酵工程をデモンストレーションするパイロット事業だ。それにより、小規模ないし中規模でも生産できることを証明する。

これらのステップをすべてこなしていくには、資本が少々必要だ。ルー氏はアクセラレーター事業を半年受講し、その間に新しい実験室を作った。そのとき同社はEssential Capitalがリードするシードラウンドで390万ドル(約4億5000万円)を調達した。このラウンドには新旧さまざまな投資家が参加し、それらはThird Kind Venture Capital、S2G Ventures、CRCM Ventures、FTW Ventures、そしてFirst-in Venturesなどだ。エンジェル投資家として、Stephanie Sher(ステファニー・シャー)氏とJohn Goldsmith(ジョン・ゴールドスミス)氏が参加した。Yali Bioのこれまでの総調達額は500万ドル(約5億8000万円)になる。

資金の一部は実験室の建設に投じられるが、他にも、合成生物学の部門や製品開発、パートナー選び、マーケティング、新規雇用などにもお金が必要だ。求める人材は、製品開発や食品科学、発酵などの方面で、年内に約12名が欲しいとのこと。

ルー氏によると、Yali Bioの技術も他の技術と同じく、本番稼働までに時間がかかる。例えば細胞培養を使う方法は7年前に最初の波が興ったが、現在でもパイロット段階の企業が少なくない。それらは、わずかな量の製品をレストランに卸している程度だ。Eat Justのようなスタートアップも、The EVERY Coのような食品メーカーも、今では細胞培養ではなく精密発酵を利用している。

ルー氏はさらに「今のチームでできることには限界があるため、もっと人を増やしてバイオテックの研究開発企業から具体的な製品のある企業に変わっていかなければなりません。精密発酵のデモを行い、他の技術よりも製品やサンプルを速く作ることができることを知ってもらいたい。その他、規制の問題や最終製品の形状、技術の複雑性といった難しいポイントはありますが、2〜3年後には製品を出したい」という。

Essential CapitalのマネージングパートナーEdward Shenderovich(エドワード・シェンデロビッチ)氏によると、代替食品への投資は初めてという投資家が多く、特に合成生物学の食品への応用という新しい技術はまだよく知られていない。

彼によると現在は第四次農業革命の前夜だという。これまでの農業はコスト低減と増産と質の向上を追ってきた。しかし、第四次はバイオの生産技術が引っ張り、サプライチェーンと価値の創造機会に大きな変化が訪れる。

「動物をベースとする農業から、バイオ生産による動物を使わない農業への移行を可能にするものなら、どんなものでも追究する価値があります。Yulinは、植物由来の発酵食品や培養食品の採用に立ちふさがる重要な難問を特定しています。培養肉の多くはタンパク質だけですが、脂肪も欲しい。脂肪は悪者扱いされてきましたが、現在、見直されつつあります」とシェンデロビッチ氏はいう。

原文へ

(文:Christine Hall、翻訳:Hiroshi Iwatani)

海洋研究開発機構と鹿児島大、デジカメ撮影による海岸の写真からAIで漂着ごみの被覆面積を高精度に推定する新手法を開発

セマンティック・セグメンテーションを用いた、海岸の写真からの海ごみ検出のイメージ図。写真に対して、ピクセル単位でのクラス分類が行われる。訓練用に2800枚、評価用に700枚の画像データを用いた(写真は山形県提供)

セマンティック・セグメンテーションを用いた、海岸の写真からの海ごみ検出のイメージ図。写真に対して、ピクセル単位でのクラス分類が行われる。訓練用に2800枚、評価用に700枚の画像データを用いた(写真は山形県提供)

海洋研究開発機構鹿児島大学は2月4日、ディープラーニングを用いた画像解析で、デジカメなどで普通に撮影された海岸の写真から、海岸の漂着ゴミを検出する手法を開発したと発表した。

海岸漂着ゴミの実態調査は世界中で行われているが、ゴミの現存量の定量化が行える、汎用性と実用性の面で優れた技術がなかった。人による調査では、経済的負担、時間的制約、さらに範囲も限定されてしまい、精度にも課題があった。ドローンや人工衛星を使う技術も開発されているが、それではコストがかかりすぎる。そこで、海洋研究開発機構の日高弥子臨時研究補助員、松岡大祐副主任研究員と、鹿児島大学の加古真一郎准教授からなる研究グループは、地上においてデジカメなどで簡易的に撮影された画像から、高精度で海洋漂着ゴミの定量化ができる技術の研究に着手した。

ここで採用されたAI技術は、セマンティック・セグメンテーションと呼ばれるもの。ディープラーニングを用いた画像解析技術で、画像内のすべてのピクセルにラベル付けを行い、ピクセルごとに、人工ゴミ、自然ゴミ、砂浜、海、空といったクラスを出力する。そのクラス特有のパターンの学習には、山形県庄内総合支庁から提供された海岸清潔度モニタリング写真3500枚が利用された。そこから正解となるラベルを作成し、AIの訓練や判断の評価を行った。

入力画像、正解ラベルおよびAIによる推定画像の例

入力画像、正解ラベルおよびAIによる推定画像の例

今回の研究では、海岸漂着ゴミを検出した後の画像を、真上から見た構図に変換(射影変換)して、ゴミの被覆面積を推定することも可能であることがわかった。ドローンによる空撮画像から推定した被覆面積と比較したところ、誤差は10%程度だった。

セマンティック・セグメンテーションと射影変換による人工ごみの被覆面積推定結果。海岸漂着ごみ検出後の画像を真上から撮影した構図に射影変換することにより、海岸全体のごみの被覆面積が推定可能であることを示したもの。同手法の精度は、ドローンによる空撮から得られた正解値との比較により検証している

セマンティック・セグメンテーションと射影変換による人工ごみの被覆面積推定結果。海岸漂着ごみ検出後の画像を真上から撮影した構図に射影変換することにより、海岸全体のごみの被覆面積が推定可能であることを示したもの。同手法の精度は、ドローンによる空撮から得られた正解値との比較により検証している

今後は、海岸漂着ゴミの堆積の推定や、プラスチックゴミの個数のカウントもできるように発展させるという。今回の研究から生まれた学習用データセット(The BeachLitter Dataset v2022)は、非商用の研究目的に限って公開される。汎用性の高いシステムなので、多くの人がデータを集め学習させることで、それぞれの地域特有の、目的に合ったAIの開発が可能になり、全世界で活用できるようになるとのことだ。そこで、研究グループは、アマチュア科学者をはじめ多くの人々が参加する市民科学に期待を寄せている。

自動外観検査AIをノーコードで開発可能なAI開発プラットフォームを提供するMENOUが約2.5億円のシリーズA調達

自動外観検査AIなどをノーコードで開発可能なAI開発プラットフォームを提供するMENOUが約2.5億円のシリーズA調達

自動外観検査システムなどAIによるディープラーニング技術を身近にするソリューションを提供するMENOU(メノウ)は1月11日、シリーズAラウンドにおいて、第三者割当増資による約2億5000万円の資金調達を実施したと発表した。引受先はニッセイ・キャピタル、DEEPCORE、三菱UFJキャピタル。累計資金調達総額は約3億7000万円となった。

調達した資金は、検査AIをノーコードで開発するAI開発プラットフォーム「MENOU-TE」(メノート)の機能拡張、また検査工程を自動化するための導入支援サービスである「MENOU-IN」(メノーイン)をより多くの企業に提供できる体制を整える。

MENOU-TEでは、AIとルールベースのハイブリッドな検査を構築し、導入するまでの開発を容易にする体制を整える。また、機能開発を加速し、プログラミングやAI、画像処理の専門人材がいなくてもAIの社内開発が可能になるMENOU-TEの利便性や使いやすさつかいやすさを増していく計画という。

MENOU-TEは、ディープラーニングの検査AIを、ノーコードで開発可能なソフトウェア。GUIによるアノテーションラベリング(学習操作)や解析精度の視覚化と最適化支援、ルールベース解析とのハイブリッドな推論・検査といった機能を備える。これらにより、画像検査やAIの専門知識のない技術者であっても、製造現場に必要な外観検査・画像検査を実施する環境を構築できる。

自動外観検査AIなどをノーコードで開発可能なAI開発プラットフォームを提供するMENOUが約2.5億円のシリーズA調達

MENOU-INは、検査AIの総合的な導入支援サービス。外観検査の画像取得に向けた照明やカメラなどの最適な撮像構成を提案しつつ、運用やメンテナンス体制も含めたAI外観検査導入を総合的にサポートする。企業内のAI・DX人材の育成を行うトレーニングなども行うなど、開発人材育成も支援する。

MENOUは、日本の製造業にとって身近なAIを普及させることをミッションに掲げ、ニコンのエンジニアが2019年6月に設立したAIスピンアウト。独自のAI開発プラットフォームを中心に、様々な製造業への導入支援を展開している。MENOU-TEは、直感的操作でアノテーションができるだけでなく、AI開発に必要なファイル管理、モデル管理を一括管理できる統合開発環境を提供し、導入後もメンテナンスしやすい画像検査を可能にするという。

MENOU-TEを用いたMENOUチームの解析画面。外観検査に特化したソフトウェアだが、人物特定AIなども短時間で実現できるという

MENOU-TEを用いたMENOUチームの解析画面。外観検査に特化したソフトウェアだが、人物特定AIなども短時間で実現できるという

グルーヴノーツと東京大学、マルチモーダルAIにより超音波検査画像と診療情報を統合した高精度な疾患画像判別モデル開発

グルーヴノーツと東京大学、マルチモーダル深層学習により超音波検査画像と診療情報を統合した高精度な疾患画像判別モデル開発

AIと量子コンピューターを活用できるクラウドプラットフォーム「MAGELLAN BLOCKS」(マゼランブロックス)を開発するグルーヴノーツは1月7日、東京大学医学部付属病院と共同で、人工知能を用いた医療画像と診療情報の統合による高精度な疾患画像判別モデルを開発した。同日付けで、学術誌「Journal of Gastroenterology and Hepatology」において論文を発表した。

研究グループが開発したのは、腹部超音波検査画像と診療情報をAIで統合した、肝腫瘤を判別するためのモデル。これまでの画像診断モデルは画像のみを学習させていたが、そこに診療情報を統合することで飛躍的に精度が向上するという。

肝腫瘤の早期発見で広く用いられているのは、腹部超音波検査だ。しかし、良性か悪性かを判断するには、CTやMRIで血流の状態を見る、つまり「質的な診断」を行う必要がある。研究グループは、画像と数値などの異なる種類のデータを同時に学習できるマルチモーダル深層学習(マルチモーダルAI)を用いて超音波画像診断と診療情報を統合することで、新しい肝腫瘤の疾患画像判別モデルを開発した。これを使えば、腹部超音波検査だけで質的な診断が可能になり、CTやMRIの放射線被曝のリスク回避や費用の削減にもつながる。

研究グループは、2016年4月から2018年11月までに東京大学医学部附属病院で腹部超音波検査を受けて肝腫瘤が発見された1080例(悪性腫瘍548例、良性腫瘍532例)に対して、グルーヴノーツのMAGELLAN BLOCKSでマルチモーダル深層学習を用いた判別モデルの作成と精度の評価を行った。

その結果、超音波検査のみに比べて、超音波検査に患者背景情報、肝臓の炎症情報、肝臓の繊維化情報、アルブミンの情報を統合したモデルでは、AUROC値が0.994(1に近いほど正確)と非常に高い精度が示された(ちなみに超音波のみの場合は0.721)。AUROC値はThe area under the receiver operating characteristic curve(ROC曲線下面積)の略で、判別モデルの性能を評価する指標の1つ。

超音波画像のみのモデル(左図)、マルチモーダル深層学習を用いて超音波画像に診療情報を統合したモデル(右図)の診断精度を示したROC曲線。この曲線の下の面積(青色部分)が大きいほど診断精度がいいということになる。診療情報を統合したモデル(右図)では、左上の欠けた部分が少ない良好な診断精度を示した

超音波画像のみのモデル(左図)、マルチモーダル深層学習を用いて超音波画像に診療情報を統合したモデル(右図)の診断精度を示したROC曲線。この曲線の下の面積(青色部分)が大きいほど診断精度がいいということになる。診療情報を統合したモデル(右図)では、左上の欠けた部分が少ない良好な診断精度を示した

こうした学習モデルでは、サンプル数が多いほど正確な判別が可能になるが、医学研究では患者の同意取得や倫理的な問題もあって大量の患者サンプルを入手することが難しい。しかし今回の研究で、マルチモーダル深層学習を使えば大変に高い精度での判別が可能になることがわかった。この手法は、他分野への応用も期待されるとのことだ。

花王、深層学習で肌の質感を評価する「肌評価AI」にヒトの感性を学習させた「Kirei肌AI」を開発

花王、深層学習で肌の質感を評価する「肌評価AI」にヒトの感性を学習させた「Kirei肌AI」を開発

花王メイクアップ研究所は12月7日、深層学習を用いて多様で繊細なヒトの肌の質感を評価し可視化する「肌評価AI」に、ヒトの感性を学習させ、肌の精緻な解析とヒトの視点や判断を併せ持つ独自AI「Kirei肌AI」の開発を発表した。

花王では、2021年1月に「肌評価AI」を発表している。これは、ヒトの肌の小さな領域「肌パッチ」の画像を学習し、素肌と化粧肌、化粧直後と時間が経った後といった肌の状態のわずかな違いを識別できるというものだが、たとえば肌の美しい「つや」と「テカリ」の違いなど、繊細な違いの判断はできなかった。こうした肌の印象を的確に捉えられるのは、人間の目しかない。

花王、深層学習で肌の質感を評価する「肌評価AI」にヒトの感性を学習させた「Kirei肌AI」を開発

花王、深層学習で肌の質感を評価する「肌評価AI」にヒトの感性を学習させた「Kirei肌AI」を開発

マットな肌、化粧くずれでテカリのある肌、なめらかで美しいつや肌を比べた際、過去に開発したAIではテカリのある肌を「光沢が強い」という評価しかできなかった

そこで花王は、目視評価の訓練を積んだ「専門判定者」の目視による判断を「肌評価AI」に学ばせることにした。20歳から39歳の日本人女性83名の肌パッチ画像9306枚と、その画像に対する専門判定者の評価を使い学習を行ったところ、専門判定者の判断とAIの判断の相関係数が0.7と、強い相関が示された。つまり、かなりの程度で一致したということだ。これを受け、「肌評価AI」の評価項目6項目に新たにヒトの感性を反映させた評価項目10項目を加えたKirei肌AIを完成させた。

また同研究所は、Kirei肌AIを用いて、光沢とつやの違いについて解析を行った。「視覚的つや」に対して、「化粧くずれ度」(テカリと強く関係)、「Powderly / Glossy」(パウダーファンデーションとリキッドファンデーションのどちらを塗った感覚に近いか)、「Dry / Wet」(乾燥肌とスキンケア後の濡れた肌のどちらに近いか)という3つの指標を使い、日本人女性266名のメイク塗布前後の顔画像1596枚を使って比較したところ、下の表のようになった(数値がマイナスは関連なし、数値が多いほど関連が強い)。これで、つやとテカリは、まったく異なる質感であることが明確になった。

  1. 花王、深層学習で肌の質感を評価する「肌評価AI」にヒトの感性を学習させた「Kirei肌AI」を開発

    テカリ肌(中央)は「Glossy」「Wet」「化粧くずれ度」が高く、「視覚的つや」は高くないと判断されている。また右端のつや肌は、「視覚的つや」が非常に高く、一方で「Glossy」でありながら「化粧くずれ度」は低いという評価になっている

以上のことから、Kirei肌AIは、つやと光沢のわずかな違いを判断でき、好ましく見えるかという「ヒト特有の視点を含んだ繊細な分析」が可能なAI肌評価技術の開発に成功したと花王は話す。今後はこの技術を、製品開発や缶セリングの充実に積極的に活用するとのことだ。

衛星データで世界中の森林伐採の状況を可視化できるアプリGRASP EARTH ForestをRidge-iが開発

衛星データで世界中の森林伐採の状況を可視化できるアプリ「GRASP EARTH Forest」をRidge-iが開発、違法な伐採を自動検出

AI・ディープラーニング領域のコンサルティング・開発を手がけるテックイノベーションファーム、Ridge-i(リッジアイ)は12月6日、衛星データを利用した森林伐採の進行状況を可視化できるアプリケーション「GRASP EARTH Forest」を開発したことを発表した。ヨーロッパの光学衛星Sentinel-2の観測データを利用し、約1週間の周期で全地球の変化を捉えることができる。

衛星データで世界中の森林伐採の状況を可視化できるアプリ「GRASP EARTH Forest」をRidge-iが開発、違法な伐採を自動検出

Ridge-iでは、GRASP EARTH Forest利用の実例として、千葉県南部の大規模開発を検出した様子を写真で示している。下の写真では、Google Map上で赤く塗られた箇所が森林伐採された地区を示している。2018年1月から2021年1月にかけて伐採が行われたと思われる場所だ。

GRASP EARTH Forestでは、伐採状況の時間的変化もグラフで示してくれる。下の写真は、指定した伐採箇所のグラフが表示されている。グラフの縦軸が植生指数(植物の量)、横軸が時間。これを見ると、2019年の一時期に急激に植生が減少している。そのことから、この時期に森林が伐採されたものと推測できる。

このアプリケーションで、違法な森林伐採や、許可量を超えた伐採などの自動検出が可能になるとRidge-iは話している。また、関心のある地域の状況のレポートを、ウェブアプリやPDFで定期的に提供することも可能とのことだ。下記リンクからトライアル版の申し込みができる。

https://deep-space.ridge-i.com/contact

AWSがチャットボット設計の作業時間を大幅短縮できる新機能を発表

ラスベガスで米国時間12月1日に開催されたAWS re:Inventにおいて、AWSは自動化によってチャットボットのトレーニングとデザインのプロセスを簡略化する新機能、Amazon Lex自動化チャットボットデザイナーのプレビュー版を発表した。

Amazon AIの副社長Swami Sivasubramanian(スワミ・シバスブラマニアン)氏は、同日のAIと機械学習のキーノートで「数週間かかっていたボットの設計を数時間に短縮する新機能、Amazon Lex自動化チャットボットデザイナーを発表できることをうれしく思います」と述べた。

これは、深層学習技術を用いた高度な自然言語理解を活用することで実現している。実際、開発者は過去の通話トランスクリプトを使って設計された基礎的なチャットボットを、わずか数クリックで作成できる、とシバスブラマニアン氏は語った。

「Amazon Lexの自動化されたチャットボットデザイナーは、通常、数時間で1万行のトランスクリプトを分析し、『新しい請求をする』や『請求状況を確認する』などの意図を特定することができます。これらの意図がしっかりと分離されていて、重複していないことを確認してくれるので、試行錯誤する必要がありません」。

この自動化がなければ、非常に手作業的で面倒な開発者の仕事になってしまう、と同氏は指摘する。「チャットボットの組織設計は非常に複雑で、手作業であり、エラーが発生しやすいものです。話し言葉のニュアンスや人間同士のやりとりを理解する必要があり、このような特別な専門知識がないと、開発者はよくあるユーザーの要望や、この問題を解決するために必要な情報などを見つけるために、過去の通話トランスクリプトをすべて念入りに調べるのに何百時間も費やすことになります」。

AIの一般的なユースケースを考えると、確かにチャットボットが思い浮かぶ。新しいコンピューターの注文方法や、生まれたばかりの子どもを会社の健康保険に加入させる方法などの質問に答えるといった、社内用に設計されている場合もあれば、重要な情報を収集して簡単な質問に答え、複雑な質問は人間のカスタマーサービス担当者につなげる顧客サービスのフロントエンドとして機能する場合もある。

より精度の高いチャットボットを簡単に作れるようにするために、多くのスタートアップが取り組んでいるが、Amazonのような企業にとっては、顧客が他のAIや機械学習プロジェクトと合うプラットフォーム上のソリューションを求めているかもしれず、敷居の低いものとなっている。

Amazon Lexの自動化されたチャットビルダーは、本日からプレビューで利用できる。開発者は、プレビュー段階ではこの機能を無料で使用することができるが、一般提供が始まると、ツールがトランスクリプトを分析して意図を特定するのにかかる時間に応じて課金される。

画像クレジット:Amazon

原文へ

(文:Ron Miller、翻訳:Nariko Mizoguchi

患者の治療に専念できるようになる、AI診断可視化プラットフォームLifeVoxelが約5.7億円のシード資金を調達

サンディエゴのスタートアップLifeVoxel(ライフボクセル)は、より迅速で正確な予後のためのAI診断可視化プラットフォームのデータインテリジェンスを強化するため、シードラウンドで500万ドル(約5億7000万円)を調達した。

Prescientという名称のプラットフォームは、診断、ワークフロー管理、トリアージに使用され、医師や病院はソフトウェアやハードウェア技術の管理でストレスを受けることなく、患者の治療に専念することができる。

Software-as-a-Service (SaaS) プラットフォームは、放射線科、循環器科、整形外科などのさまざまな医療分野で、医療施設が遠隔診断に使用する。Prescientには診断用の画像が保存されており、医師は携帯電話を含むあらゆるデバイスから必要に応じて画像を解析することができる。また、診断結果の注釈やレポートを作成する機能もある。

LifeVoxelの創業者でチーフアーキテクトのKovey Kovalan(コベイ・コバラン)氏は「今回のラウンドで確保した資金は、診断の効率と精度の向上のために、類似性や異常性、予測診断を識別できるデータインテリジェンスを提供できるよう、深層学習AIモデルや機械学習アルゴリズムの構築に役立てる予定です」と話す。

「つまり、当社が成長を続けることで、医療関係者が患者のどこが悪いのかをこれまでよりも迅速に把握できるようにし、より早く治療に取り掛かることができるようになるのです」とコバラン氏は述べた。

今回のラウンドには、医療や放射線の専門家、医療技術に関心のある富裕層など、さまざまな投資家が参加した。

マレーシアで生まれ育ったコバラン氏は、オハイオ州立大学でコンピュータサイエンスを学び、卒業後は人工知能を専門とするようになった。その後、研究のため、そして好奇心から、GPUを使った人工知能を医療画像の分類に応用し、その結果「インターネット上で医療画像のゼロレイテンシーのインタラクティビティを可能にする」プラットフォームの開発につながった。

このプラットフォームは、ソフトウェアを使用する病院のテクノロジーコストを約50%削減するように設計されていて、施設のニーズに応じて拡張または縮小することができる。また、医師が世界中のどこからでも患者やそのデータにアクセスできるようになり、よりスピーディーな治療が可能になる。

コバラン氏は、このプラットフォームを利用して、画像がオンプレミスで管理されているために共同作業がしづらいという医療画像の現状を変え、人工知能を活用したものにしたいと考えている。LifeVoxelはこの技術を使って、インテリジェントな可視化による診断結果の向上を目指している。

「専門家が不足している地方の人々は、どんなデバイスでも放射線技師のワークステーションにすることができるこのプラットフォームによって、都市部と同じように画像検査のレビューで専門医のネットワークにアクセスできます。最近ではパンデミックの間に、これまでにないインタラクティブな3D VRテレプレゼンスを実現するために、数千マイル離れた遠隔地のプロクターと手術室内の外科医との間でこのような技術が展開されました」。

新型コロナパンデミックをきっかけに、より多くの医療機関がリモートや遠隔医療の機能を拡大している中で、LifeVoxelの技術はタイムリーなものだ。加えて、従来のクラウドベースのシステムから脱却し、患者の予後を向上させるためにAI技術を採用する病院が増えている。

LifeVoxelの共同創業者で社長兼CEOのSekhar Puli(シェーカル・プーリー)氏は「医療用画像処理および放射線科には、従来のシステムの不備を補うダイナミックなソリューションが必要です」と話す。

「今回の資金調達により、世界中の医療用画像アプリケーションの事実上のプラットフォームになるというビジョンを加速させるだけでなく、ヘルスケアの未来のために、遠隔医療イメージングや高度な技術ベースのAIソリューションを大きく前進させることができるでしょう」。

画像クレジット:phuttaphat tipsana / Getty Images

原文へ

(文:Annie Njanja、翻訳:Nariko Mizoguchi

キーワード検索を超える「ニューラル検索プラットフォーム」開発のJina.aiが約34億円調達

ベルリンを拠点とするJina.ai(ジナエーアイ)は、ニューラル検索を利用して、ユーザーが非構造化データ(動画や画像を含む)から情報を見つけ出すことをサポートしているオープンソースのスタートアップだ。同社は現地時間11月22日、Canaan PartnersがリードしたシリーズAで3000万ドル(約34億円)を調達したことを発表した。このラウンドには、新規投資家のMango Capitalの他、既存投資家のGGV Capital、SAP.iO、Yunqi Partnersも参加し、Jina.aiの資金調達総額は3900万ドル(約44億円)となった。

Nan Wang(ナン・ワン)氏、Bing He(ビン・ヘ)氏とともにJina.aiを創業したCEOのHan Xiao(ハン・シャオ)氏は、深層学習ニューラルネットワークを使って、従来のキーワードベースの検索ツールを超えるというのがニューラル検索だと説明する。伝達学習表現学習などの比較的新しい機械学習テクノロジーを利用することで、同社の中核のJinaフレームワークはデベロッパーが特定のユースケースに応じた検索ツールを迅速に構築するのに役立つ。

「画像、音声、動画などの場合、まずディープニューラルネットワークを使って、このデータフォーマットを普遍的な表現に変換します」とシャオ氏は説明する。「ここでは、ほとんどが数学的なベクトル、つまり100次元のベクトルです。そして、マッチングアルゴリズムでは、一致する文字数を数えるのではなく、数学的な距離、つまり2つのベクトル間のベクトル距離を数えます。このようにして、基本的にこの種の方法論を使って、あらゆる種類のデータ検索問題や関連性の問題を解決することができるのです」。

シャオ氏は、Jinaが検索のためのTensorFlowに似ていると表現した(TensorFlowはGoogleのオープンソースの機械学習フレームワークだ)。人々がAIシステムを設計する際のデザインパターンをTensorFlowやPyTorchが定義したように、Jinaは人々がニューラル検索システムを構築する方法を定義し、その過程で事実上の標準となることを目指している。

しかしJinaは、同社が現在展開する製品の1つにすぎない。Jinaベースのニューラル検索アプリケーションの構成要素を開発者が共有・発見できるマーケットプレイスであるJina Hub、あらゆるディープニューラルネットワークを微調整するためのツールである、最近立ち上げたFinetunerなども提供している。

「この1年半、我々は巨大なニューラル検索タワーの基盤となる中核インフラの構築に多大な労力を費やしてきましたが、その作業は終えました。今、我々はこの大きな建物の1階と2階を少しずつ構築しており、エンド・ツー・エンドの開発体験を提供しようとしています」とシャオ氏は話す。

同社によると、Jina AIの開発者コミュニティには現在約1000人のユーザーがいる。ビデオゲーム開発者がゲームエディターの右クリックメニューに関連するゲームアセットを自動入力するために使用したり、リーガルテックのスタートアップがPDF文書のデータを利用したQ&A体験をチャットボットで提供できるようにするために使用したりと、さまざまな用途がある。

オープンソースのJinaフレームワークには、2020年5月の発表以来、すでに200人近くの外部貢献者が参加していて、同社はこのプロジェクトに関するSlackコミュニティもホストしている。

「我々がオープンソースを採用している大きな理由は、オープンソースの速度にあります。私は開発の速度がソフトウェアプロジェクトの成功の鍵を握ると考えています。多くのソフトウェアは、この速度がゼロになってしまうことでダメになるのです」とシャオ氏は説明する。「我々はコミュニティを構築し、高速に反復するためにコミュニティを活用してフィードバックを集めています。我々のようなインフラソフトウェアにとってこれは非常に重要なことです。すばやく改善するには、使いやすさやアクセシビリティなどについて、一流の開発者たちにフィードバックしてもらう必要があります」。

Jina.aiは、今回調達した資金でチームを倍増させ、特に北米での事業を拡大する計画だ。増強したチームで、Jinaエコシステム全体を広げるための研究開発に投資し、新しいツールやサービスを立ち上げる。

「テキストデータ用に構築された従来の検索システムは、画像や動画、その他のマルチメディアがあふれる世界では機能しません。Jina AIは、企業をモノクロからカラーに変え、高速で拡張性があり、データにとらわれない方法で非構造化データを解き放ちます」とCanaan PartnersのJoydeep Bhattacharyya氏は話す。「オープンソースのフレームワークを使った初期のアプリケーションでは、意思決定の改善や業務の改善、さらには新たな収益源の創出などの機会をニューラル検索が支えており、未来の兆しがすでに見えています」。

画像クレジット:Jina.ai

原文へ

(文:Frederic Lardinois、翻訳:Nariko Mizoguchi

NVIDIAがエッジコンピューティング向け超小型AIスーパーコンピューター「Jetson AGX Orin」を発表

NVIDIAは11月9日、ロボットや医療機器などのAIエッジコンピューティング機器に組み込める超小型の「AIスーパーコンピューター」Jetson(ジェットソン)シリーズの新世代機種「AGX Orion」(オライオン)を発表した。

前世代のAGX Xavier(ゼイビアー)とフォームファクター(100x87mm)は同じながら処理速度は6倍、200TOPS(1秒間に200兆回の命令処理が可能)という性能を誇る。NVIDIA AmpereアーキテクチャーGPUとArm Cortex-A78AE CPU、次世代の深層学習セラレーター、ビジョンアクセラレーターを搭載し、複数の並列AIアプリケーション・パイプラインにフィードできるため、高速インターフェース、高速なメモリー帯域、多彩なセンサーのサポートが可能になっている。消費電力は15W。最大でも50Wとのこと。

ソフトウェアは、NVIDIA CUDA-Xアクセラレーテッド・コンピューティング・スタック、NVIDIA JetPack SDK、クラウドネイティブな開発ワークフローを含むアプリケーション開発と最適化のための最新のNVIDIAツールが利用できる。また、トレーニング済みのNVIDIA NGCカタログもある。

またJetsonには、85万人の開発者、Jetson搭載製品を製造する6000社以上の企業からなる巨大なエコシステムがあり、センサー、キャリアボード、ハードウェア設計サービス、AIおよびシステムソフトウェア、開発者ツール、カスタムソフトウェア開発といったサービスや製品が利用できる。これにより、「かつては不可能と思われていた自律動作マシンとエッジAIアプリケーションを開発および展開できるようになる」と、NVIDIAのバイスプレジデント、ディープゥ・タッラ氏は話している。

NVIDIA Jetson AGX Orinモジュールと開発者キットの発売は、2022年第1四半期を予定している。

Jeston AGX Orionモジュール仕様

  • AI性能: 200 TOPS (INT8)
  • GPU:2048基のNVIDIA CUDAコアと64基のTensorコア搭載、NVIDIA Ampereアーキテクチャー
  • GPUの最大周波数:1GHz
  • CPU:12コア Arm Cortex A78AE v8.2 64ビットCPU 3MB L2+6MB L3
  • CPUの最大周波数:2GHz
  • DLアクセラレータ−:NVDLA v2.0×2
  • ビジョンアクセラレーター:PVA v2.0
  • メモリー:32GB 256ビットLPDDR5 204.8GB/秒
  • ストレージ:64GB eMMC 5.1
  • CSIカメラ:最大6台のカメラ(仮想チャネル経由で16台)。16レーン MIPI CSI-2。D-PHY 1.2(最大40Gbps)| C-PHY 1.1(最大164Gbps)
  • ビデオエンコード:2x 4K60 | 4x 4K30 | 8x 1080p60 | 16x 1080p30(H.265)
  • ビデオデコード:1x 8K30 | 3x 4K60 | 6x 4K30 | 12x 1080p60| 24x 1080p30(H.265)
  • UPHY:2 x8(または 1×8+2×4)、1 x4、2 x1(PCIe Gen4、ルートポート&エンドポイント)。USB 3.2×3。シングルレーンUFS
  • ネットワーキング:1GbE×1、10GbE×4
  • ディスプレイ:1x 8K60 マルチモードDP 1.4a(+MST)/eDP 1.4a/HDMI 2.1
  • その他の I/O:USB 2.0×4、4×UART、3×SPI、4×I2S、8×I2C、2×CAN、DMIC&DSPK、GPIOs
  • 消費電力:15W | 30W | 50W
  • サイズとコネクタ−:100mm×87mm、699ピンMolex Mirror Mezzコネクター、一体型熱伝導プレート

NVIDIAが多機能でリアルなAIアバター・AIアシスタントが作れるプラットフォーム「Omniverse Avatar」を発表

NVIDIAは11月9日、仮想コラボレーションとリアルタイムシミュレーションのためのプラットフォーム「NVIDIA Omniverse」(オムニバース)上で使えるインタラクティブなAIアバターが作れる機能「Omniverse Avatar」(アバター)を発表した。

Omniverse Avatarは、単にインタラクティブに動かせるレンダリングされた3Dキャラクターを作るだけではなく、音声、AI、自然言語理解、レコメンデーションエンジン、シミュレーションといったNVIDIAのテクノロジーが駆使され、見たり、聞いたり、多言語で話したりができるAIアシスタントとして機能する。NVIDIAの創業者でCEOのジェンスン・フアン氏はこれを、「インテリジェントな仮想アシスタントの夜明け」と称している。

NVIDIA Omniverseの新機能として追加された「Omniverse Avatar」には、次の要素が盛り込まれている。

  • 音声認識:複数言語の音声を認識するソフトウェア開発キット「NVIDIA Riva」をベースに会話の応対を行う
  • 自然言語理解:「NVIDIA Megatron 530B大規模言語モデル(Large Language Model)」をベースに、複雑な文書の作成、幅広い分野の質問への回答、長いストーリーの要約、他言語への翻訳などを行う
  • レコメンデーション エンジン:大量のデータを処理し、賢明な提案を行うことを可能にするディープラーニング レコメンデーション システムを構築するためのフレームワーク「NVIDIA Merlin」を利用
  • 認知機能:ビデオ分析用のコンピュータービジョン・フレームワーク「NVIDIA Metropolis」を活用
  • アバターのアニメーション:2Dおよび3DのAIによるフェイシャルアニメーションとレンダリングの技術「NVIDIA Video2Face」と「NVIDIA Audio2Face」を使用
  • これらの技術がアプリケーションに組み込まれ、「NVIDIA Unified Compute Framework」を使ってリアルタイムで処理される

フアン氏のアバターを使ったデモでは、同僚とのリアルタイムの会話が披露され、生物学や気象科学などの話題について語った。また、別のデモでは、レストランの2人の客にカスタマーサービス担当アバターが対応し、ベジタブルバーガーとフライドポテトと飲み物の注文を受けることができた。さらに、騒々しいカフェでビデオ通話をする女性の音声を正確に聞き取り、その言葉をリアルタイムで書き写し、その女性と同じ声とイントネーションで、ドイツ語、フランス語、スペイン語に翻訳して見せたとのことだ。