マンガ特化型AI翻訳システムのMantra Engineが新バージョンをリリース、14カ国語・縦スクロール作品に対応開始

マンガ特化型AI翻訳システムのMantra Engineが新バージョンをリリース、14カ国語・縦スクロール作品に対応開始

「Mantra Engine」を用いた縦スクロールコミックの翻訳作業 ©︎table桌子

マンガに特化した機械翻訳技術の研究・開発を行うMantraは2月28日、マンガ翻訳システム「Mantra Engine」の新バージョンをリリースしたことを発表した。新バージョンでは、縦スクロールコミック(Webtoon、SMARTOON)の翻訳対応、14カ国語への多言語翻訳対応が実装された。

Mantra Engineは、出版社やマンガの制作・配信事業者を対象にした法人向けクラウドサービス。Mantraが独自に開発したマンガ専用の機械翻訳技術と、プロの翻訳者による修正・校閲を組み合わせることで、高速な多言語展開・翻訳版の制作を行える。マンガの翻訳版制作に関する様々な作業をウェブブラウザー上で行えるほか、進捗をリアルタイムに把握することも可能。Mantra Engineは、国内外10社以上のマンガ配信事業者や翻訳事業者、出版社に導入されており、月間約2万ページ(単行本換算で約100冊分)のマンガ多言語化に活用されているという。

マンガ特化型AI翻訳システムのMantra Engineが新バージョンをリリース、14カ国語・縦スクロール作品に対応開始

「Mantra Engine」を用いた日本語組版 ©︎朽鷹みつき

「世界の言葉で、マンガを届ける。」をスローガンに掲げるMantraは、国内外のより多くの作品の多言語展開を支援するため、今回のMantra Engineの大規模アップデートを行なった。新バージョンでは、「ルビ・縦中横・禁則処理などCJK言語特有のレイアウト処理」「合成フォントや自動カーニング、ベースラインシフトの組版処理」といった柔軟な編集機能を採用。

また、14カ国語の多言語翻訳をサポート。入稿対応言語は、日本語、英語、中国語(簡・繁)、韓国語。翻訳対象言語は、日本語、英語、中国語(簡・繁)、韓国語、ベトナム語、インドネシア語、タイ語、フランス語、イタリア語、ドイツ語、スペイン語、ポルトガル語、ポーランド語、ロシア語となっている。

・入稿対応言語:日本語、英語、中国語(簡・繁)、韓国語
・翻訳対象言語:日本語、英語、中国語(簡・繁)、韓国語、ベトナム語、インドネシア語、タイ語、フランス語、イタリア語、ドイツ語、スペイン語、ポルトガル語、ポーランド語、ロシア語

マンガ特化型AI翻訳システムのMantra Engineが新バージョンをリリース、14カ国語・縦スクロール作品に対応開始

「Mantra Engine」での英語組版 ©︎table桌子

映画字幕のように使えるWaverly Labsの対面式翻訳機「Subtitles」、レストランや小売店などのカウンターに最適

数年前からWaverly Labsを取材し、主に同社のウェアラブル言語翻訳機を紹介している。米国時間1月5日、CESでブルックリンに拠点を置くWaverly Labsはリアルな世界での対話のために設計され、インイヤーデバイスの共有が必要ない、同社技術の新たなフォームファクターを発表した(私たちが細菌を気にかけている現在、とてもポジティブなものに感じる)。

「Subtitles」と名づけられたその製品は、両面にタッチスクリーンのディスプレイがあり、レストランや小売店や銀行、空港、ホテルなどの場所でカウンターの上に設置する。ユーザーは自分の言語を選び、話をすると、その翻訳が反対側のディスプレイに「ほぼリアルタイム」で表示される。

翻訳だけでなく、聴覚障害者のための便利なツールになりそうだ。まるで、対面式のクローズドキャプションのように。Subtitlesという製品名は「字幕」という意味だが、同社はその使用体験を、翻訳された映画を見ることに例えている。

このシステムは、20の言語と42の方言を翻訳するWaverlyの技術に基づいて構築されている。英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、アラビア語、ギリシャ語、ロシア語、ヒンディー語、トルコ語、ポーランド語、中国標準語、日本語、韓国語、広東語、ヘブライ語、タイ語、ベトナム語、オランダ語など、20言語42方言に対応している。現在CESで披露されており、第2四半期のどこかの時点で登場する予定とのこと。価格は発表されていない。

また、Waverlyはオーバーイヤー型翻訳機「Amasaddor Interpreter」の新バージョンも紹介している。Waverlyは次のように語る。

音声認識ニューラルネットワークと組み合わせた高度な遠距離フィールドマイクロホンアレイを使用して、驚くほど明瞭なレベルで音声を捕捉します。その後、クラウドベースの機械翻訳エンジンを使用して音声をシームレスに処理し、高速かつ流動的で高精度な翻訳を実現します。

こちらは、179ドル(約2万760円)で販売されている。

画像クレジット:Waverly Labs

原文へ

(文:Brian Heater、翻訳:Hiroshi Iwatani)

遠隔通訳プラットフォームのInteractioがコロナ禍でのビデオ会議需要急増で12倍の成長

国連、欧州委員会、欧州議会などの巨大機関やBMW、JPMorgan(JPモルガン)、Microsoft(マイクロソフト)などの企業を顧客に持つ遠隔通訳プラットフォームのInteractio(インテラクシオ)が、3000万ドル(約33 億円)のシリーズAをクローズした。新型コロナウイルスのパンデミックによってオンライン会議プラットフォームの需要が急増し、2019年から2020年にかけて同社のツールの使用率が12倍になったことがこの要因である。

今回のシリーズAは、Eight Roads Ventures(エイト・ローズ・ベンチャーズ)とシリコンバレーを拠点とするStorm Ventures(ストーム・ベンチャーズ)がリードしており、Practica Capital(プラクティカ・キャピタル)、Notion Capital(ノーション・キャピタル)の他、Skype(スカイプ)の共同創業者であるJaan Tallinn(ジャン・タリン)氏や、Samsung(サムスン)の元チーフ・ストラテジー・オフィサーであるYoung Sohn(ヤング・ソン)氏などの著名なエンジェル投資家が参加している。

リトアニアのヴィリニュスを拠点とするこのスタートアップは、会議と認定通訳者をつなぐデジタルツールを提供し、リアルタイムの通訳により会議参加者間の言葉の橋渡しを行っている。同社はビデオ会議プラットフォームも提供しており顧客はこれを使ってリモート会議を行うこともできるが、ZoomやWebexなどのサードパーティー製ソフトウェアとの統合も自由自在だ(2020年、同社のデジタルツールは43のビデオストリーミングプラットフォームで使用されたという)。

Interactioの通訳者は、会議が実際に行われている部屋に行くことも、会議のストリームを見聞きしながら完全にリモートでリアルタイムの通訳を行うこともできる。また、顧客の要望があれば遠隔地での通訳とオンサイトでの通訳を組み合わせることも可能だ。

会議に必要なすべての通訳者を提供することも可能で、同社は厳しい審査過程を経た認証された通訳者のみをプラットフォームに登録しているという。同社の通訳者を使わない場合、会議当日に物事が円滑に進められるよう、顧客の通訳者にツールの使い方のトレーニングも行っている。

現在Interactioは1000人以上のフリーランス通訳者と提携している他「通訳会社との強力な関係」を有していると謳っており、需要の増加に応じて通訳者の数を4倍に増やすことも可能だと豪語している。

同社のサービスではあらゆる言語の通訳を提供しており、1つのイベントで使用できる言語の数に制限はない。2020年は70カ国以上で1万8000件以上の会議を開催し、39万人の聴衆が参加したという。

新型コロナウイルスで引き続き出張に出向くことが難しい今、同社はシリーズAで得た豊富な資金を活用して、多言語によるオンライン会議が増加するであろう将来に向けて準備を進めている。

「当初私たちの最大の競合は、現場での同時通訳用ハードウェアでした。当時は、参加者が自身の携帯電話とヘッドフォン以外に別のハードウェアを使用する必要のない当社のソフトウェアを世に広めようと試みていました。しかし我々がフォーカスしていた機関にとってはハイブリッドな会議こそがカギだったのです。そこで同時通訳ハードウェアメーカーやインテグレーターと提携し、参加者はオンサイトでハードウェアを使用し、オンラインでは我々のサービスを使用するというハイブリッドイベントをともに行うようになりました」と広報担当者は話している。

「こうして、基本的にはケーブル1本でオンサイトのハードウェアと統合することができる完全なハイブリッドソリューションを提供することで、他社のプラットフォームと差別化することができました」。

「また市場のトレンドを見るとやはりZoomが最も使われているので、それを補完するために我々はプロフェッショナルな通訳ソリューションを提供しています」。

カスタマーサポートに重点を置くということも他社に差をつけるための戦略の1つとして同社は考えており、また、iOSとAndroidのアプリは総体的に高い評価を得ることができている(一方で過去のクレームの中には、大規模なオーディエンスへのサービスのスケーリングに問題があったことや、長年にわたってオーディオの品質などに問題があったことを示唆するものもある)。

2014年に設立されたこのスタートアップはすでに利益を上げているものの、今回のシリーズAはリモートワークブームの中で加速した需要と急激な成長に対応するための準備に充てたいと考えている。

具体的には、通訳を必要としている企業が簡単にアクセスできるようにするための技術やUX / UIの強化の他、通訳者が「置かれた場所で最高の仕事ができる」ようにするためのツールのアップグレードなどに使われる予定だ。

また、顧客基盤の拡大のためにも資金が投入される予定で、特により多くの企業や異なる種類の顧客の獲得を目指している(「欧州委員会、欧州議会、国連など、2020年から現在にかけて重点的に取り組んだ機関ではミスが一切許されず、最もプロフェッショナルなソリューションが求められています。顧客ベースを法人顧客や通訳を必要とするより多くの一般の人々に拡大することが次のステップです」と同社は話している)。

今回の資金は、これらの目標を達成するためのチーム規模の拡大の他、需要の増加に対応するための認定通訳者数の拡大のためにも使用される予定だ。

国連のような主要機関は、現場にしてもリモートにしても、人による通訳コストを節約して外交官や政治家に提供する通訳の質を落とすようなリスクをおかすことは決してないが、リアルタイムの機械翻訳技術が利用可能になったことで、プロフェッショナルなリアルタイム通訳のスケーリングには限界がでてくるかもしれない。リアルタイムの機械翻訳技術は、プロフェッショナル同士のカジュアルなミーティングなどのより簡単な会議の際に、より安価な代替策として活用できる。

例えばGoogle(グーグル)では、スマートフォンのプラットフォームのユーザーがGoogleの音声アシスタントAIを介してアクセスできるリアルタイム通訳モードを提供している。ハードウェアのスタートアップもリアルタイム通訳をターゲットにしようと試みている。AIを搭載した現実の「Babel Fish」への夢は依然として強いのだ。

どちらにせよ、こういったものは大規模な会議やカンファレンスをサポートするのには適さない。大規模な会議では、音質やその他の問題が発生した場合のトラブルシューティングを担当する集中型の配信サービスが不可欠である。

機械翻訳の性能が年々向上していることは間違いないが(ただし言語によって性能は大きく異なる)、機械が翻訳を間違えた場合に重要な情報が失われてしまうというリスクがある。そのため、リモートワークの増加(と海外出張の減少)がニューノーマルとなっていく今後、人間による通訳をデジタルプラットフォームでスケーラブルに提供することができれば、それが一番理に適った方法なのではないだろうか。

「迅速なソリューションを必要とし、品質を犠牲にしても構わない場合には、AIによる通訳が最適なツールです。私たちのクライアントは大企業や機関であるため、あらゆる誤解が決定的なものとなります。単に異なる言語で言葉を話すというのが目的ではなく、翻訳によって意味と文脈を正確に伝えることが重要なのです」と同社はいう。

「私たちは会話の本当の文脈や意味は人間にしか理解できないと強く信じています。声のトーンや感情、話し方によって、機械では気づかないような大きな違いが生まれることもあるからです」。

関連記事
Zoomが会議でのリアルタイム翻訳を実現するためにドイツのスタートアップを買収
世界中の視聴者にエンタメの門戸を広げるローカリゼーションサービス市場をリードするIyuno Media Group
ウェブを閲覧しながら外国語を学べるToucanが約4.9億円を追加調達

カテゴリー:ネットサービス
タグ:Interactio通訳資金調達ビデオ会議機械翻訳

画像クレジット:Interactio

原文へ

(文:Natasha Lomas、翻訳:Dragonfly)

Zoomが会議でのリアルタイム翻訳を実現するためにドイツのスタートアップを買収

企業が世界に展開し、Zoom(ズーム)のようなツールでオンライン会議を行うようになると、言葉の壁が仕事を進める上での大きな障害となる。Zoomは、ドイツのスタートアップ企業であるKarlsruhe Information Technology Solutions(カールスルーエ・インフォメーション・テクノロジー・ソリューションズ、略称Kites[カイツ])を買収し、機械学習を利用したリアルタイム翻訳機能をプラットフォームに導入するつもりであることを発表した。

両社は取引の条件を明らかにしていないが、Kitesを買収することで、Zoomはトップレベルの研究者のチームを手に入れて、同社の機械学習翻訳の知識を強化することができる。「Kitesの12名の優秀な研究チームは、Zoomのエンジニアリングチームを助けて機械翻訳の分野を進化させ、Zoomユーザーに多言語翻訳機能を提供して、会議の生産性と効率を向上させる予定です」と同社は声明で述べている。

今回の買収は実際には、この12人の研究者をZoomエンジニアリンググループに迎えるための、買収という名の人材獲得(acquihire)となるようだ。このチームはドイツに残し、機械学習翻訳の研究開発センターを開設する予定で、この分野にリソースを投入するに従い、時間をかけて追加で採用を進めていく予定だ。

Kitesのウェブサイトでは住所以外の情報はほとんど明かされていないが、LinkedIn(リンクトイン)にある会社概要ページによれば、このスタートアップは2015年に、カーネギーメロン大学とカールスルーエ工科大学で教鞭をとっていた2人の研究者が、機械学習による翻訳ツールの開発を目的として創業したものだ。

「Kitesのミッションは、言語の壁を取り払い、シームレスな異言語交流を日常生活の中で実現することです」とLinkedInの概要では述べられている。Google(グーグル)やMicrosoft(マイクロソフト)を含む数少ない企業と並んで「最先端の音声認識・翻訳技術」を開発したと謳っていることから、Zoomはいくつかの重要な技術を獲得したと考えられる。

同社は商用製品を持っていたわけではないようだが、このサイトによると、機械学習による翻訳プラットフォームを持ち、アカデミアや政府で使用されているようだ。とはいえ、この会社の研究成果は、今後はZoomのものになる。

関連記事
Zoomの会議を自動で文字起こしできるOtter.aiの新しいアシスタント機能
Zoomなどウェブ会議含め日程調整をワンストップで行うカレンダープラットフォーム「Spir」が2億円調達
NFLのスター、トム・ブレイディらも投資するZoom対応のオンライン学習スタートアップ「Class」

カテゴリー:ソフトウェア
タグ:Zoomビデオ会議翻訳ドイツ買収

画像クレジット:SurfUpVector / Getty Images

原文へ

(文: Ron Miller、翻訳:sako)

ウェブを閲覧しながら外国語を学べるToucanが約4.9億円を追加調達

ウェブを閲覧しながら新しい言語を学ぶことができるスタートアップのToucan(トゥーキャン)が、シード資金調達で450万ドル(約4億9000万円)を追加したと発表した。

2020年秋にお伝えしたように、カリフォルニア州サンタモニカを拠点とするこのスタートアップは、ユーザーが読んでいるウェブサイトのテキストをスキャンして、選ばれた単語を学習対象の言語に翻訳するChrome拡張機能を開発した。つまり、わざわざ勉強する時間を作ったり、日常的な行動パターンを変えることなく、外国語の語彙を増やすことができるのだ。

関連記事:ウェブをブラウズしながら外国語を学習できるToucanが3億円を調達

Toucanは現在、スペイン語、韓国語、フランス語、ドイツ語、イタリア語、ポルトガル語、日本語の7言語に対応している。同社共同設立者でCEOを務めるTaylor Nieman(テイラー・ニーマン)氏によると、同社の月間アクティブユーザー数は約6万人で、すべて有機的に獲得したものだという。

「Toucanは表面的にはおもちゃのように見えますが、その裏には大規模なエンジニアリング技術が存在します」と、ニーマン氏は付け加えた。

例えば、このスタートアップには人間の翻訳者チームがいるが、機械学習と自然言語処理を利用して、各単語の文脈を理解し、適切な翻訳になるように努めている。ニーマン氏によると、時間の経過とともに、表示される翻訳にインテリジェントでパーソナライズされたアプローチを適用することで、翻訳をより複雑にすることができ、ユーザーの意欲を維持するという。

画像クレジット:Toucan

Toucanは無料で利用できるが、ユーザーは月額4.99ドル(約544円)を支払って、より密度の高い翻訳が提供されるToucan Premiumに加入することもできる。Toucan Premiumの加入者は、広告の表示 / 非表示を選択することも可能だ。どうやら「Own The Word広告」(その単語が翻訳されるたびにスポンサーのメッセージが表示される機能)は人気があるため、有料ユーザーの中にはこの機能を失いたくない人もいるらしい。

Toucanは今回の追加によって総額750万ドル(約8億2000万円)を調達した。この投資ラウンドは、LightShed Ventures(ライトシェド・ベンチャーズ)が主導し、新規投資家となったNext Play Ventures(ネクスト・プレイ・ベンチャーズ)、Concrete Rose Capital(コンクリート・ローズ・キャピタル)、GingerBread Capital(ジンジャーブレッド・キャピタル)、Form Capital(フォーム・キャピタル)、Goodwater Capital(グッドウォーター・キャピタル)、Hampton VC(ハンプトンVC)、Spacecadet Ventures(スペースカデット・ベンチャーズ)、GTMfund(GTMファンド)、Baron Davis Enterprises(バロン・デイビス・エンタープライゼス)、Human Ventures(ヒューマン・ベンチャーズ)が、既存の投資家であるGSV Ventures(GSVベンチャーズ)、AmplifyHer Ventures(アンプリファイハー・ベンチャーズ)、Vitalize(ヴァイタライズ)とともに参加した。

LightShed VenturesのゼネラルパートナーであるRichard Greenfield(リチャード・グリーンフィールド)氏は、声明の中で次のように述べている。「若い世代は常にネットに接続した状態で生活しているため、画面を見ている時間は世界的に増加しています。Toucanは、シンプルなブラウザの拡張機能を介して、すでに利用しているウェブサイト(まもなくアプリも)に言語学習をシームレスに統合し、画面を見ている時間を学習する時間に変えることができます」。

ニーマン氏によると、Toucanは今回の資金調達により、チームを12人から16人に拡大する予定だという。また、英語からスペイン語への翻訳だけでなく、スペイン語から英語への翻訳など、さらなる国際化も計画している。新たにSafari(サファリ)の拡張機能もリリースされる(将来的には、より多くのブラウザをサポートする予定だ)。最終的なビジョンは、Toucanが「どこにいてもレイヤー化されている」ことである。

「私たちは、ウェブ、モバイルブラウジング、人気のソーシャルアプリ、さらには物理的な世界においても、学習の拡張レイヤーになりたいと思っています」と、ニーマン氏はいう。将来は「街中で目にする地下鉄の標識を翻訳し、あらゆるところで学習のマイクロモーメントを提供する超クールなコンタクトレンズを、人々が装着しているかもしれません」と、彼女は予測する。

カテゴリー:ネットサービス
タグ:Toucan語学学習資金調達翻訳機械学習自然言語処理

画像クレジット:Toucan

原文へ

(文:Anthony Ha、翻訳:Hirokazu Kusakabe)

SLAITのリアルタイム手話翻訳はオンラインでのコミュニケーションをアクセシブルにする

世界中で多くの人が手話を使っているが、スペイン語や中国語、ラテン語にまで自動翻訳があるのに手話を使えない人たちのための自動翻訳はない。SLAITは一般的に利用できる最初の手話翻訳ツールであると主張している。普通のコンピュータとウェブカメラだけで、出発点としてまずはおよそ200語と単純な文を翻訳することができる。

聴覚に障がいのある人や何らかの状況で音声による発話が困難な人はたくさん存在し、健聴者と同じ一般的なITツールを使っている。もちろん現在はメールやテキストチャットが便利に使われているが、顔を合わせてのコミュニケーションの代わりにはならない。そして残念ながら手話を書き言葉や話し言葉に変える手軽な方法はなく、大きなバリアとして残っている。

我々は自動手話翻訳(ほとんどはアメリカ手話)の試みを何年も前から見てきた。2012年にMicrosoftは、同社のイマジンカップで手袋で手の動きを追跡した学生チームを表彰した。筆者は2018年に、複数のカメラを使って位置を3Dで把握する手話翻訳ブースに取り組むSignAllの記事を書いた。2019年には、GoogleのAIラボが研究しているMediaPipeという新しいハンドトラッキングのアルゴリズムが将来的には手話の読み取りにつながるかもしれないことに注目した。そして実際に、ほぼその通りになった。

SLAITはドイツのAachen University of Applied Sciencesでの研究から生まれたスタートアップで、共同創業者のAntonio Domènech(アントニオ・ドメネク)氏はこの大学でMediaPipeと専用のニューラルネットワークを使った小規模なアメリカ手話認識エンジンを開発した。基本的な概念を実証したドメネク氏は、共同創業者のEvgeny Fomin(エフゲニー・フォーミン)氏、William Vicars(ウィリアム・ビカーズ)氏とともにSLAITを始めた。その後メンバーは、最初は100種類、現在では200種類のアメリカ手話の動きと単純な文を認識するシステムを構築した。翻訳はオフラインで実行され、比較的最近のスマートフォンやコンピュータ上でほぼリアルタイムに動作する。

画像クレジット:SLAIT

SLAITはこのシステムを教育や開発に使えるようにする計画で、重要度の高い一般向けのアプリケーションにする前に、データセットを拡張してモデルを向上させる。

現在のモデルは少人数のチームで驚くほど短期間で開発されたが、もちろん簡単ではなかった。MediaPipeは手や指の動きを追跡できるオープンソースの有効な手段であることは確かだが、強力な機械学習モデルに欠かせない構成要素はデータだ。この場合のデータとは実際に使われているアメリカ手話のビデオのデータで(ビデオを翻訳することになるので)、利用できるデータはそれほど大量には存在しない。

SLAITが最近DeafITカンファレンスのプレゼンテーションで説明したように、チームはまずMicrosoftの古いデータベースを使って評価をしたが、オーストラリアの新しい学術データベースの方がたくさんあり質も良いことを発見した。これにより200種類の手話をリアルタイムに92%の正確性で識別するモデルを作ることができた。これにソーシャルメディアから集めた手話のビデオ(もちろん許可を得た上で)や、手話通訳付きの行政発表を加えた。しかしまだ足りない。

プロトタイプの動作を示すGIF。一般向けのプロダクトにはもちろんワイヤフレームは表示されない(画像クレジット:SLAIT)

SLAITはこのプラットフォームを聴覚障がい者やアメリカ手話学習者のコミュニティに公開する意向だ。コミュニティは自分たちの利用がシステムの改良に生かされることに対して抵抗がないことが望ましい。

当然、SLAITのシステムは現状でも大きな意義のあるツールであると考えられる。同社の翻訳モデルは開発途上ではあるものの、多くの人の生活を変える可能性があるからだ。現在、ビデオ通話は増え続け、おそらく今後も増えていくが、アクセシビリティは置き去りにされている。自動キャプション、文字起こし、要約を提供するプラットフォームはわずかにあるが、手話を認識するプラットフォームはない。しかし同社のツールがあれば、無視されがちなチャット機能ではなく通常の手話でビデオ通話に自然に参加できるようになるだろう。

SLAITのエフゲニー・フォーミン氏は次のように述べた。「短期的には200語のモデルが利用できることを実証し、結果は日々進歩しています。中期的には手話を読み取れるコンシューマ向けアプリをリリースする予定です。しかし、あらゆる手話の動きをカバーするライブラリにするには、すべきことがたくさんあります。我々は将来的にこれを現実にするために懸命に努めています。我々のミッションは聴覚に障がいのある人々のコミュニティのためにアクセシビリティを徹底的に向上させることです」。

左から、エフゲニー・フォーミン氏、アントニオ・ドメネク氏、ウィリアム・ビカーズ氏。画像クレジット:SLAIT

フォーミン氏は「完全な」完成品にはならないだろうと慎重な姿勢を見せる。どんな言語の翻訳も置き換えも近似値でしかないのと一緒で、重要なのは多くの人にとって実用的なものになることであり、数百語はその長い道のりの出発点だ。データが増えれば新しい語が語彙に追加されるし、複数の動きを組み合わせた新しいフレーズも同様だ。そしてコアセットのパフォーマンスは向上していく。

現在SLAITは、プロトタイプを公開し創業者以外の人材を雇ってチームを大きくするための最初の資金を求めている。フォーミン氏は、関心は寄せられているものの計画とビジョンを真に理解してくれる投資家と関係を構築したいと述べた。

SLAITはデータを増やし機械学習モデルを改良してエンジン自体の信頼性が向上したら、開発をさらに進めてアプリを他の製品やサービスと統合しようと検討している。現時点の製品はPoC(概念実証)の段階だが、実証はされている。さらに開発を進めれば急成長して、聴覚に障がいのある人々が何十年も待ち望んできたものを提供できるだろう。

関連記事
ウクライナの学生チームが手話を通訳する手袋を開発した
SignAllはゆっくりと、しかし着実に手話通訳プラットフォームを構築中

カテゴリー:人工知能・AI
タグ:SLAIT手話機械翻訳アクセシビリティ

画像クレジット:Slait.ai

原文へ

(文:Devin Coldewey、翻訳:Kaori Koyama)

独自の機械翻訳エンジンを使ったメディアローカライゼーションサービスのIyuno-SDI Groupが約180億円調達

翻訳字幕などのメディアローカライゼーションサービスを提供するIyuno-SDI Groupは、ソフトバンク・ビジョン2から1億6000万ドル(約180億円)の資金を調達したと発表した。これにより、同ファンドはIyuno-SDI Group最大の株主の1つになったと述べている。

Iyuno-SDI Groupは、Iyuno Media GroupがSDI Mediaの買収を2021年3月に完了した後に設立された。ソウルの大学に在学中の2002年にIyunoを立ち上げ、Iyuno-SDI GroupのCEOを務めるDavid Lee(デビッド・リー)氏は米TechCrunchとの最近のインタビューの中で、独自開発のクラウドベースのエンタープライズリソースプランニングソフトウェアにより、字幕、吹き替え、アクセシビリティ機能などのローカリゼーションサービスを大規模に行うことができると述べている。

またIyunoは人間の翻訳者がより迅速に作業できるように、特定のエンターテインメントジャンルのデータで訓練された独自のニューラル機械翻訳エンジンを開発した。同社のクライアントにはNetflix、Apple iTunes、DreamWorks、HBO、Entertainment Oneなどがある。

合併後のIyuno-SDI Groupは世界34カ国に67の拠点を持ち、100以上の言語でローカライズサービスを提供することができる。

ソフトバンクグループは2018年、同社のベンチャーキャピタル部門であるソフトバンクベンチャーズアジアを通じてIyuno Media Groupに初めて投資した。ソフトバンク・ビジョン・ファンド2はリー氏と投資家のAltor、Shamrock Capital Advisors、SoftBank Ventures Asia Corporationとともに、Iyuno-SDI Groupの取締役会に加わる。

カテゴリー:ソフトウェア
タグ:Iyuno-SDI Group資金調達機械翻訳SoftBank Vision Fund

画像クレジット:yongyuan / Getty Images

原文へ

(文:Catherine Shu、翻訳:塚本直樹 / Twitter

AI翻訳機「ポケトーク」が音声を翻訳し本体とウェブブラウザーに文字表示を行う「ハンズフリー翻訳(β版)」を新搭載

AI翻訳機「ポケトーク」が音声を翻訳し本体とウェブブラウザーに文字表示を行う「ハンズフリー翻訳(β版)」を新搭載

©SOURCENEXT CORPORATION

AI(人工知能)翻訳機の「ポケトーク」を手がけるソースネクストは、「ポケトーク W」、「ポケトーク S」、「ポケトーク S Plus」に「ハンズフリー翻訳(β版)」を追加しました。

ハンズフリー翻訳(β版)は、リアルタイムでポケトークから音声をクラウドサーバに送り、クラウドサーバから翻訳結果をポケトーク本体や専用サイトに配信する仕組みです。専用サイトのURLやパスワードなどを相手に伝えることで、翻訳内容を共有することも可能です。

同社によると、技術的な内容の詳細については非公開とのことですが、Web会議やスピーチだけでなく、外国語のテレビやラジオなどを聞きながら日本語で意味を確認したりといったことにも活用できるそうです。

記者が実際に使用してみたところ、発話が終わってから翻訳結果が表示されるまでのタイムラグが短く感じられました。

注意点としては保存形式が限られること。現時点ではCSV形式でのみ保存できますが、個人的にはテキスト形式での保存にも対応してほしかったです。とはいえ、専用サイトに表示される翻訳結果をコピーして、パソコン向けのテキストエディタに貼り付けて保存できるため、この点についてはユーザー側の工夫次第といえそうです。

なお、ハンズフリー翻訳(β版)の利用にはWi-Fi環境が必要です。利用料は無料で、対象端末をアップデートするだけで利用できるようになります。対応言語は日本語や英語、中国語などを含む82言語。ちなみにこれは、音声認識が可能な言語数で、現在、ポケトークで対応している全言語になります。

名刺大の翻訳機「POCKETALK S」が12月発売、カメラでテキスト翻訳も
約3万円の大型通訳機 POCKETALK S Plus 発表。eSIM内蔵でどこでも訳す

(Source:ソースネクストEngadget日本版より転載)

関連記事

JapanTaxiのタブレット端末に世界74言語の通訳機能が追加、ソースネクストと業務提携
AI利用のリアルタイム英語音声文字起こし「Otter. ai」とNTTドコモが日本向け法人プラン独占販売契約
議事録自動作成用AIツール26種類をまとめた「議事録作成AIカオスマップ」が公開
マイクロソフトが会議で文字起こしや翻訳を行うアプリ「Group Transcribe」を発表
プロの翻訳者に匹敵するAI翻訳サービスを提供するLengoo、新ラウンドで約21億円を獲得
アマゾンがEchoデバイスを使った「ライブ翻訳」機能をローンチ
翻訳アプリのReversoがデスクトップ版をリリース、文書翻訳や企業内サイト翻訳など事業も拡大中
双方向同時通訳可能な新型ウェアラブル翻訳機が4月に約2.2万円で発売へ
グーグルのリアルタイム翻訳ツールがスマホにも登場

カテゴリー:人工知能・AI
タグ:音声認識 / Voice Recognition(用語)ガジェット(用語)機械翻訳(用語)ソースネクスト(企業)ポケトーク(製品・サービス)日本(国・地域)

議事録自動作成用AIツール26種類をまとめた「議事録作成AIカオスマップ」が公開

議事録自動作成用AIツール26種類をまとめた「議事録作成AIカオスマップ」が公開

人工知能(AI)を搭載したサービスの資料請求ができるAIポータルメディア「AIsmiley」を運営するアイスマイリーは3月8日、議事録自動作成用AIツールをまとめた「議事録作成AIカオスマップ」を公開した。掲載数は合計26サービス。

議事録自動作成用AIツールは、時間と労力がかかる議事録の文字起こしを、AIが代行してくれるというもの。AIが人の声を認識してテキストデータ化したり、複数の言語間を自動的に翻訳しテキスト化するといった技術の導入が進んでいる。

録音された音声を聞きながら文章として構成するのは楽な作業ではなく、場合によっては聞き間違いや聞き漏らしなどのミスも発生する。

間違いの修正など時間のロスを最小限に留め、より効率的に議事録を作成するための方法として最近注目されているのが、音声認識機能を活用した議事録自動作成のAIツールという。

ただ議事録作成AIには、ツールによって機能や実現できる内容に違いがあり、自社の課題は何か、どんな結果を実現したいのかという観点から、ツールごとの違いを比較検討することが重要としている。

また、議事録作成AIは、録音した音声から文字起こしを行うものと、リアルタイムで音声の文字起こしをするもの、日本語のみ対応・多言語対応といった違いもある。活用シーンによって選択すべきツールも異なるそうだ。

議事録作成AIカオスマップは、「議事録作成AIを試したい」企業や「議事録作成を行う最新のAIツールを探している」企業に向け、26の製品サービスを取りまとめ、マッピングしたもの。「大サイズの議事録作成AIカオスマップ(PDF)」と「議事録作成AIベンダー一覧(Excel)」が必要な場合は、問い合わせフォームから連絡することで入手できる。

関連記事
マイクロソフトが会議で文字起こしや翻訳を行うアプリ「Group Transcribe」を発表
現場状況を遠隔地と共有可能な「コネクテッドワーカーソリューション」のフェアリーデバイセズが10.2億円調達
アマゾンがEchoデバイスを使った「ライブ翻訳」機能をローンチ
LINEがOpenAI「GPT」・Google「T5」同様の超巨大汎用言語モデルをNAVERと共同開発、世界初の日本語特化
日本語に特化したAI文字起こしサービス「Rimo Voice」が登場、1時間の保存音声を最短5分でテキスト化
発言者ごとの文字起こし・議事録作成可能な「Sloos」がマイクロソフトの法人向けアプリストアで提供開始
マイクロソフトやアマゾンが音声認識チップの新興メーカーSyntiantに出資
会議や講演の音声をAIで自動的に文字起こしする「Smart書記」が8500万円を調達
AIを使った音声テキスト変換アプリOtterがNTTドコモなどから戦略的投資10億円獲得

カテゴリー:人工知能・AI
タグ:アクセシビリティ(用語)AI / 人工知能(用語)音声認識 / Voice Recognition(用語)カオスマップ(用語)機械翻訳(用語)自然言語処理(用語)文字起こし / Transcribe(用語)日本(国・地域)

マイクロソフトが会議で文字起こしや翻訳を行うアプリ「Group Transcribe」を発表

Microsoft(マイクロソフト)の社内インキュベーターであるMicrosoft Garage(マイクロソフト ガレージ)から、会議の文字起こしに使える新たなプロジェクトが発表された。

現在、リアルタイムで文字起こしが行えるスマートフォン用アプリはいくつかある。例えば「Otter.ai(オッターエーアイ)」や、Google(グーグル)のPixel(ピクセル)デバイス向け「Recorder(レコーダー)」などだ。だが、Microsoftが新たに発表した「Group Transcribe(グループ トランスクライブ)」は、会議の文字起こしを共同作業的なプロセスとして再構築し、全員が同時に自分のデバイスで会議を記録することで、精度を高めるというものだ。このアプリは、80以上の異なる地域で話されている言語をリアルタイムで翻訳する機能も備わる。

アプリを使用するには、まず1人が自分のデバイスで会議を開始する。続いてBluetooth、スキャン可能なQRコード、またはリンクを共有することで、他の出席者に参加を呼びかける。他の出席者が参加して会議が始まると、各人はリアルタイムで文字起こしされる会議の記録を自分のデバイスで見ることができる。

画像クレジット:Microsoft

AI音声言語技術を搭載したこのアプリは、会議で使用されている各人の携帯電話のマイクが捉えた話し手の声量に基づいて、より精度の高い書き起こしと話し手の識別を行うことができるという。

各出席者の声量レベルを比較することで、どの端末が話し手に最も近いか、そしてその話し手が好む言語を、クラウドサービスが判断する。つまり、このアプリでは、誰が話したのかというラベルづけも正確に行うことができる。これは1人しか記録していない他の文字起こしアプリが不得意とすることだ。

さらに、会議の参加者が自分の母国語で話したい場合は、このアプリが他の参加者のデバイスに、各人の言語に翻訳して文字化したものを提供することも可能だ。

画像クレジット:Microsoft

Microsoftによると、このアプリはアクセシビリティも考慮して設計されており、聴覚障害者や難聴者、非ネイティブスピーカーの人でも、リアルタイムの文字化や翻訳を通して、より積極的に会議に参加することが容易になるという。

このプロジェクト自体が、全員合わせると十数種類のさまざまな言語や方言を話すMicrosoftの従業員たちによって構築されたものだ。

「これはコミュニケーションのためのすばらしいツールになり得ます。私が是非とも確かめたいことは、このアプリが異なる言語を話す人々の間にある壁を打ち破るためのものであるということです」と、主任開発責任者のFranklin Munoz(フランクリン・ムノス)氏は、このプロジェクトを発表する際に語っている。

多くのクラウドベースの文字起こしサービスと同様、このアプリは機密性の高い会議には使用するべきではない。しかし、Microsoftはこのデータとプライバシーコントロールをグラニュラ(粒状)化し、ユーザーは会話データを共有したい相手や時間を決めることができる。

画像クレジット:Microsoft

収集された音声とテキストの入力データは、機能を実行するためにMicrosoftのオンライン音声認識および翻訳技術に送られるが、本名ではなくランダムに生成された識別子が使用される。

Microsoftが会議の文字起こしデータや音声記録を保存することはないが(ユーザーのデバイスに保存される)、サービス改善のために参加者が会議の記録をMicrosoftに「寄与」することを、このアプリは奨励している。

会議の参加者全員が同意した場合、Microsoftは音声と音声認識で生成されたテキストの文字起こしを保持することができる。Microsoftはこのデータを見直すことで、音声認識と話者属性の機能を時間をかけて改善していくことを目指していると言っている。ユーザーデータはその後、Microsoftの従業員やMicrosoft社に勤務する他社の契約社員が、秘密保持契約の下でアクセスできるようになるが、発言者のアカウント情報は一切含まれない。

レビュアーがアクセスできるのはランダムな音声の断片のみで、完全な録音ではない。また、Microsoftによると、例えばクレジットカード番号や電話番号などを表す長い数字の文字列は削除することで、会議の録音を「非識別化」しているとのこと。ユーザーは過去に共有した録音をいつでも削除することができるが、それ以外の場合は暗号化されたサーバーに最大2年間保存されると、Microsoftは述べている。

企業で使用する場合、管理者レベルですべてのユーザーを「寄与」に設定したりブロックしたりする方法はないので、このようなサービスの利点とリスクを慎重に検討する必要があるだろう。また、これはMicrosoft Garageのプロジェクトであり、つまり実験的なものであって、いつでも閉鎖される可能性がある。

現在、このGroup TranscribeアプリはiOSのみで利用可能だ。

カテゴリー:ソフトウェア
タグ:Microsoftアプリ機械翻訳文字起こし

画像クレジット:Microsoft

原文へ

(文:Sarah Perez、翻訳:Hirokazu Kusakabe)

プロの翻訳者に匹敵するAI翻訳サービスを提供するLengoo、新ラウンドで約21億円を獲得

AIベースの翻訳ツールを使用する人のほとんどは、1つのフレーズや引用文を理解するなど、一般的で比較的重要ではないタスクに利用している。技術文書を15の言語で提供しているような企業にはそのような基本的なサービスは適さないが、Lengoo(レングー)のカスタム機械翻訳モデルなら役に立つかもしれない。Bラウンドで新たに2000万ドル(約21億円)を調達した同社は、多数の見込み顧客を獲得できる可能性がある。

翻訳ビジネスは数十億ドルの規模を誇り、今後も存続が見込まれる。ごく一般的なものとしては、ドキュメント、ソフトウェア、または稼働中のウェブサイトを複数の言語(場合によっては数十言語)でリリースする作業が挙げられる。

このような作業は現在翻訳会社が行っており、専門家によるオンデマンドで質の高い翻訳を提供している。日常的なツールとしての機械翻訳の台頭は、世間が思っているほどには翻訳者の仕事に影響を与えていない。韓国のウェブサイトでポルトガル人ユーザーがGoogle(グーグル)のビルトインウェブページ翻訳を使うのはニッチなケースで、ソーシャルメディアの投稿や個人的な文章の翻訳などは専門家に外注するほどのものではないと言えるだろう。

こうした場合、最低限の意味がわかれば人々の望みやニーズは満たされるため、「まあまあのレベル」で満足するというのが法則となっている。しかし、10の異なる市場で10種類の言語を使用する製品をリリースする場合はそれでは不十分だ。説明書、警告文、契約書、技術文書などを、1つの言語では完璧に仕上げて、ほかの9言語はまあまあのレベルで提供するわけにはいかない。

レングーは、企業と翻訳者間のワークフローの自動化に取り組むチームからスタートした。

CEO兼創設者のChristopher Kränzler(クリストファー・クランツラー)氏は、「次のステップは明らかに翻訳そのものを自動化することでした。今後も当分の間、人間が行う作業は必要なままでしょう。目標は、人間による翻訳作業を減らすことができるよう、真に実用的なレベルにまでモデルの性能を引き上げることです」と語っている。

機械学習の機能は継続的に向上しているため、その目標は決して非現実的ではない。 DeepL(ディープエル)やLilt(リルト)などの他社も同じ目標に向かっている。こうした企業はグーグルやMicrosoft(マイクロソフト)のフレームワークを上回る品質向上を実現したが、翻訳プロセスから人間による作業を無くすとは決して主張していない。

レングーは、スピードと特定性、つまり、特定のクライアントのすべての専門用語、スタイル、書式設定、必要なフォーマットを統合することにフォーカスしている。そのため言語モデルのトレーニングに、顧客独自のドキュメントやウェブサイトだけでなく翻訳プロセスからのフィードバックを継続的に取り入れてカスタマイズしている。

モデルの自己改善プロセスのイメージ。画像:レングー

「当社には、モデル用の自動化されたトレーニングパイプラインがあります。人間がプロセスに修正を加えるほど、プロセスは速くなっていきます。最終的にはグーグルやディープエルの約3倍の速さになるでしょう」とクランツラー氏は言う。

新しいクライアントは、過去数年間の数千に及ぶドキュメントでカスタマイズされたモデルから開始できる。しかし、モデルが生成したテキストに修正が必要になるたびに、その修正を記憶し、他のトレーニングと一緒に統合していく。

30回のイテレーションの後、修正を必要としない文節は倍増しており、修正を少ししか必要としない文節も大幅に増加していることを示す、非常に興味深いグラフ。画像:レングー

 翻訳の「品質」を客観的に定量化することは難しい。しかしこの場合は問題なく定量化できる。人間の翻訳者が使用するツールとして機能していることは、品質チェック機能が組み込まれていることを意味する。翻訳の質の高さは、基本的にモデルが提示したテキストに対して人間がどれだけ変更を加えなければならないかを示す「補正距離」によって測定できる。修正が少ないということは、より質の高い翻訳であるだけでなく、より速いということでもあり、品質とスピードの両方に客観的な基準があることを意味する。

これらの改善は、これまで行き過ぎた自動化を懸念していた顧客にも受け入れられた。

クランツラー氏は「「最初は抵抗が見られました」と認めながらも、次のように語っている。「人々は普段の翻訳をグーグル翻訳に頼り、その品質が向上していくのを目にしています。グーグル翻訳やディープエルが市場を啓蒙し続けてきたのは事実です。今や人々は、正しく使えば専門的な用途でも機械翻訳が機能することを理解しています。大手顧客は30人、40人、50人もの翻訳者を抱えていて、それぞれ独自のスタイルを持っています。しかし私たちは、翻訳の速度とコスト効率を上げることができ、一貫性という点で品質の向上にも貢献できます。」

クライアントのデータを使ってモデルをカスタマイズすることは独自のアプローチとは言えないが、レングーは競合他社や、製品開発に遅れをとっている大企業に先んじているようだ。そして同社は、技術スタックを刷新することで、業界をけん引する立場に留まることを目指している。

課題としては、事実上、伝統的な機械学習技術に依存しているため、肝心な翻訳者とAI間のフィードバックループが制限されていることだ。モデルがどれだけ早くアップデートされるかはそのモデルの使用回数に依存するが、数百語相当のコンテンツを統合するためだけに大規模なモデルを再トレーニングすることは求められないだろう。再トレーニングにはコストがかかるため、頻繁に実行することはできない。

しかしレングーは、さまざまなパイプラインやプロセスを統合した、より応答性の高い独自のニューラルマシン翻訳フレームワークの構築を計画している。結果がリアルタイムで改善されるわけでないが、最新の情報をより迅速かつ手間の少ない方法で取り込むことができる。

応用研究責任者のAhmad Taie(アーマッド・タイエ)氏は、「文節ごとの改善と考えてください」と説明する。文節のサイズはさまざまだが、一般的にはテキストの論理的なまとまりである。「1つの文節を翻訳すると、次の文節に取り掛かるまでにモデルが改善されます。」

もちろん、顧客ごとに主力製品の機能を改善し、速度を上げ、実装しやすくしていくことが顧客をつなぎとめる重要なポイントである。業界内の競争は激しくなると見込まれるが、クランツラー氏は、グーグルやその他の既存の大企業が競争に参入する見込みはないと考えている。そうした企業は、アジャイル開発のアプローチよりも、買収によって統合するアプローチを好むためだ。

人間の翻訳専門家について言えば、機械翻訳は翻訳者に取って代わるものではなく、その効率を、最終的にはけた違いに高めるものとなる。効率化が進むことによって労働需要が縮小する可能性は考えられる。しかし、国際市場が拡大を続け、それに伴って専門的な翻訳へのニーズも増えれば、需要を維持できるかもしれない。

Inkef Capital(インケフキャピタル)のリードによる2000万ドル(約21億円)のラウンドで、レングーは北米市場だけでなくヨーロッパ内の新しい市場にも進出し、より多くのエンタープライズスタックと統合できるようになる。既存の投資家であるRedalpine(レッドアルパイン)、Creathor Ventures(クリエソー ベンチャーズ)、Techstars(テックスターズ、同社の設立したプログラムから参加)、エンジェル投資家のMatthias Hilpert(マティアス・ヒルパート)氏とMichael Schmitt(マイケル・シュミット)氏、そして新たにPolipo Ventures(ポリポ ベンチャーズ)とVolker Pyrtek(フォルカー・ピルテック)氏もこのラウンドに参加している。

関連記事:アマゾンがEchoデバイスを使った「ライブ翻訳」機能をローンチ

カテゴリー:人工知能 / AI
タグ:機械翻訳 資金調達

[原文へ]

(文:Devin Coldewey、翻訳:Dragonfly)

アマゾンがEchoデバイスを使った「ライブ翻訳」機能をローンチ

Amazon(アマゾン)は米国時間12月14日、Alexaの新機能Live Translation(ライブ・トランスレーション、ライブ翻訳)を発表した。2つの異なる言語で交わされる会話を翻訳するというものだ。アマゾンの音声認識技術とニューラル機械翻訳技術によって機能し英語、フランス語、スペイン語、ポルトガル(ブラジル)語、ドイツ語、イタリア語間で翻訳ができる。

ライブ翻訳を使いたいときは、Echoデバイスのオーナーが「Alexa, translate French(アレクサ、フランス語を翻訳して)」という具合に命令すると、英語とフランス語の翻訳が開始される。ビープ音がしたら、いずれかの言語で話ができるようになる。文章の間に自然な間を入れても大丈夫だとアマゾンは話している。Alexaは話された言語を自動的に認識し、互いの話を翻訳して伝える。Echo Showでは、会話を音声で聞くばかりでなく、テキストで読むこともできる。

終わらせたいときは「Alexa, stop(アレクサ、ストップ)」と命じる。

同社は、多言語翻訳機能の開発に取り組んでいることを、2018年のYahoo Finance(Yahoo Finance記事)で発表していた。

この新機能の追加により、Alexaは、すでにGoogleアシスタントで翻訳サービスが利用できるGoogleアシスタント対応機器との競争力をさらに高めることになった。Google Home機器は、2019年の初めにリアルタイムで複数言語を翻訳できる「通訳モード」を導入している。現在では、通訳モードはスマートスピーカー、スマートディスプレイ、スマートクロック、さらにはGoogleアシスタントを搭載したスマホやタブレットなど数多くのGoogleアシスタント対応機器で使用できる。しかしPixel Budsでは、導入当初、この機能はうまく働かなかった(WIRED UK記事)。

Alexaの翻訳機能がどれだけ使えるようになるかは、本日のローンチ以降のさらなる試練にかかっている。

ライブ翻訳は、Echoデバイスの言語に集中した一連のアップデートの最後の1つとなる。

これは、2019年に米国向けに導入された、たとえば英語とスペイン語、フランス語と英語、ヒンディー語と英語といった組み合わせの会話をAlexaで可能にする多言語モードに続く新機能だ。Alexaはまた、対応する50の言語の単語や語句の翻訳もできる。

さらに、ユーザー同士のコミュニケーションを円滑にするために、この機能を言語学習に利用することもできるとアマゾンでは話している。また、ホテル業界向けにデザインされたプラットフォームであるAlexa for Hospitality(アレクサ・フォー・ホスピタリティー)を通じて、ホテルの客と従業員との会話の支援も行えるという。

関連記事
Google Homeが26ヶ国語をリアルタイムで通訳してくれるようになった
米国のAlexaがスペイン語を話す、多言語モードでも

カテゴリー:人工知能・Ai
タグ:AmazonAmazon Alexa機械翻訳音声アシスタント

画像クレジット:Amazon

原文へ

(翻訳:金井哲夫)