プロの翻訳者に匹敵するAI翻訳サービスを提供するLengoo、新ラウンドで約21億円を獲得

AIベースの翻訳ツールを使用する人のほとんどは、1つのフレーズや引用文を理解するなど、一般的で比較的重要ではないタスクに利用している。技術文書を15の言語で提供しているような企業にはそのような基本的なサービスは適さないが、Lengoo(レングー)のカスタム機械翻訳モデルなら役に立つかもしれない。Bラウンドで新たに2000万ドル(約21億円)を調達した同社は、多数の見込み顧客を獲得できる可能性がある。

翻訳ビジネスは数十億ドルの規模を誇り、今後も存続が見込まれる。ごく一般的なものとしては、ドキュメント、ソフトウェア、または稼働中のウェブサイトを複数の言語(場合によっては数十言語)でリリースする作業が挙げられる。

このような作業は現在翻訳会社が行っており、専門家によるオンデマンドで質の高い翻訳を提供している。日常的なツールとしての機械翻訳の台頭は、世間が思っているほどには翻訳者の仕事に影響を与えていない。韓国のウェブサイトでポルトガル人ユーザーがGoogle(グーグル)のビルトインウェブページ翻訳を使うのはニッチなケースで、ソーシャルメディアの投稿や個人的な文章の翻訳などは専門家に外注するほどのものではないと言えるだろう。

こうした場合、最低限の意味がわかれば人々の望みやニーズは満たされるため、「まあまあのレベル」で満足するというのが法則となっている。しかし、10の異なる市場で10種類の言語を使用する製品をリリースする場合はそれでは不十分だ。説明書、警告文、契約書、技術文書などを、1つの言語では完璧に仕上げて、ほかの9言語はまあまあのレベルで提供するわけにはいかない。

レングーは、企業と翻訳者間のワークフローの自動化に取り組むチームからスタートした。

CEO兼創設者のChristopher Kränzler(クリストファー・クランツラー)氏は、「次のステップは明らかに翻訳そのものを自動化することでした。今後も当分の間、人間が行う作業は必要なままでしょう。目標は、人間による翻訳作業を減らすことができるよう、真に実用的なレベルにまでモデルの性能を引き上げることです」と語っている。

機械学習の機能は継続的に向上しているため、その目標は決して非現実的ではない。 DeepL(ディープエル)やLilt(リルト)などの他社も同じ目標に向かっている。こうした企業はグーグルやMicrosoft(マイクロソフト)のフレームワークを上回る品質向上を実現したが、翻訳プロセスから人間による作業を無くすとは決して主張していない。

レングーは、スピードと特定性、つまり、特定のクライアントのすべての専門用語、スタイル、書式設定、必要なフォーマットを統合することにフォーカスしている。そのため言語モデルのトレーニングに、顧客独自のドキュメントやウェブサイトだけでなく翻訳プロセスからのフィードバックを継続的に取り入れてカスタマイズしている。

モデルの自己改善プロセスのイメージ。画像:レングー

「当社には、モデル用の自動化されたトレーニングパイプラインがあります。人間がプロセスに修正を加えるほど、プロセスは速くなっていきます。最終的にはグーグルやディープエルの約3倍の速さになるでしょう」とクランツラー氏は言う。

新しいクライアントは、過去数年間の数千に及ぶドキュメントでカスタマイズされたモデルから開始できる。しかし、モデルが生成したテキストに修正が必要になるたびに、その修正を記憶し、他のトレーニングと一緒に統合していく。

30回のイテレーションの後、修正を必要としない文節は倍増しており、修正を少ししか必要としない文節も大幅に増加していることを示す、非常に興味深いグラフ。画像:レングー

 翻訳の「品質」を客観的に定量化することは難しい。しかしこの場合は問題なく定量化できる。人間の翻訳者が使用するツールとして機能していることは、品質チェック機能が組み込まれていることを意味する。翻訳の質の高さは、基本的にモデルが提示したテキストに対して人間がどれだけ変更を加えなければならないかを示す「補正距離」によって測定できる。修正が少ないということは、より質の高い翻訳であるだけでなく、より速いということでもあり、品質とスピードの両方に客観的な基準があることを意味する。

これらの改善は、これまで行き過ぎた自動化を懸念していた顧客にも受け入れられた。

クランツラー氏は「「最初は抵抗が見られました」と認めながらも、次のように語っている。「人々は普段の翻訳をグーグル翻訳に頼り、その品質が向上していくのを目にしています。グーグル翻訳やディープエルが市場を啓蒙し続けてきたのは事実です。今や人々は、正しく使えば専門的な用途でも機械翻訳が機能することを理解しています。大手顧客は30人、40人、50人もの翻訳者を抱えていて、それぞれ独自のスタイルを持っています。しかし私たちは、翻訳の速度とコスト効率を上げることができ、一貫性という点で品質の向上にも貢献できます。」

クライアントのデータを使ってモデルをカスタマイズすることは独自のアプローチとは言えないが、レングーは競合他社や、製品開発に遅れをとっている大企業に先んじているようだ。そして同社は、技術スタックを刷新することで、業界をけん引する立場に留まることを目指している。

課題としては、事実上、伝統的な機械学習技術に依存しているため、肝心な翻訳者とAI間のフィードバックループが制限されていることだ。モデルがどれだけ早くアップデートされるかはそのモデルの使用回数に依存するが、数百語相当のコンテンツを統合するためだけに大規模なモデルを再トレーニングすることは求められないだろう。再トレーニングにはコストがかかるため、頻繁に実行することはできない。

しかしレングーは、さまざまなパイプラインやプロセスを統合した、より応答性の高い独自のニューラルマシン翻訳フレームワークの構築を計画している。結果がリアルタイムで改善されるわけでないが、最新の情報をより迅速かつ手間の少ない方法で取り込むことができる。

応用研究責任者のAhmad Taie(アーマッド・タイエ)氏は、「文節ごとの改善と考えてください」と説明する。文節のサイズはさまざまだが、一般的にはテキストの論理的なまとまりである。「1つの文節を翻訳すると、次の文節に取り掛かるまでにモデルが改善されます。」

もちろん、顧客ごとに主力製品の機能を改善し、速度を上げ、実装しやすくしていくことが顧客をつなぎとめる重要なポイントである。業界内の競争は激しくなると見込まれるが、クランツラー氏は、グーグルやその他の既存の大企業が競争に参入する見込みはないと考えている。そうした企業は、アジャイル開発のアプローチよりも、買収によって統合するアプローチを好むためだ。

人間の翻訳専門家について言えば、機械翻訳は翻訳者に取って代わるものではなく、その効率を、最終的にはけた違いに高めるものとなる。効率化が進むことによって労働需要が縮小する可能性は考えられる。しかし、国際市場が拡大を続け、それに伴って専門的な翻訳へのニーズも増えれば、需要を維持できるかもしれない。

Inkef Capital(インケフキャピタル)のリードによる2000万ドル(約21億円)のラウンドで、レングーは北米市場だけでなくヨーロッパ内の新しい市場にも進出し、より多くのエンタープライズスタックと統合できるようになる。既存の投資家であるRedalpine(レッドアルパイン)、Creathor Ventures(クリエソー ベンチャーズ)、Techstars(テックスターズ、同社の設立したプログラムから参加)、エンジェル投資家のMatthias Hilpert(マティアス・ヒルパート)氏とMichael Schmitt(マイケル・シュミット)氏、そして新たにPolipo Ventures(ポリポ ベンチャーズ)とVolker Pyrtek(フォルカー・ピルテック)氏もこのラウンドに参加している。

関連記事:アマゾンがEchoデバイスを使った「ライブ翻訳」機能をローンチ

カテゴリー:人工知能 / AI
タグ:機械翻訳 資金調達

[原文へ]

(文:Devin Coldewey、翻訳:Dragonfly)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。