【コラム】深層強化学習は私たちが知る製造業を変革する

編集部注：Chris Nicholson（クリス・ニコルソン）氏は、深層強化学習を産業オペレーションとサプライチェーンに適用する企業であるPathmindの創業者兼CEO。

ーーー

通りを歩きながら、目に入るものすべての名前を大声で叫んでみたとしよう。「ごみ収集車！」「競輪選手！」「プラタナスの木！」多くの人は、そんなあなたを特に賢いとは思わないだろう。一方で、例えば障害物コースを通るときに、一連の障害をうまく切り抜けて無傷で最後までたどり着く方法を示したなら、人々の評価は変わってくるはずだ。

ほとんどの機械学習アルゴリズムは、街中で名前を連呼するようなものである。人間が1秒たらずで行えるような知覚的な作業を実行する。しかし、もう1つのAIである「深層強化学習」は、戦略的なものだ。目標を達成するための一連のアクションを実行する方法を学習する。これはパワフルかつスマートな手法であり、多くの業界を変革しようとしている。

AIトランスフォーメーションの最前線にある2つの業界は、製造とサプライチェーンだ。物を作り、出荷する方法は、協働する機械群に大きく依存しており、その機械の効率性とレジリエンスは、経済と社会の基盤となっている。それがないと、生活や仕事に必要な基本的な物を手に入れることができなくなる。

Covariant、Ocado傘下のKindred、Bright Machinesなどのスタートアップは、機械学習と強化学習を用いて工場や倉庫での機械の制御方法を改変し、ロボットにさまざまな大きさや形の物体をビンの中から検出して拾わせるなど、極めて難易度の高い課題を解決している。これらの企業はまさに巨大な市場に挑んでおり、2020年には産業用制御および自動化市場は1520億ドル（約16兆7530億円）、物流自動化市場は500億ドル（約5兆5110億円）を超える価値を示した。

技術者としては、深層強化学習を機能させるには多くのことを行う必要がある。最初に考えるべきことは、どのようにして深層強化学習エージェントに、求めるスキルを実践させるかだ。これには、実際のデータを活用する方法と、シミュレーションを使用する方法の2つの手法のみ存在する。各アプローチにはそれぞれ独自の課題がある。データは収集して整理する必要があり、シミュレーションは構築して検証することが求められる。

いくつかの例を挙げて、これが何を意味するかを示そう。2016年、Google Xはロボットの「Arm Farm」を公開した。モノをつかむことを学び、他者にも同じことを教える、複数のロボットアームで満たされた空間である。これは、強化学習アルゴリズムが実際の環境で動きを練習し、動作の成功を測定するための初期の方法の1つだった。このフィードバックループは、目標指向アルゴリズムの学習に欠かせないものである。つまり、連続的な決定を行い、その決定が導く対象を把握することが必要だ。

多くの場合、強化学習アルゴリズムが学習できる物理環境を構築することは現実的ではない。複数の工場から数多くの小売店に商品を輸送する数千台のトラック群をルーティングするための、異なる戦略をテストすることを想定しよう。可能なすべての戦略をテストするには莫大な費用がかかるだけでなく、実行に失敗した場合、多くの顧客に不利益をもたらしかねない。

多くの大規模システムにとって、最適なアクションパスを見つける唯一の方法はシミュレーションを使用することである。その際、データ強化学習のニーズを生成するために、理解したい物理システムのデジタルモデルを作成する必要がある。これらのモデルは、デジタルツイン、シミュレーション、強化学習環境とも呼ばれるものだ。これらはすべて、製造とサプライチェーンの用途において、本質的に同じことを意味する。

物理システムを再作成するには、システムの動作を理解しているドメインエキスパートが必要である。このことは、単一のフルフィルメントセンターのような小規模システムでは困難な課題となり得る。というのも、システムを構築した人々が退職していたり、あるいは亡くなっている可能性があり、後継者はシステムの運用方法は習得しているものの、再構築は行っていないからだ。

多くのシミュレーションソフトウェアツールは、ドメインエキスパートによる物理システムのデジタルモデル作成を可能にする、ローコードのインターフェイスを提供する。ドメインの専門知識とソフトウェアエンジニアリングのスキルを同じ人物が兼ね備えることは難しいため、これは重要である。

なぜ1つのアルゴリズムにこれほどの労力がかかるのだろうか。つまるところ、深層強化学習は、他の機械学習や最適化ツールでは実現し得ない結果を一貫して生成するからである。DeepMindも当然ながら、囲碁の世界チャンピオンを倒すために深層強化学習を使用した。強化学習は、チェス、タンパク質フォールディング、Atariのゲームにおいて、画期的な成果を達成するために不可欠なアルゴリズムの一部となった。同様に、OpenAIは「Dota 2」で、最高水準の人間チームに勝利するための深層強化学習を訓練した。

Geoffrey Hinton（ジェフリー・ヒントン）氏がGoogleに、Yann LeCun（ヤン・ルカン）氏がFacebookに入社した後の2010年代半ばに、深層人工ニューラルネットワークがビジネス用途を開拓し始めたように、深層強化学習も業界に大きな影響を与えるようになるだろう。囲碁で見たのと同じように、ロボットの自動化とシステム制御の飛躍的な向上がもたらされ、我々の持っている中で最高の、しかも他と大きくかけ離れたものになることが大いに期待される。

その恩恵を受けて、製品の製造とサプライチェーンの運用における効率性とコスト削減が大幅に促進され、炭素排出量と労働災害の低減につながっていくだろう。明らかに物理的世界の難問や課題は、我々の周りに存在している。2020年だけでも、新型コロナウイルス（COVID-19）、ロックダウン、スエズ運河の崩壊、異常気象によって、社会は複数のサプライチェーンの混乱に見舞われた。

新型コロナに着目すると、ワクチンが開発され承認された後も、多くの国でその製造や迅速な供給が困難になっている。これらは、過去のデータでは対応できない製造やサプライチェーンの問題だ。何が起こるかを予測するシミュレーションと、危機が発生したときに最善の方法で対処するためのシミュレーションが必要だったと、Michael Lewis（マイケル・ルイス）氏は最近の著書「The Premonition」の中で指摘している。

まさにこのような、工場やサプライチェーンで発生する制約と新たな課題の組み合わせにこそ、強化学習とシミュレーションがより迅速な解決をもたらすのである。そして、我々は将来、その数々のブレイクスルーを目にすることになるだろう。

カテゴリー：人工知能・AI

タグ：機械学習、深層学習、強化学習、コラム、製造業、サプライチェーン

画像クレジット：rozdemir01 / Getty Images

［原文へ］

（文：Chris Nicholson、翻訳：Dragonfly）

【コラム】深層強化学習は私たちが知る製造業を変革する

カテゴリー：人工知能・AI

タグ：機械学習、深層学習、強化学習、コラム、製造業、サプライチェーン

投稿者:

TechCrunch Japan