Googleの失敗から学ぶ、AIツールを医療現場へ適用することの難しさ

AIによる医療分野での魔術的な活躍がよく話題になる。機械学習モデルがまるで専門家のように問題を検出するスクリーニングという分野では、特にそれが言えるだろう。しかし、多くの技術と同じように、試験所でうまくいくことと、実社会で機能することは全く話が違う。Googleの研究者たちは、タイの田舎で行われた診療所でのテストを通じ、その厳しい事実を見せつけられた。

Google Healthは、目の画像を処理し、世界中で視力喪失の主な要因となっている糖尿病網膜症の兆候を見つける深層学習システムを開発した。しかし理論的な正しさとは裏腹に、同ツールは実際の現場テストで実用に向かないことが判明した。結果が安定せず、また現場の診療方法とうまく調和しないため、患者と看護師の両方が不満を訴えている。

ここではっきりさせておくべきことは、得られた結果は苦いものだったとはいえ、この種のテストを行うためには必要不可欠で、かつ道義性のある段階を踏んでいたという点である。また、Googleが体裁の悪い結果を公表したことは評価に値する。さらに、同社の文書を読む限り、担当チームが結果を肝に銘じていることは明らかである(ただし、ブログ記事では実際の経緯をやや楽観的に描いてはいる)。

研究報告では、タイにある数箇所の診療所で、糖尿病網膜症(DR)患者を選別する既存の手順を強化するためのツールの使用経緯が記録されている。既存の手順を手短に説明すると、看護師は糖尿病患者に1名ずつ対応し、目の画像(眼底写真)を撮影し、画像を検査して結果を報告する眼科医へまとめて送付する。患者数が多いため、通常は結果が得られるまで4~5週間かかる。

Googleシステムは、わずか数秒で眼科医レベルの専門作業を完了させる目的で開発された。社内テストでは、90%の精度でDRの度合いを判定している。これで、看護師は病院を紹介して推薦したり、さらなる検査を行う決定を1か月ではなく1分で行えることになる(自動判定は1週間以内に眼科医によってグランドトゥルース検証された)。見事な結果だ-理論的には。

目の画像(眼底写真)

理想的には、同システムはこのような結果を素早く返し、患者も確認できる

しかし、この理論は報告の著者たちが現場へ適用するやいなや、崩壊してしまった。報告には次の通り記載されている。

今回の研究では、11箇所の診療所において、目のスクリーニングプロセスをできるだけ多様に観察した。画像を取得してグレードを判定するプロセスはどの診療所でも同じである。しかし、看護師はスクリーニングのワークフロー構成において大きな自主性を持っており、また、診療所ごとに利用可能なリソースも異なっていた。

目のスクリーニングを行う環境や場所も、診療所に応じて大きく異った。高品質の眼底写真を撮影できるように、周囲を暗くして患者の瞳孔が十分に大きく映すための専用の選別室を設置した診療所は、わずか2箇所にとどまった。

環境条件とプロセスがばらばらであったため、サーバーへ送信された画像もアルゴリズムで要求される高いレベルを満たしていなかった。

この深層学習システムでは検査対象の画像が厳格な基準を満たす必要がある…画像にわずかなぼやけや暗い箇所があれば、明確に発症予測できる場合でも、システムは画像を拒否する。診療所の制約下で繰返し作業する看護師が撮影した画像の一貫性や品質は、システムが要求する高い画質を満足させなかった。このため不満が高まり、仕事量が増加した。

DRの症状を明らかに示しても画質の低い画像はシステムに拒否されるため、手順が混乱し、長引くこととなった。しかし、そもそもシステムへ画像をアップロードできなければ、こうした問題点を扱うことすらできない。

インターネット接続が良好であれば、結果は数秒で表示される。しかし、今回の研究に参加した診療所のインターネット接続は、遅くて不安定な場合が多々あった。このため、画像によってはアップロードに60~90秒かかり、スクリーニングの待ち時間が伸び、1日で処理できる患者数が減ることとなった。ある診療所では、目のスクリーニング中に2時間程度インターネット接続が途切れたため、選別した患者数は予定された200名からわずか100名へ下がった。

「最低限、危害は出ない」原則を思い出す必要があるだろう。新テクノロジーを活用する試みのおかげで、治療を受けられる患者数がかえって減ってしまった。看護師は様々な方法で埋め合わせようとしたが、画像の不安定さやその他の原因が重なり、患者に対して研究に参加しないよう勧める結果となった。

うまくいったケースでも、不慮の事態が発生している。患者は、画像送信後ただちに検査が行われて、次回の診察予約を行う準備ができていなかった。

今回の研究は、前向き研究(プロスペクティブスタディ)として設計されているため、紹介先の病院を訪れる予定をその場で立てなければならない。そのため、第4および第5診療所では、看護師は不要な面倒が増えないように、患者に対して前向き研究に参加しないよう勧告していた。

また、ある看護師はこう述べている。

「(患者)は検査の正確さではなく、その後何をしなければいけないのかを心配しているのだ。結果的に病院へ行かなければいけないのなら、診療所で検査するのは無駄なのではないかという疑問が浮かんでいる。私は患者に対し、「病院へ行く必要はない」と安心させる。彼らはまた、「もっと時間がかかるか?」「別の場所へ行かなければいけないのか?」とも聞く。出かけることができないため、研究にそもそも参加しない人もいる。40~50%の人は、病院へ行かなければいけないと考えて、研究に参加しない。」

もちろん、悪いニュースばかりではない。問題は、混みあったタイの診療所ではAIが何の役にも立たないことではない。課題と場所にソリューションをぴったり合わせなければいけないことだ。わかりやすい瞬間的な自動検査は、うまくいっている間は患者と看護師の両方から歓迎された。時には、目のスクリーニングという行為自体が緊急に対策が必要な深刻なケースを自覚させることに役立っている。当然のごとく、著しく制限されたリソース(現場の眼科医)への依存を減らすという主なメリットは、医療現場の状況を変革させる可能性がある。

しかし、今回のレポートを読む限り、GoogleのチームはこのAIシステムを時期尚早かつ部分的にのみ適用してしまった結果を真摯に受け止めているように見える。彼らはこう述べている。

新たな技術を導入したとき、企画担当者、政策立案者、技術設計者は、複雑な医療プログラムで起こる問題は流動的かつ緊急的であることを考慮していなかった。私たちは、人々のモチベーション、価値観、職業上の信念、そして仕事を形成する現行の規則と繰返し作業など、それぞれの都合を考慮することが、技術の導入を企画する際に不可欠であると考える。

この研究レポートは、AIツールが医療環境でどう効果を発揮するかを解説しており、また技術面の問題や技術を活用する人々が直面する問題の両方を理解できるため、十分に読む価値のある入門書だ。

関連記事:AIとビッグデータが新型コロナとの戦いで奇跡を起こすことはない

Category:ヘルステック 人工知能・AI

Tags:Google Google Heath 機械学習

[原文へ]

(翻訳:Dragonfly)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。