Google(グーグル)は11月17日、新型コロナウイルス感染症(COVID-19)の感染予測(日本版)を公開した。感染症の数理モデルとAIを組み合わせることで、対象期間である将来28日間に予測される死亡者数、感染確認者数、入院・療養等患者数などを都道府県別に表示する。全国の予測値は都道府県の予測値を足し合わせている。
これらの情報はダッシュボードで閲覧できるほか、Google Cloudのデータ分析用ツールBigQueryや、CSVファイルとして利用可能。利用の際はユーザーガイドを必ず参照するよう呼びかけており、予測データをダウンロードまたは使用するには、Googleの利用規約に同意する必要がある。
日本版モデルの開発にあたっては、使用データの包括性、予測結果と国内感染状況との整合性、さらに、モデルの設計および予測データの検証において慶應義塾大学 医療政策・管理学教室 教授 宮田裕章氏および研究室が監修した。
またこのモデルは、医療機関や公的機関をはじめとするCOVID-19の影響を受ける組織が、今後に向けてより適切な対処を検討・準備する上で参考情報のひとつとして利用されることを目的に公開している。例えば感染者数の予測値をデータポイントのひとつとして参照することで、医療機関における医療資材やスタッフ、スケジュールなどのリソースプラニングや、検査実施計画の立案、感染拡大の兆候が見られる地域の早期発見などに活用できるという。
Google Cloudは2020年8月、Harvard Global Health Institute(ハーバード グローバル ヘルス研究所)と協力し、予測モデル(COVID-19 Public Forecasts )を米国で公開。同サービスは予測開始日から将来 14日間における米国内のCOVID-19陽性者数や死亡者数などの予測を提供するもので、日本のデータでトレーニングし十分な精度検証ができたことから、今回日本版の提供を開始したという。日本での提供は米国についで2ヵ国目となる(現在、米国と日本で提供中)。
米国で提供しているCOVID-19 Public Forecastsは、AIと膨大な疫学的データを組み合わせ、さらに、時系列の予測を扱う斬新な機械学習のアプローチを採用することで実現。米国向け初期モデルは今年8月に初公開され、現在も無償で予測情報を提供している。この情報はジョンズ ホプキンス大学、Descartes Lab、米国国勢調査局などの一般公開データを基にしており、Harvard Global Health Instituteの監修のもとで更新を続けている。
今回の日本版では、新たに95%予測区間やデータセットの追加に加え、予測対象期間を拡張した他、モデルの強化による予測精度の改善を行った。
米国版モデルを日本に対応させるにあたって行った調整
まず、感染の態様や広がり方(ダイナミクス)の基本条件は、米国版モデルでも日本版モデルでも同じ(例えば、感染は離れた場所よりも近隣の地域で広がりやすい)といった前提のもとに開発。その上で、日本版モデルでは、日本のデータセットのみを利用してトレーニングを行っており、使用したデータには厚生労働省が発表している新型コロナウイルス感染症陽性者数および死亡者数などのオープンデータ、Googleが特定の場所(食料品店、公園など)を訪れた人の数の変化を地域別にまとめた「コミュニティ モビリティ レポート」、平成27年国勢調査結果などが含まれている。
- 『東洋経済オンライン「新型コロナウイルス 国内感染の状況」制作:荻原和樹』データセッ
ト(概要) - Google コミュニティ モビリティ レポート
- Covid-19 World Symptom Survey
- 厚生労働省オープンデータ
- 日本政府の非常事態宣言の発表、2020年(首相官邸が発表した通知)
- 総務省 統計局 日本統計年鑑
- 国勢調査
- 厚生労働省 厚生統計要覧(Handbook of Health and Welfare Statistics)
- 厚生労働省 病床オープンデータ
- 厚生労働省 医師・歯科医師・薬剤師統計
- 国立感染研究所感染症情報センター
- 厚生労働省 国民生活基礎調査
- 国税庁 統計情報・各種資料
- 厚生労働省 国民健康・栄養調査報告
これら陽性者数や入院・療養等患者数、死亡者数、また人々の移動状況について国内のデータを使用しているため、予測結果には国内の感染状況やそれに対する人々の反応、さらに生活環境といった日本独自の状況が反映されているとしている。
予測モデルの精度検証では、特定の日付までのデータでトレーニングを行った後、その先28日間の予測データを出力させ、実測値と予測値を比較した。例えば10月1日までのデータでトレーニングを行った場合は、10月2日から30日までの予測値を出力させ、そのデータを同期間の実測値と比較している。検証の結果、一般的な疫学的コンパートメント モデルや検証用の米国データで十分な精度を示した簡易版モデルと比較して、この予測モデルの精度が優れていることを確認した。さらに28日間の予測以外の各種指標についても米国向けモデルと変わらない精度であることを確認した。
関連記事
・ニュースアプリNewsDigestが居住地域の新型コロナ新規感染者数・事例を確認できる「第三波アラート」提供
・GoogleがGoogle Travelで新型コロナ関連の健康・安全情報を提供へ
・オープンソースによる総務省「住民記録システム標準仕様書」準拠のシステム開発が開始
・新型コロナ研究データを集めた「COVID-19データポータルJAPAN」が公開、国立情報学研究所と国立遺伝学研究所が管理
・コード・フォー・ジャパンが飲食店情報をオープン化する「OPEN EATS JAPAN」プロジェクトを開始
・Geoloniaと不動産テック協会が日本全国の住所マスターデータをオープンデータとして公開