米国議会図書館が機械学習で300年ぶんの新聞の画像を抽出し検索可能に

昔の事件や人々に関する記録に関心のある歴史家たちは、かつては古い新聞の目録カードをかき分けていたが、次にマイクロフィルムをスキャンするようになり、やがてデジタルリストを検索するようになった。だが現代の技術は、個々の単語や写真に至るまで索引化を可能にした。米国議会図書館では、最新鋭の機械学習を使って1何世紀も前からの新聞記事の写真やイラストをデジタル化し分類する取り組みを進めている。

同図書館の「招聘イノベーター」の座を獲得したワシントン大学研究員であるBen Lee(ベン・リー)氏が主導するプロジェクトNewspaper Navigator(ニューズペーパー・ナビゲーター)では、アメリカの歴史に残る1600万ページぶんを超える新聞の画像を収集しデータを抽出している。

リー氏とその仲間は、昔の新聞や印刷物のデジタル化で先行しているChronicling America(クロニクリング・アメリカ)の仕事に刺激を受けた。Chronicling Americaは新聞のあらゆる内容を光学文字認識(OCR)でスキャンしているが、これはクラウドソース・プロジェクトでもあるため、さらなる分析のための画像の特定や切り出しは人の手が必要だ。ボランティアの作業員は、第一次世界大戦に関係する画像を枠で囲んで説明文を書き写し、画像を分類している。

この限定的な取り組みを見て、リー氏のチームは考えた。「印刷物の画像の特性を生かすものとして、私はそれが大好きでした。そのプロジェクトから生まれた内容の視覚的多様性を見て、純粋に素晴らしいと感じ、米国中の新聞記事を対象にこのような内容を記録できたらどうだろうかと考えたのです」とリー氏はTechCrunchに語った。

彼はまた、ボランティアが作り出したものが、実は機械学習システムのトレーニング用データとして最適であることに気がついた。「これを使ってオブジェクト検出モデルを構築し、あらゆる新聞紙面を読み込ませれば、宝の箱を開けることはできないかと私は自問しました」。

うれしいことに、答えはイエスだった。最初の人力による画像と説明文の切り出し作業を利用し,彼らは、それを自力で行えるAIエージェントを構築した。普通に微調整や最適化のあと、彼らはChronicling Americaがスキャンした新聞記事の完全なデータベースの中にそれを解き放った。

上段左から、画像をダウンロードしてMETS/ALTOでOCR、視覚コンテンツ認識を実行、視覚コンテンツの切り出しと保存、画像埋め込みの生成。下段左から、OCR、予測された境界ボックスからOCRを抽出、抽出されたメタデータをJSON形式で保存

「19日間ノンストップで稼働しました。私が経験した中で最大のジョブです」とリー氏。しかし、結果は驚くべきものだった。3世紀(1789年から1963年)にわたる無数の画像が、それらに本来付属していた説明文から抽出されたメタデータとともに分類されたのだ。この処理が解説されている研究論文は、ここで読める。

説明文が正しいと仮定すると、これらの画像(つい最近までアーカイブを日付ごとに追いかけ、文章をひとつひとつ読んで、片っ端から調べなければ見ることができなかったもの)は、他の言語資料と同じように内容で検索できるようになる。

1870年の米国大統領の写真を探したいなら、もう狙いをつけて何十ページもの新聞を読みあさり写真の説明文の内容を何度も確かめる必要はなく、Newspaper Navigatorで「president 1870」と検索すれば済む。または、第二次世界大戦時代の風刺漫画を見たいなら、日付の範囲を指定するだけで、すべてのイラストが入手できる(彼らはすでに写真を年別のパッケージにまとめていて、その他のコレクションもそうする予定だ)。

下にいくつかの新聞紙面の例を示す。機械学習システムが切り出した枠が重ねられている(注意:帽子の広告が山ほどあり、差別的な内容も含まれる)。

  1. newsnav-examples-4

  2. newsnav-examples-3

  3. newsnav-examples-2

  4. newsnav-examples-1

  5. newsnav-examples-5

少しの間、気楽に眺めるのも楽しいが、重要なのは、これが研究者たち(そしてその他の資料一式)に何をもたらすかだ。研究チームは本日、このデータセットとツールの公開を記念して、データの利用法のアイデアを競うイベントを開催する予定だ。新しい使い道の発見と実用化の方法が得られればと彼らは期待している。

「このデータセットの創造的な利用法をみんなで考える、素晴らしい催しになればと考えています」とリー氏。「機械学習という観点から私が心底ときめいたのは、人々が独自のデータセットを作れるユーザーインターフェイスを構築するというアイデアです。風刺漫画やファッション広告など、自分の興味に応じてユーザー自身が定義し、それに基づいて分類器のトレーニングができるインターフェイスです」。

南北戦争時代の地図を要求したことを想定した検出例。

視点を変えれば、Newspaper NavigatorのAIエージェントは、その他のコレクションのスキャンやデジタル化に使える、より具体的な内容のエージェントの親になることができる。これは実際、米国議会図書館で計画されていることだ。デジタルコレクションの担当チームはNewspaper Navigatorがもたらした可能性と機械学習全般を、おおいに歓迎している。

「私たちが興味を抱いていることのひとつに、私たちが使える検索や発見の手段をコンピューターが拡大してくれる可能性があります」と米国議会図書館デジタル戦略ディレクターのKate Zwaard(ケイト・ツワード)氏は語る。OCRのおかげで、それなしに探せば何週間も何カ月もかかったであろうものが見つけられるようになりました。図書館の蔵書には、美しい図版やイラストが掲載されたものが数多くあります。しかし、たとえば聖母子像にはどんなものがあったかを知りたいとき、一部は分類されていますが、その他のものは本の中にあって分類されていません」。

その問題は、画像と説明文を結びつけるAIが体系的に本を熟読することで、早々に解決できる。

Newspaper Navigatorを構成するコード、画像、そしてそれが生み出した結果のすべては、完全なパブリックドメインとして、目的にかかわらず無料で利用でき、改変もできる。コードは同プロジェクトのGitHubで入手可能だ。

画像クレジット:Library of Congress

[原文へ]

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。