NASAのアーカイブでドキュメント理解の経験を積むDocugamiの新モデル

最近はデータについての話題が多いため、膨大な量の処理が世界中のドキュメントで行われていることを忘れてはいないだろうか。ドキュメントは多様なファイルや形式が混在する動物園のようなものだ。非常に大きな価値はあるが、クリーンな構造化データベースの時代にはまだ適合していない。Docugami(ドキュガミ)はこの状況を変えようとしている。Docugamiのシステムは、任意のドキュメントを直感的に理解した上で、内容に対してインテリジェントな方法でインデックスを作成する。NASAはこの計画に賛同している。

Docugamiのプロダクトが計画どおり機能すると、何年にもわたり積み上げられたドキュメントの山を、誰でも瞬時に使いやすいデータに変換できるようになる。

どんな会社でも、運営していればドキュメントが大量に発生する。契約書や法的書類、不動産の賃貸借契約書や同意書、マーケティング関連の提案書やリリースノート、医療のカルテなどがある。形式もさまざまで、Word(ワード)ドキュメント、PDF、ワードからエクスポートしたPDFを印刷してスキャンしたものなど、多岐にわたる。

この問題に対応しようと何年にもわたって努力が払われたが、すべてのドキュメントを1カ所に集め、社内で共有したり編集したりできるようにするなど、大部分は組織側の対応だった。ドキュメントを理解するということは、それを扱う人間に委ねられてきたケースが多い。ドキュメントを理解するのは難しいので、これはもっともな話だ。

関連記事:自然言語処理ライブラリをオープンソースで提供するHugging Faceが43.6億円調達

賃貸借契約を考えてみよう。借主の名前がJill Jackson(ジル・ジャクソン)だとする。その契約書に「借主」と書かれているのを人間が読むと、借主が誰かは理解できる。また、他に100件の契約書があるとする。そのようなドキュメントに「借主」とあれば、ドキュメントの文脈からそれが先ほどと同じ概念を意味するが、同1人物ではないことを理解できる。一方で、機械学習や自然言語理解システムにとって、このような概念を理解して適用するのは非常に難しい。それでも、もしシステムがこのような概念を理解して応用できるのであれば、世界中の膨大なドキュメントから有用な情報を山のように抽出できる可能性がある。

.docxへの貢献

Docugamiの創業者であるJean Paoli(ジャン・パオリ)氏によると、同社では問題を全面的に解決できたという。大胆な主張ではあるが、彼はそう言える数少ない人間の1人だ。パオリ氏はMicrosoft(マイクロソフト)で何十年も重要な人物だった。とりわけXML形式の作成に力を入れていた。.docxや.xlsxなどの「x」で終わるファイルをご存じだろう。パオリ氏は、そのようなファイル形式の発展に少なからず貢献している。

「データとドキュメントは同じではありません。人間が理解できるものがドキュメントで、コンピューターが理解できるものがデータです。なぜ違うのでしょうか。(マイクロソフトでの)私の最初の仕事は、ドキュメントをデータとして表せる形式を作ることでした。業界の友人たちと一緒にXMLを作り、それをBill(ビル)が承認しました」(そう、あのビル・ゲイツが)と彼は説明した。

このときに作られた形式は広く使われるようになったが、20年経った現在でも問題は解決されていない。さまざまな業種がデジタル化され、問題の規模は大きくなっているが、パオリ氏にとって解決策は同じだ。XMLのコンセプトは「ドキュメントはウェブページのように構造化されるべきだ」である。つまり、ボックス内にボックスがあり、メタデータで明確に定義されているという、コンピューターが処理しやすい階層モデルだ。

画像クレジット:Docugami

「数年前にAIに関わっていた時に、ドキュメントをデータに変換するというアイデアが浮かびました。階層モデルを参照するためのアルゴリズムが必要でしたが、そんなアルゴリズムは存在しないと他の人に言われました。XMLモデルではあらゆる要素が他の要素内にあり、各要素の持つ固有の名前から、そこに含まれるデータが分かります。このモデルは、現在使用されているAIモデルと互換性がありません。これが現実です。AIの専門家がこの問題に取り組むことを期待していましたが、そうはなりませんでした」と彼は説明した(「自分は他の分野で忙しかった」と彼は言い訳を加えた)。

コンピューティングの新しいモデルに互換性がないことは、驚くことではない。新しい技術には特定の条件や制限がつきものだ。AIは音声認識やコンピュータービジョンなど、重要な他の分野に焦点が当てられている。その分野でのアプローチは、ドキュメントを体系的に理解するニーズとは異なる。

「多くの人が、ドキュメントは猫に似ていると考えています。AIをトレーニングすることで、目やしっぽを見つけられるようになるというわけです。しかし、ドキュメントは猫には似ていません」と彼は言った。

当たり前のようだが、ここに制限があるのだ。セグメンテーション、シーンの理解、マルチモーダルのコンテキストなどの高度なAIの手法はすべて、ある意味で非常に高度な猫検出機能であり、猫だけでなく犬、車の種類、表情、場所なども検出できる。一方で、ドキュメントはそれぞれがあまりに異なっている、もしくは似すぎていると言えるかもしれない。そのため、同じようなアプローチでできるのは、せいぜいおおまかに分類することだ。

言語理解については適している面もあるが、パオリ氏が必要とする方法としては不適切だった。「AIは英語の言語レベルのように機能しています。AIは参照するテキストを、そのテキストが含まれているドキュメントと切り離して考えています。私は神経言語プログラミング(NLP)の専門家が好きです。私のチームの半数はNLPの専門家ですが、NLPの専門家はビジネスのプロセスについては考えません。XMLの専門家(コンピュータービジョンを理解している人たち)とNLPの専門家にチームで共同してもらう必要があります。そうすると、違うレベルでドキュメントを見ることができるようになります」と彼は言った。

Docugamiの仕組み

画像クレジット:Docugami

パオリ氏が既存のツール(光学文字認識のような従来の成熟した機能を超えるもの)を採用しても、目標を達成できなかっただろう。そのため彼は独自のAIラボを作り、幅広い専門分野のチームが約2年間いろいろな改造を進めた。

「我々は自己資金でコアサイエンスをこっそりと研究し、特許事務所にかなりの数の特許を提出しました。その後ベンチャーキャピタルと会合を持ち、SignalFireが1000万ドル(約10億8000万円)のシードラウンドを自発的に主導してくれました」と彼は言った。

Docugamiを実用段階まで開発を進めるところまではシードラウンドに含まれなかったが、パオリ氏は作業中のドキュメントでプラットフォームについて説明してくれた。私はアクセス権を付与されず、スクリーンショットや動画も提供してもらえなかった。統合とUIの対応が途中だということで、ここからは想像してもらう必要がある。何かしらの企業向けSaaSサービスを想像してもらえれば、ほぼ間違いない。

Docugamiのユーザーは、任意の数のドキュメントを好きなだけアップロードできる。マシンが理解できるワークフローにドキュメントを移動すると、ドキュメントが解析される。スキャンされたPDFやワードファイルなどが、コンテンツに固有の階層構造にXMLのような形式で解析される。

「例えば、500個のドキュメントを複数のグループに分類するとします。こちらの30個は同じカテゴリー、20個は似ているから同じカテゴリー、そちらの5個をまとめるという感じです。ドキュメントの見た目、内容、使用方法などの手がかりを組み合わせてグループ化します」とパオリ氏は言った。あるサービスでは賃貸借とNDAの情報を区別できるかもしれないが、ドキュメントの種類は多岐にわたるため、事前にトレーニングされたカテゴリーの内容に合わせて分類して解決することはできない。どのドキュメントも内容が重複しない可能性があるため、Docugamiでは毎回トレーニングをやり直す。ドキュメントが1つしかない場合もやり直す。「ドキュメントを分類したら、ドキュメントの全体的な構成と階層を理解します。そうすることで、ドキュメントの内容全体を有効活用できます」。

画像クレジット:Docugami

この作業で可能になるのは、見出しのテキストを選択してインデックスを作成したり、単語が検索できるようになったりすることだけではない。ドキュメントに含まれるデータ(支払元、支払先、金額、支払日、支払いの条件など)がすべて構造化され、同じようなドキュメントの文脈で編集が可能となる(推定された内容を再確認するために多少の入力が必要)。

わかりにくいと思うので、会社で進行中の融資に関するレポートを1つにまとめることを考えてみよう。必要な作業は、サンプルドキュメント内の重要な部分をハイライトするだけだ。「Jane Roe(ジェーン・ロー)」「2万ドル(約210万円)」「5年」などの部分をクリックしたら、対応する情報を取得する別のドキュメントを選択する。すると、ドキュメントから取得された名前、金額、日付などが記載されている整理されたスプレッドシートが、数秒後にできあがる。

当然、このデータはすべて移動可能である。ビジネスで一般的に使用される他のさまざまなパイプやサービスとの統合も計画されている。実現すれば、レポートの自動化、特定の条件下でのアラートの発出、テンプレートや標準ドキュメントの自動作成が可能になる(古いドキュメントを保管したり、重要なカ所に下線を引いたりする必要がなくなる)。

このような処理が、ドキュメントのアップロード後30分で行われることに注目できる。データのラベリングや前処理、クリーニングは不要だ。事前に決まっている特定の概念や、賃貸借ドキュメントの形式に基づいてAIが処理するわけではない。関連がある構造、名前、日付などの必要な情報を、アップロードしたドキュメントからすべて学習するのだ。加えて、異なる業種への対応も可能で、誰でも直感的に理解できるインターフェースを使用する。ヘルスケアデータや建設関係の契約管理など、どんなデータを入力してもツールは処理可能だ。

ウェブインターフェースは、ドキュメントを取り込んで新しいドキュメントを作成できる主要ツールの1つであるが、ワードには別のツールがある。ワードを使用する場合にDocugamiは、使用するドキュメントがどのような形式でも内容を完全に認識するアシスタントのように機能する。そのため、新しいドキュメントを作成したり、標準的な情報を入力したり、規制に準拠したりすることができる。

機械学習の適用対象として法律文書を処理するのはあまり楽しいものではないが、重要ではある。そうでなければ私はこの記事を書いていないだろう(記事の長さはともかく、記事を作成することはなかったかもしれない)。このような深い理解が必要なタイプのドキュメントは、既存業種で使用されている標準のドキュメントタイプ(警察や医療のレポートなど)で一般的となっているが、カヤックレンタルサービス向けに運用できる特注モデルを誰かがトレーニングするまで待っているのは楽しいものである。中小企業のドキュメントにも、大企業のドキュメントと同じような価値が眠っている。中小企業ではデータサイエンティストを雇う余裕がなく、大企業でもすべて手作業で行うことはできない。

NASAのお宝

画像クレジット:NASA

極めて難しい問題でも、人間にとっては些細なことがある。似たような20個のドキュメントに名前と金額のリストが含まれていても、誰でも簡単に目を通せるだろう。おそらくDocugamiがクロールしてトレーニングするよりも短い時間で、内容を把握することが可能だ。

AIを活用する目的は、人間の能力を模倣してそれを超えることにある。経理担当者が20件の契約に対するレポートを毎月作成することと、1000件の契約に対するレポートを毎日作成することは別問題だが、Docugamiではその両方をどちらも簡単に実現できる。このような運用を調整できることが重要な企業システムにとっても、ドキュメントのバックログに埋もれたデータからクリーンなデータやインサイトを集めることを望んでいるNASAにとっても、Docugamiは適していると言える。

NASAが大量に保有しているもの、それはドキュメントだ。合理的かつ適切に管理されたアーカイブは、設立当初までさかのぼれる。数多くの重要なドキュメントをさまざまな方法で利用できる。私は長い時間をかけて、楽しみながら歴史あるドキュメントの情報を精査した

NASAは、アポロ11号に関する新しいインサイトを探しているわけではない。今に至るまでのプログラム、募集、補助金プログラム、予算、エンジニアリングプロジェクトを通じて、膨大なドキュメントが生成されている。これは結局のところ、連邦政府の官僚制度の大部分を占めている。さらに、何十年にもわたって書類を管理してきた他の大規模組織と同じように、NASAのドキュメントにはさまざまな可能性が隠されている。

ファイル内には専門家の意見、研究の産物、エンジニアリングのソリューション、その他さまざまなカテゴリーの重要情報が存在しており、簡単なワードで検索できると思われるが構造化されてはいない。例えばファイルに保存されている情報をジェット推進研究所で働いている人が理解し、ノズル設計に取り入れることができれば有用ではないだろうか。また、あるトピックについて、種類、日付、作成者、ステータスごとに整理された包括的なリストの最新版を数分で入手できたらどうだろう。特許アドバイザーが、従来の技術に関するNIAC助成金の受領について、情報を提供する必要がある場合はどうだろう。特定のキーワードで調べた場合よりも具体的に、特許や申請に関する古い情報を取得できるのではないだろうか。

2020年授与されたNASAのSBIR助成金は「Johnson Space Center(ジョンソン宇宙センター)の特定の種類のドキュメントをすべて収集する」ような、特定の業務を対象とするものではない。これは、このような助成金の多くと同様に探索や調査を目的とした契約であり、DocugamiはNASAの研究者と協力して、アーカイブにテクノロジーを適用する最もよい方法を見つけるよう取り組んでいる(優れた適用方法として、SBIRとその他の中小企業向け資金提供プログラムが挙げられるかもしれない)。

米国立科学財団(NSF)が提供する別のSBIR助成金とは次の点で異なる。NASAでは、さまざまな種類のドキュメントに重複する情報が含まれていても、チームで適切に整理することを検討している。その一方でNSFでは「小さなデータ」を適切に特定することを目指している。「我々は小さなデータに注目しています。非常に細かい点です。例えば名前が記載されている場合、貸主の名前か借主の名前か、医者の名前か患者の名前かに注目します。患者の記録にペニシリンに関する記載がある場合、それが処方されているか禁止されているかに注目します。アレルギーという欄と処方という欄がある場合に、そのような項目を関連付けることができます」とパオリ氏はいう。

「私がフランス人だからかもしれません」

SBIR助成金の予算がやや少ないため、その金額では会社の経営に影響がある可能性を指摘すると、彼は笑った。

「我々は助成金に頼って運営しているのでも、助成金が重要なのでもありません。私にとって、助成金は世界最高のラボで科学者と働くための方法なのです」と彼は言った。一方で彼は、助成金によるプロジェクトがいくつも予定されていることにも言及していた。「私にとって科学は燃料です。ビジネスモデルは非常にシンプルです。Docusign(ドキュサイン)やDropbox(ドロップボックス)のような、サブスクリプション形式のサービスです」。

この会社はビジネス運営を開始したばかりであり、インテグレーションパートナーやテスターとの多少のつながりを作っている。しかし今後1年で、独自のベータ版を展開した上で一般公開する予定だ。ただし明確な日程は決まっていない。

「我々は新興企業です。1年前は社員が5~6人でしたが、このシードラウンドで1000万ドル(約10.8億円)を獲得し、波に乗っています」とパオリ氏は言った。彼はこれが儲かるビジネスであるというだけでなく、企業の仕組みを大きく変えるものになると確信している。

「人々はドキュメントが好きです。私がフランス人だからかもしれませんが、テキストや本、文書は重要だと考えています。人間にはそういうものが必要です。人間は機械が上手に考えることを助け、機械は人間が上手に考えることを助けるもの。我々はそう考えています」と彼は言った。

関連記事:企業向けノーコードAIプラットフォームのNoogataがシードラウンドで約13億円を調達

カテゴリー:人工知能・AI
タグ:Docugami機械学習NASA

画像クレジット:cifotart / Getty Images(Image has been modified)

原文へ

(文:Devin Coldewey、翻訳:Dragonfly)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。