ほとんどの企業が困ってることのひとつが、各種の伝票をはじめ、いろんな書式(フォーム, form)をデジタル情報に変えて、保存したりソフトウェアで処理したりすることだ。よくあるやり方は、人間の事務職員がコンピューターにデータ入力すること。最新技術を使う方法としては、OCRに書式を自動的に読ませるやり方がある。
しかしAWSのCEO Andy Jassyに言わせると、OCRは要するに無能な読み取り機にすぎない。それはテキストのタイプなどを認識しない。それを変えたいAmazonは今日(米国時間11/28)、Amazon Textractという、ややお利口なOCRツールを発表した。これなら書式上のデータを、もっと使いやすい形でデジタル化してくれそうだ。
Jassyが例として見せたのは、表のある書式だ。通常のOCRは表を認識しないから、表の各欄の枠を超えて、ひとつのテキストとして読み出す。Textractは、表などの、よく使われる成分を認識して、妥当な形でデータを取り出す。
Jassyによると、書式はよく形が変わるので、OCRの無能を補うためにテンプレートを使っていても、形が変わるとテンプレートは役に立たない。一方Textractは、よく使われるデータタイプ、たとえば社会保障番号、誕生日、住所などなどを知っているので、それらがどんな形で収まっていても正しく解釈できる。
“Textractには、この形の文字集合なら誕生日、これなら社会保障番号、等々と教えてあるので、書式が変わってもそれらを見逃さない”、とJassyは説明した。