はじめに
AI事業部でソフトウェアエンジニアをしている神田(@kampersanda)です。
本記事では、文書解析ツールDoclingのOCRプラグイン機能を使用し、日本語資料を解析する方法を紹介します。本記事は、高精度な日本語PDF資料の解析を目的とし、日本語資料の解析に興味があるソフトウェアエンジニアに向けて記述されます。
自然言語処理の重要な要素技術の一つに、PDF資料の解析が存在します。多くの情報はPDFとして表現されており、そのフォーマットや内容も多種多様です。これらPDFの情報を有効活用するためには、書かれている内容を解析し、システムが扱いやすい形式に変換する処理が重要となります。
本記事では、上記の変換処理を文書解析と呼び、以下のように定義します。
この文書解析を実現するソフトウェアの一つに、IBM Researchによって開発されているDoclingがあります。
続きを読む