こんにちは!AI事業部エンジニアリングインターンの浅野です。
弊社は2026年3月9日から13日にかけて開催された「言語処理学会第32回年次大会(NLP2026)」にゴールドスポンサーとして協賛し、2件の学会発表を行いました。本記事では、NLP2026の現地の様子や発表内容を報告します。
去年の参加レポートはこちらから。
NLP2026
言語処理学会年次大会(NLP)は、自然言語処理に関する研究発表および国内交流の目的で毎年開催されている学会です。今年度は栃木県宇都宮市のライトキューブ宇都宮で開催され、発表件数は史上最多の797件に達しました。開催期間中は季節外れの大雪に見舞われる日もありましたが、会場内はそれを微塵も感じさせないほど、熱い議論とポスター発表が連日繰り広げられていました。会場内だけでなく、会場外の熱量も印象的でした。筆者の地元でもある宇都宮駅周辺では、食事中もどこからかNLPの話が聞こえてくるという、普段とは異なる不思議な活気に包まれており、この分野の広がりを改めて実感しました。
弊社は今回、ゴールドスポンサーとして本学会に協賛いたしました。期間中のスポンサーミートアップでは、学生から企業の方まで多くの方にお立ち寄りいただきました。ESG領域における取り組みや研究成果について、具体的な意見交換をすることができ、非常に有意義な時間となりました。

発表した論文
弊社からは佐多と梶川が、実務に根ざした2件の論文発表を行いました。具体的には、広範な文書種別で構成された日本語VQAベンチマーク、および専門性の高いESGドメインに特化した評価基盤の構築について発表しました。ポスター発表には多くの方々にお立ち寄りいただき、終始活発な議論を交わすことができました。以下に、当日発表した2件の研究の概要をご紹介します。
ESG-QA: 日本語ESG文書を対象としたマルチモーダル質問応答ベンチマークの構築
本研究では、複雑なレイアウトや図表を含む日本語の統合報告書を対象とした、実務特化型の質問応答ベンチマーク「ESG-QA」を構築しました。最大の特徴は、専門家が実務で直面する課題から問いを定義した点と、専門家視点の回答根拠を付与した点にあります。これにより、マルチモーダルLLMが単に文書内のキーワードを拾うだけでなく、投資家や企業担当者が本当に必要とする情報を自力で探索・解析する能力を、より実践に近い状況で評価することが可能になりました。具体的な評価は、膨大なページから根拠を探す「該当ページ検索」、画像やテキストから答えを導く「根拠箇所からの回答生成」、根拠箇所を画像上の座標で特定する「根拠箇所の領域検出」の計3タスクで行いました。


新たに作成したベンチマークを用いて既存のモデルを評価した結果、該当ページ検索タスクでは日本語特化の埋め込みモデル(sarashina-embedding-v2-1b)が最高精度を記録しました。また、回答生成タスクでは商用モデル(gemini-2.5-flashやgpt-5-mini)が優位性を示すなど、タスクごとに性能の差が表れました。一方で、根拠箇所を特定する領域検出の平均IoU(予測領域の重なり度合い)は0.297に留まり、複雑なレイアウトを視覚的に正しく理解することは依然として大きな課題であることが分かりました。
得られた結果に対し誤り分析を行ったところ、専門家による再検証では「誤答」とされた回答の約半数が実は正解であったことも判明しました。この結果から、ラベルの網羅性向上や専門ドメイン特有の多様な解釈を許容する評価枠組みの必要性が浮き彫りとなりました。詳細な実験設定や分析については、ぜひ論文も併せてご覧ください。また、ESG-QAをHugging Face上で公開しているので、興味のある方はご参照ください。

Omni-JDocVQA: 多種多様な文書を含んだ日本語視覚文書理解ベンチマークの構築
本研究は、既存の日本語VQAベンチマークの課題である網羅性不足や正解の存在前提を解消する評価基盤「Omni-JDocVQA」を提案しました。これは、LLMに関するオープンリサーチコミュニティであるLLM-jp主体のプロジェクトであり、弊社は同プロジェクトに協力いたしました。
従来のベンチマークデータセットは、文章精読後に作問を行うため、文章の内容を知らずに質問を行うという現実の状況を再現できておらず、文章に回答が含まれないケースを評価するための回答不能事例を意図的に混入させる必要もありました。これに対し本研究では、大規模なPDF集合から抽出した多様な文書を対象に、内容に直接依存しない「閲覧状況」を定義してから作問を行う手法を採用し、実際の質問シーンを想定した自然なQAタスクの構築を試みました(下図参照)。

新たに作成したベンチマークを用いて既存のモデルを評価した結果、GPT-5.1やQwen3-VLといったグローバルモデルが高い精度を示す一方、日本語特化モデルにおける視覚文書理解能力には依然として大きな改善の余地が見られることが分かりました。特に、既存のベンチマークでは十分に明らかでなかった、回答不能な問いが引き起こすハルシネーションや、入力ページ数の増加に伴う回答の破綻など、視覚トークンの処理能力に起因する課題を浮き彫りとし、本ベンチマークの効果を示すことができました。今後は、評価指標の妥当性や解答例の網羅性などを精査しつつ、データセットを公開していく予定です。

気になった論文
筆者が個人的に興味を引かれ、ぜひ共有したいと感じた論文を3本紹介します。近頃、業務でVLMやドキュメント解析に携わる機会が増えており、その中で感じる「技術的な違和感」や「現場での課題」を、言語化・裏付けしてくれた論文をピックアップしました。これからの開発指針にもつながる、非常に示唆に富んだ内容です。
本論文は、大規模視覚言語モデル(LVLM)がダイアグラムを解釈する際の内部プロセスを調査した研究です。ノードの色や数(大域的構造)といった情報は視覚エンコーダで即座に整理される一方、エッジ(要素間の繋がり)の情報は言語モデルがテキストを介して条件付けされた段階で初めて形成されることが示されています。この視覚的な関係情報の形成タイミングの遅れが、要素間の関係理解を妨げる要因となっている可能性があります。
私自身、統合報告書やESGレポートの複雑な図解を扱う中で、要素間の繋がりを捉えきれないLVLMの限界を痛感していました。本論文が示した「エッジ情報は言語的文脈を介して初めて顕在化する」という知見は、その違和感を技術的に裏付けるものです。視覚段階では個別の要素や全体のボリュームは捉えられていても、要素同士の結びつきが情報として独立していないことが実証された点は、非常に興味深かったです。
国語記述式答案に対するLLMを用いたOCR誤り訂正と自動採点への影響
OCRによる誤認識をLLMで自動修正し、そのまま自動採点へと繋げるプロセスの有効性を検証した論文です。興味深いのは、「文字レベルの訂正精度をいくら高めても、最終的な採点精度の向上には直結しない」という逆説的な結果です。実験では、誤り箇所を特定してから修正する「2段階訂正」によってOCRの文字再現率は向上したものの、採点精度は全体を一度に直すシンプルな「1段階訂正」と統計的な有意差がありませんでした。文字修正の完璧さと、採点モデル側が持つ解釈能力や判断の壁は別物であるという示唆がなされています。
これに関しては、ドキュメント解析で直面する「OCRの限界」にも通ずるものがあると感じました。つい文字単位の正解率を追い求めてしまいがちですが、後続に特定のタスクが控えている場合、誤字修正にリソースを割くよりも、レイアウト理解や判定モデル自体の解釈力・頑健性に投資する方が、実務上のゴールへの近道なのかなと感じました。
JaWildText: 日本語文字認識性能評価のための実世界画像データセット
実世界画像の日本語OCRと下流タスクを網羅的に評価する「JaWildText」を提案し、最先端モデルの評価を行った論文です。モデルの大型化が下流タスクの推論能力向上に寄与する一方、根拠文字列の認識成功率は飽和傾向にあり、視覚的な認識能力の改善には大きな壁があることが示されています。また、レシート構造化や手書き文字認識には依然として課題が残ることも定量的に示されています。既存の335枚のデータセットから3000枚への拡張も予定されており、今後の進展が期待されます。
推論能力で誤読を補完できてしまうからこそ、認識の弱さが見えにくくなるというVLMの限界を定量的に知ることができる興味深い内容だと感じました。モデルの推論能力が上がれば誤字は補完できますが、レシート等の情報抽出では推測は致命傷になります。単なるスケールアップでは解決できない視覚的適応という既存モデルの限界が浮き彫りになり、タスクの性質に応じた視覚的認識向上の重要性を再認識しました。
おわりに
今回のNLP2026は過去最多の発表件数を更新し、会場では連日熱い議論が交わされていました。スポンサーブースやミートアップ、懇親会など、社外のエンジニアや研究者の方々と直接交流できる場も多く、非常に有意義な時間を過ごすことができました。本会議の企画・運営に尽力された言語処理学会の皆様、関係者の皆様に深く感謝いたします。
シェルパ・アンド・カンパニー株式会社では、自然言語処理・機械学習エンジニア、およびインターンシップを随時募集しています。現在弊社ではNLP領域に加え、今回ご紹介したようなドキュメント解析やVLM/OCR技術にも注力しています。興味ある方の応募をお待ちしております。