はじめに
AI事業部でソフトウェアエンジニアをしている神田(@kampersanda)です。
本記事では、文書解析ツールDoclingのOCRプラグイン機能を使用し、日本語資料を解析する方法を紹介します。本記事は、高精度な日本語PDF資料の解析を目的とし、日本語資料の解析に興味があるソフトウェアエンジニアに向けて記述されます。
自然言語処理の重要な要素技術の一つに、PDF資料の解析が存在します。多くの情報はPDFとして表現されており、そのフォーマットや内容も多種多様です。これらPDFの情報を有効活用するためには、書かれている内容を解析し、システムが扱いやすい形式に変換する処理が重要となります。
本記事では、上記の変換処理を文書解析と呼び、以下のように定義します。
この文書解析を実現するソフトウェアの一つに、IBM Researchによって開発されているDoclingがあります。
Doclingは、文書解析機能を提供するOSSで、MITライセンスに基づいて公開されています。PDFのレンダリング(画像化)やOCR、レイアウト解析等の処理パイプラインを実現し、ユーザーはEnd-to-Endで簡単に文書解析の結果を得ることができます。また、内部で使用されているレイアウト解析モデル、表構造解析モデル共に、CDLA-Permissive-2.0ライセンスに基づいて公開されており、商用利用が可能な点も魅力の一つです。
その一方で、日本語文書を扱う場合は、Doclingに標準でサポートされているOCRエンジンの解析精度が課題となります。手元で試す限り、これらOCRエンジンは日本語の解析が十分でなく、文字認識誤りや見逃しが頻繁に発生します。実用的な結果を得るためには、日本語に強いOCRエンジンなどを組み込み使用する必要があります。
そこで本記事では、2025年3月にDoclingによりサポートされたプラグイン機能を使用して、Google Cloud Vision APIをパイプラインに組み込む方法を紹介します。また、実際の解析結果も提示し、どれくらいの改善が見られたかも確認します。
本記事は、一例としてGoogle Cloud Vision APIを組み込む方法を紹介しますが、他のOCRエンジンを組み込む際にも参考になると思われます。また、実際のコードベースも以下で公開しているため、手元で試すことも可能です。
Doclingについて
Doclingは、PDFや画像、Wordなど様々な形式の文書を解析できます。例えば、PDF文書は以下のようなパイプラインで解析されます。

最初のステップで、PDF解析器が各ページをレンダリングし、画像に変換します。次のステップで、OCRエンジンが、画像からテキストをバウンディングボックスとして検出します。以降のステップで、これらデータをレイアウト解析器、表構造解析器へと順に入力することで、最終的な解析結果が得られます。
なお、OCRが検出したテキスト情報以外にも、PDFに埋め込まれたテキスト情報を使用することもできます。むしろ、Doclingのデフォルトの挙動では、PDFに埋め込まれたテキスト情報を優先して使用します。しかし、埋め込まれたテキストがPDFビューアーの表示と一致する保証は無く、表示通りのデータを得たい場合は、レンダリング画像から検出したテキスト情報を使用する方が無難です。故に、OCRの解析精度が重要となります。
日本語文書での問題点
Doclingでは、いくつかのOCRエンジンがオプションとして組み込まれています。例えば、EasyOCRやTesseractなどOSSのOCRエンジンがサポートされています。これらから好きなオプションを選ぶのがDoclingの基本的な使用方法です。
この際、日本語を扱う上で問題となるのが、それらOCRエンジンの解析精度です。EasyOCRやTesseractなどのDoclingでサポートしているOCRエンジンは、現時点で日本語の解析精度が十分ではありません。例として、下の画像に対してTesseractを使用してMarkdownに変換した結果を示します。

## (1 ) 市場の概況 <!-- image --> 世界のサイバーセキュリティの市場 (売上高) 人還還還還量還昌電卓のサイバーセキュリティ市場規模っナリしリルルレ| 間は引き続き聖調で、2023年には790億ドル 了 遼ドル) 11.1%増) になると予測されている (図表II -1-
文字認識誤りが多く発生していることが確認できます。このため、実用性を踏まえると他の高精度なOCRエンジンを使用する必要があります。
OCRの拡張機能
2025年3月までは、任意のOCRエンジンをDoclingで使用するには、愚直にライブラリの中身を書き換える必要がありましたが、2025年3月18日に以下のPull Requestがマージされ、OCRの拡張機能が実装されました。これにより、任意のOCRエンジンをDoclingのパイプラインに組み込むことが可能になりました。当該機能は、v2.27.0から使用できます。
以下が、その拡張機能についての公式のドキュメントです。
2025年7月8日時点では、その使用方法についての記述は多くなく、実際に使用するにはライブラリのコードから情報を補完する必要があります。
Cloud Vision APIをDoclingに組み込む方法
本節では、プラグイン機能を使用してGoogle Cloud Vision APIを組み込む方法を、実装例を示しながら紹介します。想定するDoclingのバージョンは v2.39.0、Pythonのバージョンは 3.12 です。
レポジトリの構成
以下にレポジトリの構成を示します。(一部ファイルを省略しています)
docling-plugin-example ├── docling-main │ ├── pyproject.toml │ └── src │ └── docling_main │ ├── __init__.py │ └── japanese_space_remover.py ├── docling-plugin │ ├── pyproject.toml │ └── src │ └── docling_plugin │ ├── __init__.py │ ├── vision_model.py │ └── vision_schema.py └── pyproject.toml
docling-plugin は、Cloud Vision APIを利用した拡張ライブラリを実装したパッケージです。本節で紹介するのは主にこのパッケージです。docling-main は、docling-plugin を利用してDoclingを実行するためのCLIツールです。
プラグインの実装
docling_plugin パッケージの内容を説明します。
1. パッケージ設定ファイル
プラグインを追加する側は、設定ファイルに以下の2行を記述することで、Doclingのプラグインシステムがこのパッケージを読み込めるようにします。
# docling-plugin/pyproject.toml [project.entry-points."docling"] custom_docling_plugin = "docling_plugin"
この記述は、docling_plugin モジュールに自作OCRクラスを返すファクトリ関数が含まれることを示しています。custom_docling_plugin は任意のプラグイン名です。
2. ファクトリ関数
docling_plugin/__init__.py には、自作のOCRクラスを返す以下の ocr_engines 関数を定義します。関数名と返り値の型、及びその辞書のキー名 ocr_engines は固定です。
# docling_plugin/__init__.py from docling_plugin.vision_model import VisionOcrModel def ocr_engines(): return { "ocr_engines": [ VisionOcrModel, ] }
辞書の値に登録したい自作OCRクラスを格納します。このOCRクラスは、BaseOcrModel クラスのサブクラスである必要があります。
3. 自作OCRクラス
Cloud Vision APIを組み込んだOCRクラスの具体的な実装方法を説明します。OCRクラスを自作するためには、以下のクラスのサブクラスを実装します。
OcrOptionsは、OCRの設定を格納するクラスです。パイプラインの引数として渡されます。
# docling/datamodel/pipeline_options.py # 必須のフィールドのみを記載しています from typing import ClassVar, List class BaseOptions(BaseModel): """Base class for options.""" kind: ClassVar[str] class OcrOptions(BaseOptions): """OCR options.""" lang: List[str]
kind は、OCRオプションを指定するフィールドです。パイプライン内部でのディスパッチに使用されます。lang は、入力言語をOCRに指定するためのフィールドです。
Cloud Vision用の OcrOptions は以下のように実装できます。
# docling_plugin/vision_model.py from typing import ClassVar, List, Literal class VisionOcrOptions(OcrOptions): """OCR options.""" kind: ClassVar[Literal["visionocr"]] = "visionocr" lang: List[str] = []
Cloud Visionでは言語を自動で判別するので、Doclingから指定する必要はありません。 lang 値は使用しないので常に空にしておきます。
BaseOcrModelは、OCRの挙動を定義するためのクラスです。以下の2つの抽象メソッドを実装します。
# docling/datamodel/pipeline_options.py class BaseOcrModel(BasePageModel, BaseModelWithOptions): @abstractmethod def __call__( self, conv_res: ConversionResult, page_batch: Iterable[Page] ) -> Iterable[Page]: """ OCR処理を実行する関数。 Args: conv_res: パイプラインでの変換結果を持ち回るクラス page_batch: 入力となるページ情報 Yields: 更新されたPageオブジェクト """ pass @classmethod @abstractmethod def get_options_type(cls) -> Type[OcrOptions]: """ OCRのオプションを返す関数。 """ pass
EasyOcrModelの実装を参考に、google.cloud.vision_v1.ImageAnnotatorClient を組み込んだ VisionOcrModel は以下のソースコードのように実装できます。(コードが長いので記事には貼り付けません。要所にはソースコード内に解説コメントを添えています。)
注意点として、VisionOcrModel 内で使用している関数や変数の仕様は、Doclingの更新に伴って暗黙的に変更される可能性があります。プラグインを追加する際には、プラグインが正しく動作することを保証するテストを追加した方が良いでしょう。
使用例
最後に、拡張したOCRクラスを使ってPDFをMarkdownに変換する例を示します。要所にはコメントを添えています。
# docling_main/__init__.py from docling.datamodel.base_models import InputFormat from docling.datamodel.pipeline_options import PdfPipelineOptions from docling.document_converter import DocumentConverter, PdfFormatOption from docling_plugin import VisionOcrOptions # 後処理として、OCRで検出したトークン間に差し込まれた空白を削除する関数 from docling_main.japanese_space_remover import remove_spaces_in_document # 後処理として、表のセルテキストに含まれる文字`|`を削除する関数 from docling_main.table_cleaner import remove_markdown_boundaries_in_table if __name__ == "__main__": pipeline_options = PdfPipelineOptions() # プラグイン機能を有効にするためにはTrueを設定 pipeline_options.allow_external_plugins = True pipeline_options.ocr_options = VisionOcrOptions( # PDFに埋め込まれたテキスト情報を使用せず、OCRで検出した # テキスト情報のみを使用する場合はTrueを設定 force_full_page_ocr=True, ) converter = DocumentConverter( format_options={ InputFormat.PDF: PdfFormatOption( pipeline_options=pipeline_options, backend=PyPdfiumDocumentBackend, ) } ) # 変換処理 result = converter.convert("input.pdf") # 独自の後処理 result.document = remove_spaces_in_document(result.document) result.document = remove_markdown_boundaries_in_table(result.document) # Markdownとして出力 print(result.document.export_to_markdown())
解析結果の後処理として、remove_spaces_in_document を使用して文字間に不要に差し込まれた空白を削除しています。これは例えば、OCRが サイバーセキュリティ という文字列を、サイバー と セキュリティ のように分けてバウンディングボックスを検出したときに、Doclingがその間に空白を挿入し結果を出力するためです。
また、remove_markdown_boundaries_in_table を使用して、表のセル内のテキストに含まれた文字 | を削除しています。これは、表をMarkdownとして出力した際にセルがズレることを回避するためです。
どちらの関数も簡単なルールベースの処理のため、気になる方はレポジトリの実装を確認してください。
解析結果
令和6年版情報通信白書で公開されている「第10節 サイバーセキュリティの動向」というPDF資料を、本記事で導入したCloud Visionと、Doclingに標準搭載されているEasyOCR, Tesseract, RapidOCRを用いて、解析結果を比較してみます。
1ページ目の解析結果
1ページ目(下図)の解析結果を比較します。各OCRを使用した解析結果を示した後、所感を与えます。

Cloud Vision
## 第 10 節サイバーセキュリティの動向 <!-- image --> ## 市場の概況 世界のサイバーセキュリティの市場 ( 売上高 ) は引き続き堅調で、 2023 年には 790 億ドル 11.1 % 増 ) になると予測されている ( 図表 Ⅱ -110-1 ) . ## 図表 Ⅱ -1-10-1 ## 世界のサイバーセキュリティ市場規模の推移 サイバーセキュリティ市場の主要事業者として、 Cisco 、 Palo Alto Networks 、 Check Point 、 Symantec Fortinet の 5 社が 2018 年から 2019 年まで世界 Top5 の市場シェアを獲得していたが、 2020 年からは Symantec の代わりに Trellix が台頭し、 2022 年には 3.1 % のシェアを獲得している。しかし、 2023 年時点では Check <!-- image --> Point 、 Trellix に代わり Microsoft 、 Crowd Strike が Top5 に入っている。また、近年はトップシェアである Palo Alto Networks の市場シェアが拡大している。 ## 関連データ ## 世界のサイバーセキュリティ主要事業者 出典 : Canalys データを基に作成 URL : https : //www.soumu.go.jp/johotsusintokei/whitepaper/ja/r06/html/datashu.html#f00294 ( データ集 ) <!-- image --> 2022 年の国内の情報セキュリティ製品市場 ( 売上高 ) は、前年比 19.8 % 増の 5,254 億 5,400 万円となった。セキュリティ製品の機能市場セグメント別では、エンドポイントセキュリティソフトウェアやネットワークセキュリティソフトウェアなどを含む、セキュリティソフトウェア市場の 2022 年の売上額が 4,274 億 200 万円で全体の 81.3 % を占め、コンテンツ管理、 UTM や VPN などを含むセキュリティアプライアンス市場は 980 億 5,100 万円で全体の 18.7 % となった。 また、 2021 年及び 2022 年の国内情報セキュリティ製品のベンダー別シェア ( 売上額 ) について、 2022 年の市場全体のシェア率が 2 % 以上の企業を「外資系企業」と「国内企業」に分類し、それら企業における 2021 年及び 2022 年の売上額を集計した結果、ともに外資系企業のシェアが 5 割を超えており、国内のサイバーセキュリティ製品はその多くを海外に依存している状況が引き続いているといえる ( 図表 Ⅱ -1-10-2 ) 。
EasyOCR
## 第10節サイバーセキュリティの動向 <!-- image --> 世界のサイバーセキュリティの市場 (売上高) は引き続き堅調で 2023年には790憶ドル 11.1%増) になると予測されている 10-1) サイバーセキュリティ市場の主要事業者として ## 関連データ ## 世界のサイバーセキュリティ主要事業者 出典 (データ集) ## 世界のサイバーセキュリティ市場規模の推移 <!-- image --> 近年はトップ <!-- image --> 2022年の国内の情報セキュリティ製品市場 (売上高) は前年比19.8%増の5,254憶5,400万円となった。セキュリティ製品の機能市場セグメント別では、エンドポイントセキュリティソフトウェアやネットワークセキュリティソフトウェアなどを合むセキュリティソフトウェア市場の 2022年の売上額が4,274憶200万円で全体の81.3%を占めコンテンツ管理どを合むセキュリティアプライアンス市場は980憶5,100万円で全体の18.7%となった。 また 2021年及び2022年の国内情報セキュリティ製品のベンダー別シェア (売上額) について 2022年の市場全体のシェア率が2%以上の企業を「外資系企業」と「国内企業」に分類し、それら企業における2021年及び2022年の売上額を集計した結果ともに外資系企業のシェアが 5割を超えており国内のサイバーセキュリティ製品はその多くを海外に依存している状沢が引き続いているといえる
Tesseract
## 第]() 節サイバーセキュリティのの動向 ## (1 ) 市場の概況 <!-- image --> 世界のサイバーセキュリティの市場 (売上高) 人還還還還量還昌電卓のサイバーセキュリティ市場規模っナリしリルルレ| 間は引き続き聖調で、2023年には790億ドル 了 遼ドル) 11.1%増) になると予測されている (図表II -1- 900 10-1)。 6 フ00 サイバーやセキュリティ市場のヨ業者とし 600) て、 CC1SCO、PalO AItO NetWOrTKS、Check っ0U 400 Point、Symantec、Fortinetの5社が2018年か。ら 2019年まで世界TopSの市場シェアを獲得し 200 ていたが、2020年からはSymantecの代わりに "" Trellix が台頭し、2022年には3.19%のシェアを 201う9 。。 2020。。 2021 2人202 2023( (出典) Canalysデータを共に作成 答得している。しかし、2023年時点では Check <!-- image --> Point、Trellix に代わり Microsoft、Crowd StrikeがTop5に入っている。また、近年はトップンェアであるPalo Alto Networks の市場シェアが拡大している。 ## 関連データダ世界のサイバーセキュリティ主要事業者 出典 : Canalys データを基に作成 URL : httDs:/ハWWW.SOurmU.gO.|D/ [OnOtsusintOKeIハWhiteDaper/」a/rO6/ntmUdatashu.htmLHTO0294 (データ集) <!-- image --> 2022 TU S 図 内の情報セキュリティ製品市場 (売上高) は、前年比19.8%増の5.254億5.400 万 HHとなった。セキュリティ製品の機能市場セグメント別では、エンドボイントセキュリティゾソフトソリエアやネットワークセキュリティイィイソゾソフトウェアなどを含む、セキュリティソフトウェア市場の 2022 年の売上額が4.274億200 万円で全体の81.3% を占め、コンテンツ管理、UTMやVPN などを含むセキュリティアプライアンスズ市場は980 億5.100 万円で全体の 18.79% となった。 また、2021 年及び2022 年の国内情報セキュリティ製品のベンダー別シェア (売上符) について、20022旦 Eの) 市場全体のシェア率が2以上の企業を |外資系企業| と| 内企業| 【 ー 分類し、それら和企業における2021 年及び2022年の売 5割を超えており、国内のサイバーセキュリティ届品はその多くを海外に依存している状況が引き *いているといえる (図表 IL -1-10-2) 。
RapidOCR
## 第10 の動向 <!-- image --> ## 市場の概况 世界のサの市場 (上高) 引統調、2023年790億儿 11.1%增)予測(表Ⅱ-110-1)。 ## 世界の場模の推移 ## 表Ⅱ-1-10-1 場の主要事者 Z、Cisco、Palo Alto Networks、Check Point、Symantec、Fortinetの5社2018年力 52019年世界Top5の市場獲得、2020年Symantecの代 Trelix台頭、2022年3.1%の獲得)。、2023年時点Check <!-- image --> Point、Trellix代Microsoft、CrowdStrikeTop5。、近年 PaloAltoNetworksの市場。 ## 開連一夕 ## 世界要事者 出典:Canalys一夕基作成 URL : https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r06/html/datashu.html#f00294 (一夕集) <!-- image --> 2022年の国内の情報七製品市場(壳上高)、前年比19.8%增の5,254億5,400万。品の機能場别、含、場の 2022年の壳上额4,274億200万全体の81.3%占、管理、UTMVPN 含場980億5,100万全体の18.7%。 、2021年及2022年の国内情報品の别(上额))、2022年の市場全体の率2%以上の企業「外資系企業」「国内企業」分類、企2021年及2022年の上额集計果、外資系企業の 5割超、国内の品の多海外依存(表-1-10-2)。
所感
Cloud Visionを使用して得られた結果は、文字化け無く最も正確に構造化されていることがわかります。図表のキャプションとイメージタグが誤った位置に挿入されている点を除けば、構造に問題無さそうです。ただし、空白の後処理が甘く、不自然に空白が挿入されているため、より自然なテキストを得たい場合は適切な後処理が必要となります。
その他のOCRを使用した結果は、段落を見逃していたり、文字認識が誤っていたりと、実用的な水準に達していないことが容易にわかります。
表の解析結果
4ページ目の上部の表(下図)が、Cloud Visionを使ってどのように解析されたかを示します。

以下がその結果です。
| 調査・分析の実施主体 | 対象地域 | 対象期間 | 経済的損失の概要 | 損失額 |
|---|---|---|---|---|
| トレンドマイクロ | 日本 | 2023 年【調査時期】 | 過去 3 年間でのサイバー攻撃の被害を経験した法人組織の累計被害額の平均 | 1 億 2,528 万円 |
| 警察庁 | 日本 | 2023 年上半期 | ランサムウェア被害に関連して要した調査復旧費用の総額 | 26 % が 100 万円未満 19 % が 100 万 ~ 500 万円未満 25 % が 500 万 ~ 1,000 万円未満 23 % が 1,000 万 ~ 5,000 万円未満 8 % が 5,000 万円以上 |
| FBI | 米国 | 2022 年 | サイバー犯罪事件による被害報告総額 | 102 億ドル |
| NFIB | 英国 | 2023 年 | サイバー犯罪による被害報告総額 | 560 万ポンド |
| Sophos | 世界 14 カ国 | 2023 年 | 直近のランサムウェア攻撃の修復に要した 1 組織あたりの年間平均コスト | 182 万ドル |
| IBM | 世界 16 か国 | 2023 年 | 組織における 1 回のデータ侵害にかかる世界平均コスト | 445 万ドル |
| Cybersecurity Ventures | 2025 年【予測】 | サイバー犯罪によるコスト | 10 兆 5,000 億ドル | |
| Fastly | 北米、欧州、アジア、太平洋地域 | 2023 年 | サイバー攻撃を受けた企業の損失 | 過去 12 ヶ月間収益の 9 % |
おおよそ適切にセルが埋まっていますが、「Cybersecurity Ventures」行の2列目の「世界」が見逃されています。また、2つほどのセルで誤って文字 | がテキストとして検出されていました。remove_markdown_boundaries_in_table による後処理が無いと、その行のセルはズレているところでした。このように、完璧な精度の解析にはまだ課題がありそうです。
付録: 全ページの解析結果
付録として、各OCRを使用して得られた全ページの解析結果を示します。
Cloud Vision
## 第 10 節サイバーセキュリティの動向 <!-- image --> ## 市場の概況 世界のサイバーセキュリティの市場 ( 売上高 ) は引き続き堅調で、 2023 年には 790 億ドル 11.1 % 増 ) になると予測されている ( 図表 Ⅱ -110-1 ) . ## 図表 Ⅱ -1-10-1 ## 世界のサイバーセキュリティ市場規模の推移 サイバーセキュリティ市場の主要事業者として、 Cisco 、 Palo Alto Networks 、 Check Point 、 Symantec Fortinet の 5 社が 2018 年から 2019 年まで世界 Top5 の市場シェアを獲得していたが、 2020 年からは Symantec の代わりに Trellix が台頭し、 2022 年には 3.1 % のシェアを獲得している。しかし、 2023 年時点では Check <!-- image --> Point 、 Trellix に代わり Microsoft 、 Crowd Strike が Top5 に入っている。また、近年はトップシェアである Palo Alto Networks の市場シェアが拡大している。 ## 関連データ ## 世界のサイバーセキュリティ主要事業者 出典 : Canalys データを基に作成 URL : https : //www.soumu.go.jp/johotsusintokei/whitepaper/ja/r06/html/datashu.html#f00294 ( データ集 ) <!-- image --> 2022 年の国内の情報セキュリティ製品市場 ( 売上高 ) は、前年比 19.8 % 増の 5,254 億 5,400 万円となった。セキュリティ製品の機能市場セグメント別では、エンドポイントセキュリティソフトウェアやネットワークセキュリティソフトウェアなどを含む、セキュリティソフトウェア市場の 2022 年の売上額が 4,274 億 200 万円で全体の 81.3 % を占め、コンテンツ管理、 UTM や VPN などを含むセキュリティアプライアンス市場は 980 億 5,100 万円で全体の 18.7 % となった。 また、 2021 年及び 2022 年の国内情報セキュリティ製品のベンダー別シェア ( 売上額 ) について、 2022 年の市場全体のシェア率が 2 % 以上の企業を「外資系企業」と「国内企業」に分類し、それら企業における 2021 年及び 2022 年の売上額を集計した結果、ともに外資系企業のシェアが 5 割を超えており、国内のサイバーセキュリティ製品はその多くを海外に依存している状況が引き続いているといえる ( 図表 Ⅱ -1-10-2 ) 。 ( 出典 ) IDC Japan , 2023 年 8 月「国内情報セキュリティ製品市場シェア、 2022 年 : セキュリティプラットフォームの進展」 ( JPJ49213223 ) を基に作成 <!-- image --> ## 2 サイバーセキュリティの現状 <!-- image --> ## 1 サイバーセキュリティ上の脅威の増大 国立研究開発法人情報通信研究機構 ( NICT ) が運用している大規模サイバー攻撃観測網 ( NICTER ) のダークネット観測で確認された 2023 年の総観測パケット数 ( 約 6,197 億パケット ) は、 2015 年 ( 約 632 億パケット ) と比較して 9.8 倍となっているなど、依然多くの観測パケットが届いている状態である ( 図表 Ⅱ -1-10-3 ) 。また、 2023 年の総観測パケット数は各 IP アドレスに対して 14 秒に 1 回観測されたことに相当する。 なお、 2023 年は過去最高の観測数を記録しており、インターネット上を飛び交う観測パケットは 2022 年と比較して更に活発化している状況であると言える。 ( 出典 ) 国立研究開発法人情報通信研究機構「 NICTER 観測レポート 2023 」を基に作成 <!-- image --> NICTER でのサイバー攻撃関連の通信内容をみると、 2022 年と同様に IoT 機器を狙った通信が多く観測され、サイバー攻撃関連通信全体の約 3 割を占めている。また、 HTTP ・ HTTPS で使用されるポートへの攻撃についても同程度の割合で観測されている ( 図表 Ⅱ -1-10-4 ) 。 ※ NICTER で 2022 年 2023 年に観測されたもの ( 調査目的の大規模スキャン通信を除く。 ) について、上位 10 ポートを分析。 <!-- image --> ( 出典 ) 国立研究開発法人情報通信研究機構「 NICTER 観測レポート 2023 」を基に作成 また、 2023 年中の不正アクセス行為の禁止等に関する法律 ( 平成 11 年法律第 128 号。以下「不正アクセス禁止法」という。 ) 違反事件の検挙件数は 521 件であり、前年と比べ 1 件減少した。 ## 関連データ 不正アクセス禁止法違反事件検挙件数の推移 出典 : 警察庁・総務省・経済産業省「不正アクセス行為の発生状況及びアクセス制御機能に関する技術の研究開発の状況」を基に作成 URL : https : //www.soumu.go.jp/johotsusintokei/whitepaper/ja/r06/html/datashu.html#f00300 ( データ集 ) <!-- image --> 近年ではランサムウェアによるサイバー攻撃被害が国内外の様々な企業や医療機関等で続き、国民生活や社会経済に影響が出る事例も発生している。また、 2023 年 3 月には「 Emotet ( エモテット ) 」の活動再開が確認され、同月、独立行政法人情報処理推進機構 ( IPA ) や JPCERT / CC より注意喚起が実施された。最近では日本の政府機関・地方自治体や企業のホームページ等を標的とし DDoS 攻撃により、業務継続に影響のある事案も発生し、国民の誰もがサイバー攻撃の懸念に直面している。 こうした依然として厳しい情勢の下、直近では、大型連休がサイバーセキュリティに与えるリスクを考慮し、 2023 年 4 月に経済産業省、総務省、警察庁、 NISC より春の大型連休に向けて実施が望まれる対策について注意喚起が実施された。 ## 2 サイバーセキュリティに関する問題が引き起こす経済的損失 サイバーセキュリティに関する問題が引き起こす経済的損失について、様々な組織が調査・分析を公表している ( 図表 Ⅱ -1-10-5 ) 。損失の範囲をどこまで捉えるかなどにより数値に幅があるが、例えば、日本では、トレンドマイクロが 2023 年に実施した調査によれば、過去 3 年間でのサイバー攻撃の被害を経験した法人組織の累計被害額の平均が約 1 億 2,528 万円になる。 <!-- image --> ## 図表 Ⅱ -1-10-5 サイバーセキュリティに関する問題が引き起こす経済的損失 | 調査・分析の実施主体 | 対象地域 | 対象期間 | 経済的損失の概要 | 損失額 | |------------------------|-----------------|--------------|--------------------------------------|----------------------------------------------------------------------------------------------------------------| | トレンドマイクロ | 日本 | 2023 年【調査時期】 | 過去 3 年間でのサイバー攻撃の被害を経験した法人組織の累計被害額の平均 | 1 億 2,528 万円 | | 警察庁 | 日本 | 2023 年上半期 | ランサムウェア被害に関連して要した調査復旧費用の総額 | 26 % が 100 万円未満 19 % が 100 万 ~ 500 万円未満 25 % が 500 万 ~ 1,000 万円未満 23 % が 1,000 万 ~ 5,000 万円未満 8 % が 5,000 万円以上 | | FBI | 米国 | 2022 年 | サイバー犯罪事件による被害報告総額 | 102 億ドル | | NFIB | 英国 | 2023 年 | サイバー犯罪による被害報告総額 | 560 万ポンド | | Sophos | 世界 14 カ国 | 2023 年 | 直近のランサムウェア攻撃の修復に要した 1 組織あたりの年間平均コスト | 182 万ドル | | IBM | 世界 16 か国 | 2023 年 | 組織における 1 回のデータ侵害にかかる世界平均コスト | 445 万ドル | | Cybersecurity Ventures | | 2025 年【予測】 | サイバー犯罪によるコスト | 10 兆 5,000 億ドル | | Fastly | 北米、欧州、アジア、太平洋地域 | 2023 年 | サイバー攻撃を受けた企業の損失 | 過去 12 ヶ月間収益の 9 % | ( 出典 ) 各種公開資料を基に作成 ## 3 無線 LAN セキュリティに関する動向 無線 LAN の利用者のセキュリティ意識などを把握するために総務省が 2024 年 3 月に実施した意識調査によると、公衆無線 LAN の認知度は高い ( 約 94 % ) が実際に利用している人はその半数程度にとどまっている。また、公衆無線 LAN を利用していない最多の理由として、 7 割程度が「セキュリティ上の不安がある」と回答している。また、公衆無線 LAN 利用者のうち、 9 割程度の利用者がセキュリティ上の不安を感じているものの、そのうちの 4 割程度が「漠然とした不安」として挙げている。 ## 4 送信ドメイン認証技術の導入状況 なりすましメールを防止するための「送信ドメイン認証技術」の JP ドメインでの導入状況は、 2023 年 12 月時点で、 SPF は約 82.9 % 、 DMARC は約 10.2 % となっており、いずれも微増傾向にある。 ## 関連データ 送信ドメイン認証技術の JP ドメイン導入状況 URL : https : //www.soumu.go.jp/johotsusintokei/whitepaper/ja/r06/html/datashu.html#f00307 ( データ集 ) <!-- image -->
EasyOCR
## 第10節サイバーセキュリティの動向 <!-- image --> 世界のサイバーセキュリティの市場 (売上高) は引き続き堅調で 2023年には790憶ドル 11.1%増) になると予測されている 10-1) サイバーセキュリティ市場の主要事業者として ## 関連データ ## 世界のサイバーセキュリティ主要事業者 出典 (データ集) ## 世界のサイバーセキュリティ市場規模の推移 <!-- image --> 近年はトップ <!-- image --> 2022年の国内の情報セキュリティ製品市場 (売上高) は前年比19.8%増の5,254憶5,400万円となった。セキュリティ製品の機能市場セグメント別では、エンドポイントセキュリティソフトウェアやネットワークセキュリティソフトウェアなどを合むセキュリティソフトウェア市場の 2022年の売上額が4,274憶200万円で全体の81.3%を占めコンテンツ管理どを合むセキュリティアプライアンス市場は980憶5,100万円で全体の18.7%となった。 また 2021年及び2022年の国内情報セキュリティ製品のベンダー別シェア (売上額) について 2022年の市場全体のシェア率が2%以上の企業を「外資系企業」と「国内企業」に分類し、それら企業における2021年及び2022年の売上額を集計した結果ともに外資系企業のシェアが 5割を超えており国内のサイバーセキュリティ製品はその多くを海外に依存している状沢が引き続いているといえる 2022年を基に作成 <!-- image --> ## 2 サイバーセキュリティの現状 <!-- image --> ## サイバーセキュリティ上の費威の増大 のダークネット観測で確認された2023年の総観測パケット数 (約6,197憶パケット) は 2015年 (約632憶パケット) と比軟して98倍となっているなど依然多くの観測パケット対して14利に ]回観測されたことに相当する。 なお 2023年は過去最高の観測数を記録しておりインターネット上を飛び交う観測パケット <!-- image --> 多く観測されサイバー攻撃関連通信全体の約3割を占めている。またされるポートへの攻撃についても同程度の割合で観測されている 2023年に観測されたもの (調査目的の大規模スキャン通信を除く。) について上位10ポートを分析。 <!-- image --> また 2023年中の不正アクセス行為の禁止等に関する法律 (平成]]年法律第128号。以下「不正アクセス禁止法」という。) 違反事件の検挙件数は521件であり前年と比べ]件減少した。 ## 関連データ不正アクセス禁止法違反事件検挙件数の推移 出典警察庁総務省経済産業省「不正アクセス行為の発生状沢及びアクセス制御機能に関する技術の研究開発の状沢」を基に作成 (データ集) <!-- image --> 近年ではランサムウェアによるサイバー攻撃被害が国内外の様々な企業や医療機関等で続き国地方自治体や企業のホームページ等を標的とし こうした依然として厳しい情勢の下直近では大型連休がサイバーセキュリティに与えるリスクを考魔し、 2023年4月に経済産業省総務省 ## サイバーセキュリティに関する問題が引き起こす経済的損失 サイバーセキュリティに関する問題が引き起こす経済的損失について様々な組織が調査・分析例えば日本ではトレンドマイクロが2023年に実施した調査によれば過去3年間でのサイ <!-- image --> ## サイバーセキュリティに関する問題が引き起こす経済的損失 | 調査・分析の実施主体 | 対象地域 | 対象期間 | | 損失額 | |--------------|--------|-------------|------------------------------------|---------------------------------------------------------------------------------| | トレンドマイクロ | 日本 | 2023年【調査時期】 | 過去3年間でのサイバー攻撃の被害を経験した法人組織の黒計被害額の平均 | 憶2,528万円 | | 警察庁 | 日 | 2023年上半期 | ランサムウェア被害に関連して要した調査復旧費用の総額 | 26%が100万円未満 199が100万~500万円未満 25%が500万~1,000万円未満 23%が1,000万-5,000万円未満 %が5000万円以上 | | | 米国 | 2022年 | サイバー犯罪事件による被害報告総額 | 102憶ドル | | | 英国 | 2023年 | サイバー犯罪による被害報告総額 | 560万ポンド | | | 世界14か国 | 2023年 | 直近のランサムウェア攻撃の修復に要した1組織あたりの年間平均コスト | 182万ドル | | | 世界16か国 | 2023年 | 組織における1 回のデータ屋害にかかる世界平均コスト | 445万ドル | | | 世界 | 2025年【予測】 | サイバー犯罪によるコスト | | | | 太平洋地域 | 2023年 | サイバー攻撃を受けた企業の損失 | 過去12ヶ月間収益の9% | (出典) 各種公開資料を基に作成 ## 3 (約94%) が実際に利用している人はその半数用者がセキュリティ上の不安を感じているもののそのうちの4割程度が「漢然とした不安」として挙げている。 ## 送信ドメイン認証技術の導入状沢 2023年12月時点で ## 関連データ (データ集) <!-- image -->
Tesseract
## 第]() 節サイバーセキュリティのの動向 ## (1 ) 市場の概況 <!-- image --> 世界のサイバーセキュリティの市場 (売上高) 人還還還還量還昌電卓のサイバーセキュリティ市場規模っナリしリルルレ| 間は引き続き聖調で、2023年には790億ドル 了 遼ドル) 11.1%増) になると予測されている (図表II -1- 900 10-1)。 6 フ00 サイバーやセキュリティ市場のヨ業者とし 600) て、 CC1SCO、PalO AItO NetWOrTKS、Check っ0U 400 Point、Symantec、Fortinetの5社が2018年か。ら 2019年まで世界TopSの市場シェアを獲得し 200 ていたが、2020年からはSymantecの代わりに "" Trellix が台頭し、2022年には3.19%のシェアを 201う9 。。 2020。。 2021 2人202 2023( (出典) Canalysデータを共に作成 答得している。しかし、2023年時点では Check <!-- image --> Point、Trellix に代わり Microsoft、Crowd StrikeがTop5に入っている。また、近年はトップンェアであるPalo Alto Networks の市場シェアが拡大している。 ## 関連データダ世界のサイバーセキュリティ主要事業者 出典 : Canalys データを基に作成 URL : httDs:/ハWWW.SOurmU.gO.|D/ [OnOtsusintOKeIハWhiteDaper/」a/rO6/ntmUdatashu.htmLHTO0294 (データ集) <!-- image --> 2022 TU S 図 内の情報セキュリティ製品市場 (売上高) は、前年比19.8%増の5.254億5.400 万 HHとなった。セキュリティ製品の機能市場セグメント別では、エンドボイントセキュリティゾソフトソリエアやネットワークセキュリティイィイソゾソフトウェアなどを含む、セキュリティソフトウェア市場の 2022 年の売上額が4.274億200 万円で全体の81.3% を占め、コンテンツ管理、UTMやVPN などを含むセキュリティアプライアンスズ市場は980 億5.100 万円で全体の 18.79% となった。 また、2021 年及び2022 年の国内情報セキュリティ製品のベンダー別シェア (売上符) について、20022旦 Eの) 市場全体のシェア率が2以上の企業を |外資系企業| と| 内企業| 【 ー 分類し、それら和企業における2021 年及び2022年の売 5割を超えており、国内のサイバーセキュリティ届品はその多くを海外に依存している状況が引き *いているといえる (図表 IL -1-10-2) 。 国内企業(計3社) (出典) IDC Japan, 2023年8月「国内情報セキュリティ製品市場シェア、2022 年 : セキュリティプラットフォームの進展」 (JPJ49213223) を基に作成 <!-- image --> ## (2 ) サイバーセキュリティの現状 <!-- image --> ## 人サイバーセキュリティ上の稚威の増大 用している大規模サイバー攻撃観測網 (UNICTER) のダークネット観測で確認された2023年の総観測パケット数 (約6.197 億パケット) は、2015年 (約632倍パケット) と比較して9.8僅となっているなど、依然多くの観測パケット *届いている状態である (図表IT-1-10-3) 。また、2023 Eの総観測パケット数は答IP アドレスに半して14秒に1 婦測されたことに相当する。 は 2022年と比較して更に活発化している状況であると言える。 <!-- image --> NICTER でのサイバー攻撃関連の通信内容をみると、2022年と同様にloT 機器を狙った通信が多く観測され、サイバー攻撃関連通信全体の約3拓を占めている。また、HTTP・HTTPS で使/ されるボートへの攻撃についても同程度の割合で観測されている (図表 II -1-10-4)。 NICTERで2022年・2023年に観測されたもの (調査目的の大規模スキャン通信を除く。) について、上位 10ポートを分析。 <!-- image --> また、2023旦 トロ の夏山 Fトアクセス行為の禁止等に関する法律 ( F成 1 1 年法律第 128号。以下 |不 Fトアクセス禁止法| という。) 違反 m 件の検任件数は521 件であり、 年と比べ] 件減少した。 ## 関連データダ不正アクセス禁止法違反事件検挙件数の推移 相 上 庁・総務省・ 況| を基に作成 経済産業首 |不正アクセス行為の発生状況及びアクセス制御機能に関する技術の研究開発 状》 マフザヤNグロコーーニーデーリー 1 PFタマ URL : https://Www.soumu.go.jp/johotsusintokei/whitepaper/ja/r06/htmldatashu.htmHHf00300 <!-- image --> 提年ではランサムウェア【 ー よるサイバー攻軸被事例も発生している。また、2023年3月には |EBmotet (エエモテット)」の活動再較が確認され、同月、独立行政法人情報処理推進機構 (UPA) やJPCERT/CCより注意喚起が実施された。最近では日本の政府機関・地太目治体や企業のホームペーンツジ等を標的としだた DDoS攻撃により、業務継続に影響のある呈 肝委も 発生 民の誰もがサイバー攻撃の懸念に自財している。 こうした依然として上茂しい情圭の下、正近では、大型運休がサイバーセキュリティに与えるリスが望まれる対策について注意喚起が実施された。 ## 29 サイバーセキュリティに関する問題が引き起こす経済的損失 サイバーセキュリティに関する間題が引き起こす経済的損失について、様々な組織が調査・分析公表している (図表 -1-10-5) 。損失の範囲をどこまで捉えるかなどにより数値に貴があるが、例えば、日本では、トレンドマイクロが2023年に実施した調査によれば、過去3年間でのサイバー攻撃の被害を総験した法人組織の案計被害額の平均が約 1 億2.528 万円になる。 <!-- image --> ## 凶包首問生育:住サイバーセキュリティに関する問題が引き起こす経済的損失 | | 経済的損失の概要 9 | |----------|-----------------------------------------------------------------------------------------------------------------------------------------------| | | ] ニー ムーハーハー過去3年間でのサイバー攻撃の被書を経験した法人組織のトレンドマイツロ 日本 2023年[調査時期】 1億2.528 万 | | | FB | | | 中近りフンサムワエア攻疫の修復に有した1組織あたりの Sophos 世界14か 年間平均コスト 2023年 182万ドル | | | 世界16か国 2023年 凡書にかかる世平均コスト 1445 万ドル | | | CyDersecurity Ventures 世界 2025年【予測】 サイパー犯罪によるコスト 10兆5.000億ドル | | ]尼木、了欧州、 | Fastly アジア、 2023年 サイバー攻撃を受けた企業の損失 週去12ヶ月間収益の9 | ## 無線LAN セキュリティに関する動向 て多げている。していない 革 地 錠の埋者のセキュリティ意識などを拒握するために総務省が2024年3月に実誘した、公衆多線LANの認知研は高い (約94%) が実際に利) 梓度にとどまっている。また、公人衆氏旨LAN を利キュリティ上の不安がある| としている人はそのヨとして、7割程友が |セ人している。また、公衆拭線LAN利用者のうち、9割程友の利考がセキュリティ上の不安を感じているものの、そのうちの4割程放が |漠然とした不安| とし ## 送信ドメイン認証技術の導入状況 なりすましメールを防止するための |送信ドメイン褒証技術」のJPドメインでの導入状況は、 2023年12月時点で、SPF は約82.996 、DMARCは約10.299となっており、いずれも徹増傾向にある。 関連データダ送信ドメイン語証技術のJPドメイン導入状況 URL : nttDs:/ハWWW.SOumU.gO.ID/」OnOtsusIntOkeIiハwhiteDaper/|a/rO6/htmU/datashu.htmHHTOO30/ <!-- image -->
RapidOCR
## 第10 の動向 <!-- image --> ## 市場の概况 世界のサの市場 (上高) 引統調、2023年790億儿 11.1%增)予測(表Ⅱ-110-1)。 ## 世界の場模の推移 ## 表Ⅱ-1-10-1 場の主要事者 Z、Cisco、Palo Alto Networks、Check Point、Symantec、Fortinetの5社2018年力 52019年世界Top5の市場獲得、2020年Symantecの代 Trelix台頭、2022年3.1%の獲得)。、2023年時点Check <!-- image --> Point、Trellix代Microsoft、CrowdStrikeTop5。、近年 PaloAltoNetworksの市場。 ## 開連一夕 ## 世界要事者 出典:Canalys一夕基作成 URL : https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r06/html/datashu.html#f00294 (一夕集) <!-- image --> 2022年の国内の情報七製品市場(壳上高)、前年比19.8%增の5,254億5,400万。品の機能場别、含、場の 2022年の壳上额4,274億200万全体の81.3%占、管理、UTMVPN 含場980億5,100万全体の18.7%。 、2021年及2022年の国内情報品の别(上额))、2022年の市場全体の率2%以上の企業「外資系企業」「国内企業」分類、企2021年及2022年の上额集計果、外資系企業の 5割超、国内の品の多海外依存(表-1-10-2)。 <!-- image --> (出典)IDCJapan,2023年8月「国内情報品市場、2022年:七卜7一の進展」(JPJ49213223)基作成 <!-- image --> ## 一の現状 ## 上の威の增 国立研究開凳法人情報通信研究機構(NICT)運用大规模サ一攻撃測網 (NICTER)の測確2023年の測数(約6,197億)、2015年(約632億)比较9.8倍、依然多の測届状熊(表-1-10-3)。、2023年の測数各对14秒1回測相当。 、2023年過去最高の測数錄、上飛交測 2022年比较更活化状。 (出典)国立研究開凳法人情報通信研究機構「NICTER测L求一卜2023」基比作成 <!-- image --> NICTERの攻撃連の通信内容、2022年同樣IT機器狙通信多測、攻撃連通信全体の約3割占。、HTTP·HTTPS使用の攻同程度の割合測(表-1-1-4)。 ※NICTER2022年·2023年测の(调查目的の大规模通信除。)、上位10分析。(出典)国立研究開凳法人情報通信研究機構「NICTER测L求一卜2023」基比作成 <!-- image --> 、2023年中の不正七行為の禁止等寸法律(平成11年法律第128号。以下「不正禁止法」。)反事件の拳件数521件、前年比1件减少。 ## 開連一夕不正禁止法達反事件举件数の推移 出典:警察厅·務省·释济産省「不正行為の生状况及制御機能技術の研究開の状况」基作成 URL : https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r06/html/datashu.html#f00300 (一夕集) <!-- image --> 近年サ一攻擎被害国内外の樣企業医療機関等、国民生活社会释济影響出事例生)。、2023年3月「Emotet(工卜)」の活動再開確、同月、独立行政法人情報処理推進機構(IPA)JPCERT/CC 注意唤起实施。最近日本の政府機関·地方自治体企業の一一等標的 DDS攻撃、業務影響の事案生、国民の一攻撃の念直面。 依然情勢の下、近、型連考、2023年4月释济産業省、務省、警察厅、NISC春の大型連休向寒施望对策注意唤起寒施。 ## 一開問題起释的損失 問題起济的損失、樣組織調查·分析表(表-11-5)。損失の捉数值幅、例、日本、口2023年施調查、過去3年間の一攻撃の被害法人組織の累計被害额の平均約1億2,528万。 <!-- image --> ## 表Ⅱ-1-10-5 問題起的損失 | 調查·分析の寒施主体 | 对象地域 | 对象期間 | 释济的損失の概要 | 損失额 | |-----------------------|-------------|-------------|-------------------------|--------------------------------------------------------------------------------| | | 日本 | 2023年【调查時期】 | 過去3年間の攻の被害法人組織の累計被害额の平均 | 1億2.528万巴 | | 警察厅 | 日本 | 2023年上半期 | 被害連要调查·復旧费用の额 | 26%100万巴未满 19%加100万~500万未满 25%加500万~1.000万未满 23%加1.000万~5.000万月未满 8%加5.000万月以上 | | FBI | 米国 | 2022年 | 犯罪事件被害報告额 | 102億儿 | | NFIB | 英国 | 2023年 | 犯罪被害報告额 | 560万 | | Sophos | 世界14办国 | 2023年 | 直近の攻の修復要1織年間平均卜 | 182万儿 | | IBM | 世界16办国 | 2023年 | 組織1回の一侵害世界平均卜 | 445万儿 | | CybersecurityVentures | 世界 | 2025年【予测】 | 犯罪 | 10兆5.000億儿 | | Fastly | 北米、欧州、太平洋地域 | 2023年 | 攻撃受企業の損失 | 過去12月間收益の9% | (出典)各種公開资料基仁作成 ## 無線LAN動向 無線ANの利用者の意識把握務省2024年3月施意識調查、公無線ANの知度高)(約94%)際利用人の半数程度。、公無線AN利用最多の理由、7割程度「上の不安」回答。、無線AN利用者の、9割程度の利用者の不安感のの、のの割程度「漠然不安」 ## 送信技术の導入状况 防止の「送信技術」のの導状、 2023年12月時点、SPF約82.9%、DMARC約10.2%、微增倾向白。 ## 開連一夕 送信技術のJP導状况 URL : https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r06/html/datashu.html#f00307 (一夕集) <!-- image -->
おわりに
本記事では、Google Cloud Vision APIを用いた実例を通して、文書解析ツールDoclingに任意のOCRエンジンを組み込む方法を紹介しました。PDFの解析が必要な技術者にとって有益な記事となれば幸いです。
シェルパ・アンド・カンパニー株式会社では、自然言語処理・機械学習のエンジニアや、インターンシップの募集を行っています。ご応募をお待ちしております。