Baidu新OCRモデル、4B版で精度トップ達成

Baiduが新世代のドキュメント解析AIを公開
1. 解像度に柔軟対応する設計
実務での活用場面
1. 他のOCRツールとの違い
フリーランスへの影響
まとめ

Baiduが新世代のドキュメント解析AIを公開

中国の検索大手Baiduが、ドキュメント処理に特化した新しいAIモデル「Qianfan-OCR」を発表しました。このモデルは従来のOCRツールとは設計思想が異なり、画像から直接Markdown形式への変換を一発で実行できるのが特徴です。

従来のOCRツールは、レイアウト検出とテキスト認識を別々のステップで処理していました。例えば、PDFをアップロードすると、まず文字がどこにあるかを検出し、次に文字を読み取り、最後にフォーマットを整えるという流れです。Qianfan-OCRはこのプロセスを一つのモデルで完結させ、中間ステップを省略しています。

モデルサイズは40億パラメータと、最近の大規模AIと比べればかなりコンパクトです。それでも主要なベンチマークテストで、DeepSeekやGeminiといった有力モデルを上回る精度を記録しました。特に「OmniDocBench v1.5」では93.12点を獲得し、エンドツーエンド方式のモデルとしてトップに立っています。

解像度に柔軟対応する設計

Qianfan-OCRの技術的な強みの一つが、可変解像度への対応です。入力画像を448×448ピクセルのブロックに分割し、最大4K解像度まで処理できます。スマホで撮影した領収書から、高解像度スキャンした契約書まで、画質に応じて自動調整してくれるため、前処理の手間がほとんどかかりません。

内部では「Layout-as-Thought」という仕組みを採用しています。これは人間が複雑な文書を読むときの思考プロセスに似ていて、まずレイアウトを把握してから内容を読み取る流れを再現したものです。具体的には、文書内の表や図の位置を座標として記録し、それを元に最終的なテキスト出力を生成します。

この思考フェーズは必要に応じてオン・オフできます。オンにすると、テキストと図表が混在する複雑な文書での精度が向上する一方、シンプルな文書ではオフにして処理速度を優先することも可能です。

実務での活用場面

フリーランスで最も恩恵を受けるのは、定期的に紙文書やPDFを扱う職種でしょう。例えば、経理業務で毎月大量の領収書をExcelに転記している場合、Qianfan-OCRなら画像をアップロードするだけで表形式のデータを抽出できます。手入力の時間が大幅に削減できるはずです。

翻訳や文字起こしを請け負っている方にも便利です。クライアントから古い資料のスキャン画像を受け取ったとき、OCRで一度テキスト化してから翻訳ツールに通せば、作業効率が格段に上がります。特に日本語以外の多言語文書を扱う機会が多い場合、精度の高いOCRは必須です。

マーケティング資料やプレゼン資料を作成する際にも活用できます。競合他社のレポートや業界資料をPDFで入手したとき、必要な箇所だけをテキスト抽出して自分の資料に引用するといった使い方です。コピー&ペーストできない形式の資料でも、OCRを通せば編集可能になります。

他のOCRツールとの違い

Google Cloud VisionやAWS Textractといった既存のOCRサービスは、API経由での利用が前提で、従量課金制です。一方、Qianfan-OCRはオープンソースで公開されているため、自分のPCやサーバーで動かせばコストはゼロです。ただし、動作にはGPUが必要なので、ローカル環境で試すならそれなりのスペックが求められます。

精度面では、キー情報抽出(KIE)のテストで平均87.9点を記録しています。これは請求書から金額や日付を自動抽出するような処理の精度です。同クラスのQwen3-4B-VLが83.5点、Gemini-3.1-Proが79.2点だったことを考えると、実用レベルとしては十分です。

ただし、全ての文書タイプで完璧というわけではありません。グラフや図表が多い学術論文のような特殊な文書では、専用ツールのほうが適している場合もあります。用途に応じて使い分けが必要です。

フリーランスへの影響

このモデルが実務に与える影響は、月にどれくらい文書処理を行うかによって変わります。週に数件程度なら既存のOCRツールで十分ですが、毎日のように大量の文書を扱う場合は、Qianfan-OCRのような高精度モデルを導入する価値があります。

特に注目すべきは処理速度です。A100という高性能GPUを使った測定では、1秒あたり約1ページを処理できました。100ページの契約書なら2分弱で全文テキスト化できる計算です。手作業で入力していた時間を考えると、月単位で数時間から十数時間の削減になる可能性があります。

収益面では、文書処理の単価が下がる一方で、処理件数を増やせるため、総収入は維持または増加が見込めます。例えば、これまで1件2時間かかっていた作業が30分で終われば、同じ時間で4倍の案件をこなせます。時間単価が多少下がっても、トータルでは増収になるケースが多いでしょう。

ただし、導入にはある程度の技術的ハードルがあります。GitHubからコードをダウンロードして環境構築する必要があるため、プログラミング経験がない方には難しいかもしれません。今後、誰でも使えるウェブサービス版が登場すれば、導入障壁は大幅に下がるはずです。

まとめ

Qianfan-OCRは精度と速度のバランスが優れたモデルですが、現時点では技術的な知識がある方向けです。プログラミングに抵抗がなく、大量の文書処理を定期的に行っているなら、試してみる価値があります。逆に、月に数件程度の利用であれば、既存のクラウドOCRサービスを使い続けるほうが現実的です。今後のサービス化や日本語対応の動向を見守りつつ、自分の業務量に応じて導入を検討するのがよいでしょう。

参考リンク:
論文: https://arxiv.org/pdf/2603.13398
GitHub: https://github.com/baidubce/Qianfan-VL
Hugging Face: https://huggingface.co/collections/baidu/qianfan-vl