金融文書分析AI「Mafin 2.5」が98.7%の精度達成

従来のRAG検索が抱えていた「類似性の罠」
Mafin 2.5が達成した98.7%の精度とは
1. PageIndexの仕組み：目次を読むAI
フリーランスにとっての実用性
1. コストと導入のハードル
フリーランスへの影響
まとめ

従来のRAG検索が抱えていた「類似性の罠」

AIを使った文書検索システムは、これまで「ベクトルデータベース」という技術を使うのが主流でした。文章を数値の集まり（ベクトル）に変換して、似たような内容を探し出す仕組みです。ChatGPTやClaudeに長い文書を読み込ませて質問に答えてもらう場合も、裏側ではこの技術が使われています。

ただ、この方法には大きな問題がありました。「似ている」と「関連がある」は必ずしも同じではないのです。例えば金融レポートで「収益の増加要因」を探しているとき、単に「増加」という言葉が多く出てくる別のセクションを拾ってしまうことがあります。言葉の表面的な類似性に引っ張られて、本当に必要な情報を見逃してしまうわけです。

VectifyAIが発表したPageIndexは、この問題をまったく違う方法で解決しようとしています。ベクトルデータベースを使わず、文書の構造そのものとAIの推論能力を組み合わせた検索です。人間が目次を見ながら本を読むように、文書の階層構造を理解して必要な情報を探し出します。

Mafin 2.5が達成した98.7%の精度とは

Mafin 2.5は、このPageIndex技術を使って金融文書の分析に特化したAIシステムです。FinanceBenchという金融文書分析の標準的なベンチマークテストで、98.7%の精度を記録しました。これは競合サービスと比べても際立った数字です。

同じテストで、ChatGPT 4oに検索機能を組み合わせたシステムは31%、AI検索サービスのPerplexityは45%の精度でした。金融分析ツールとして知られるFintoolが98%で、Mafin 2.5とほぼ同等の性能を示しています。ただしFintoolは評価対象が限定的だったのに対し、Mafin 2.5はベンチマーク全体をカバーしての結果です。

前バージョンのMafin 1は38.0%の精度だったので、わずかなバージョンアップで大幅な性能向上を実現したことになります。この進化の背景には、強化学習とモンテカルロ木探索という技術を組み合わせた「多段階推論」があります。単純に文書を検索するだけでなく、複数のステップを踏んで論理的に答えを導き出す仕組みです。

PageIndexの仕組み：目次を読むAI

PageIndexの特徴は、文書を人間が読むときの自然な流れを再現していることです。従来のRAGシステムでは、長い文書を適当な長さに分割する「チャンキング」という作業が必要でした。この分割の仕方次第で検索精度が大きく変わるため、エンジニアは常に最適な分割方法を模索していました。

PageIndexはチャンキングをしません。代わりに文書の章立てや段落構成をそのまま活かして、階層的な目次のような構造を作ります。そしてAIが「この質問にはこの章が関連しそうだ」と推論しながら、必要な部分を絞り込んでいきます。すべての回答には元のページ番号と章の参照が付くので、後から確認するのも簡単です。

実装はPythonで書かれており、デフォルトではGPT-4oを使います。ただし推論能力の高いモデルであれば他のLLMでも動作します。実際、DeepSeek v3でも同じ98.7%の精度が確認されています。

フリーランスにとっての実用性

この技術が特に役立つのは、複雑で長い文書を頻繁に扱う仕事をしている人たちです。例えば金融関係のライティングを請け負っているフリーランスなら、企業のアニュアルレポートやSEC開示資料から必要な情報を素早く抽出できるようになります。従来は数時間かけて読み込んでいた文書から、数分で正確な情報を取り出せる可能性があります。

法務関係の仕事をしている人にとっても便利です。長い契約書から特定の条項を探し出したり、過去の判例文書から関連する記述を見つけたりする作業が効率化されます。「似たような言葉」ではなく「実際に関連する内容」を見つけてくれるので、見落としのリスクも減ります。

ただし現時点では、複数の文書をまたいだ推論は限定的です。例えば「A社とB社のアニュアルレポートを比較して違いを教えて」といった使い方には向いていません。単一の文書内での検索と分析に強みがあるシステムです。

コストと導入のハードル

完全オープンソースで公開されているため、ソフトウェア自体の費用はかかりません。GitHubからコードをダウンロードして、自分のパソコンやサーバーで動かせます。Colabでのデモも用意されているので、まずは試してみることもできます。

ただし実際に使うには、LLMのAPIを何度も呼び出す必要があります。文書の構造を理解して、推論しながら検索するため、従来のベクトルデータベース方式よりもAPI呼び出しの回数が多くなります。つまりOpenAIやAnthropicのAPI料金が、従来の方法より高くつく可能性があるということです。

どのくらいコストが上がるかは、扱う文書の長さや複雑さによります。短い文書を時々検索する程度なら問題ありませんが、毎日大量の長文を処理するような使い方だと、月額のAPI料金が跳ね上がるかもしれません。導入を検討するなら、まず少量の文書で試して、実際のコストを計測してみることをおすすめします。

フリーランスへの影響

金融や法務関係の文書を扱うフリーランスにとって、この技術は作業時間の大幅な短縮につながる可能性があります。クライアントから長いレポートを渡されて「ここから必要な情報をまとめて」と依頼されたとき、従来は文書を端から読んでいく必要がありました。Mafin 2.5なら、質問を投げるだけで関連箇所を正確に抽出してくれます。

ただし、すべてのフリーランスに今すぐ必要な技術かというと、そうでもありません。日常的に100ページを超えるような専門文書を扱わない限り、従来のChatGPTやClaudeで十分対応できます。むしろ複雑な金融レポートや契約書のレビューを専門としている人、あるいはそういった案件を新たに受けたいと考えている人に向いています。

収益面では、より高度な案件を受けられるようになる可能性があります。「複雑な金融文書の分析もできます」という付加価値を提示できれば、単価の高い仕事につながるかもしれません。ただしそのためには、金融や法務の基礎知識も必要です。AIが正確に情報を抽出しても、その内容を理解して適切にまとめる力がなければ、クライアントの期待には応えられません。

導入のタイミングとしては、まだ様子見でも問題ない段階です。技術自体は公開されたばかりで、実務での事例も少ない状況です。ただしGitHub上でのスター数の多さを見ると、開発者コミュニティからの注目度は高いようです。今後の改善や事例の蓄積を待ってから導入しても遅くはないでしょう。