AIベンチマーク、実務タスクの92%を無視

コーディング偏重のベンチマーク

AI研究者たちは、AIエージェントがどれだけ優秀かを測るために、さまざまなベンチマークテストを開発してきました。しかし最新の研究によると、これらのテストは実際の仕事の世界とは大きくずれているようです。

研究チームが43のベンチマークと72,342のタスクを詳しく調べたところ、コーディングと数学関連のタスクが8,000以上も含まれていました。一方で、これらの職種に就いている人は米国の労働市場全体のわずか5%程度です。つまり、ベンチマークは少数の職種に過度に焦点を当てているということになります。

AIツールを実務で使っているフリーランスの方なら、この偏りの意味がわかるはずです。たとえば文章作成、顧客対応、スケジュール管理といった日常業務は、コーディングとは全く異なるスキルセットを必要とします。

研究でさらに興味深いのは、経済的に価値の高い分野がベンチマークからほぼ完全に抜け落ちているという点です。事務・行政支援の仕事は雇用者数が非常に多いにもかかわらず、この分野を評価するベンチマークはほとんどありません。管理職や法律関連の仕事も同様です。

具体的な数字を見ると、情報取得やPC作業がベンチマークタスクの85%を占めている一方で、実際の雇用市場や経済価値では5%未満しか占めていません。逆に、他者との交流を伴う業務は雇用市場でも経済価値でも大きな割合を占めているのに、ベンチマークではほぼゼロです。

フリーランスのライターやデザイナー、コンサルタントの方々が日々行っているクライアントとのコミュニケーション、提案資料の作成、プロジェクト管理といった業務は、まさにこの「無視されている領域」に該当します。

研究チームの分析によれば、現在のベンチマークは労働市場全体の92%を反映していません。ドメイン(業務分野)のカバー率は56%、スキルのカバー率は85%という結果でした。

この乖離が意味するのは、AIツールのベンチマークスコアが高くても、実際の業務では期待したほどのパフォーマンスを発揮しない可能性があるということです。実際、APEX-Agentsという現実のタスクに近いベンチマークでテストすると、AIエージェントの成功率は専門職タスクで25%前後にとどまっています。

Anthropicが実施した別の調査では、プログラマーやカスタマーサービス、金融アナリストがAIの影響を受けやすい職種とされていますが、これらも全体の雇用から見れば少数派です。つまり、多くのフリーランスが従事している業務については、AIの実力がまだ十分に測定されていないのが現状です。

この研究結果を受けて、より現実的なベンチマークを開発する動きが出てきています。APEX-Agentsのように、実際の専門職タスクを評価対象にしたベンチマークでは、AIエージェントの性能が従来のベンチマークよりもかなり低く出ています。

これは悪いニュースのように聞こえるかもしれませんが、実は良い兆候です。AIツールの実力が正確に測定されれば、開発者たちも改善すべき点が明確になります。コーディングだけでなく、文書作成、顧客対応、プロジェクト管理といった幅広い業務での性能向上が期待できるようになるでしょう。

ただし、研究者たちは「経済的チューリングテスト」、つまり人間と同等に働けるレベルには、まだ到達していないと指摘しています。専門的なAIエージェントの開発は進んでいますが、汎用的な業務をこなせるレベルには時間がかかりそうです。

この研究結果は、フリーランスで働く方々にとっていくつかの示唆を与えてくれます。まず、AIツールのベンチマークスコアを鵜呑みにしすぎない方が賢明だということです。コーディングで高得点を取ったツールが、ライティングやデザイン、顧客対応でも同じように優秀とは限りません。

実際、ライターやデザイナー、マーケターといった職種の方が日常的に行っている業務は、現在のベンチマークではほとんど評価されていません。つまり、これらの分野でAIツールを使う場合は、公式のベンチマーク結果よりも、実際に試してみた結果の方が信頼できる指標になります。

一方で、この乖離は逆にチャンスとも言えます。AIがまだ苦手としている分野、つまりクライアントとの深いコミュニケーションや、複雑な判断を要するプロジェクト管理などは、人間のフリーランサーが価値を発揮できる領域として残り続けるでしょう。

作業時間への影響は限定的かもしれません。現時点では、多くのフリーランス業務においてAIは補助ツールとしての位置づけが続きそうです。完全に任せられるレベルには、もう少し時間がかかるでしょう。

AIベンチマークが実際の労働市場と大きくずれているという今回の研究結果は、AIツールの性能評価を見る際の注意点を教えてくれています。特にフリーランスの方は、ベンチマークスコアだけでなく、自分の業務に近いタスクで実際に試してみることが重要です。

現時点では様子見が賢明かもしれません。AIツールは確実に進化していますが、ベンチマークが改善され、より現実的な評価ができるようになるまで、慎重に選択することをおすすめします。すでに使っているツールがあれば、その使い勝手を自分なりに評価し続けることが、最も確実な判断材料になるでしょう。