AIエージェント評価ベンチマーク「EnterpriseOps-Gym」公開

AIエージェント評価ベンチマーク「EnterpriseOps-Gym」公開 AIニュース・トレンド

エンタープライズ環境を再現した新しいテスト環境

AIエージェントの性能を測るベンチマークはこれまでにもありましたが、実際のビジネス現場で求められる複雑さを十分に反映できていませんでした。ServiceNow Research、Mila、モントリオール大学の研究チームが今回公開した「EnterpriseOps-Gym」は、この課題に正面から取り組んでいます。

このベンチマークの特徴は、現実のエンタープライズシステムをDockerコンテナ環境で忠実に再現している点です。カスタマーサービス管理、人事、ITサービス管理といった運用系システムに加えて、EmailやCalendar、Teams、Driveなどのコラボレーションツールも含まれています。さらに、複数のシステムをまたがるハイブリッドなタスクも用意されており、合計8つのドメインで1,150のタスクが収録されています。

技術的には164のリレーショナルデータベーステーブルと512の機能ツールを搭載しており、実行するタスクは平均9ステップ、最大で34ステップにも及びます。単純な一問一答ではなく、複数の手順を正しい順序で実行し、システムの状態変化を追いながら目的を達成する必要があるわけです。

最新モデルでも成功率は4割以下

研究チームは14の最新モデルをこのベンチマークで評価しました。結果は、AI業界にとってやや厳しいものでした。最高性能を記録したのはClaude Opus 4.5で、成功率は37.4%。次いでGemini-3-Flashが31.9%、GPT-5.2が31.8%という結果です。

興味深いのはコストとのバランスです。Claude Opus 4.5は最も高性能ですが、1タスクあたり0.36ドルのコストがかかります。一方、Gemini-3-Flashは成功率31.9%ながらコストは0.03ドルと、GPT-5やClaude Sonnet 4.5より90%も安価です。フリーランスが大量のタスクを処理する場合、この価格差は無視できません。

オープンソースモデルではDeepSeek-V3.2とGPT-OSS-120Bが約24%の成功率を記録し、コストは1タスクあたり0.015ドル前後でした。性能は劣りますが、予算を抑えたい場合の選択肢になりそうです。

ドメインによって大きく異なる性能

EmailやTeamsといったコラボレーションツール系のタスクでは比較的高い成功率を示しましたが、ITサービス管理では28.5%、複数システムをまたがるハイブリッドタスクでは30.7%と大幅に低下しました。システム間の依存関係が複雑になるほど、AIエージェントは苦戦する傾向が見られます。

AIエージェントが失敗する4つのパターン

研究チームは、AIエージェントの失敗を分析して4つの典型的なパターンを特定しました。これはフリーランスがAIツールを使う際の注意点としても役立ちます。

1つ目は「前提条件の検索漏れ」です。必要な情報を確認せずにデータを作成してしまい、他のレコードと関連づけられない「孤立」したデータが生まれてしまうケースです。たとえば顧客情報を確認せずに問い合わせチケットを作成してしまうような状況です。

2つ目は「カスケード状態伝播の失敗」。システムの状態が変わった後に、本来必要なフォローアップ処理を実行し忘れるパターンです。人事システムで社員のステータスを変更したのに、関連する権限設定やアクセス管理が更新されないといった事例が該当します。

3つ目は「不正確なID解決」で、データベース内のレコードを特定する際に、確認せずに推測したIDを使ってしまう問題です。4つ目は「早期完了のハルシネーション」。すべての手順を完了していないのに、タスクが終わったと判断してしまう現象です。

安全な拒否ができないリスク

ベンチマークには、意図的に実行不可能なタスクが30件含まれています。アクセス権限がない操作や、非アクティブなユーザーへのリクエストなど、正しく「実行できません」と拒否すべきタスクです。しかし最高性能のGPT-5.2でさえ、正しく拒否できたのは53.9%にとどまりました。AIエージェントに業務を任せる際は、権限管理や例外処理を人間が監視する体制が欠かせません。

計画能力がボトルネックと判明

この研究で最も重要な発見は、AIエージェントの最大の弱点が「戦略的な計画」だという点です。研究チームが人間の専門家が作成した計画を与えたところ、すべてのモデルで14〜35パーセントポイントも成功率が向上しました。

この結果は、フリーランスにとって実用的なヒントになります。AIエージェントに丸投げするのではなく、大まかな手順や方針を人間が示してから実行を任せる方式が、現時点では効果的だということです。たとえば「このデータを集めて、あのシステムに登録して、関係者に通知する」という大枠を指示すれば、AIは個別の実行をより正確にこなせるわけです。

小型モデルのQwen3-4Bでさえ、戦略的な計画を外部から与えられると、大型モデルと競合できる水準まで性能が上がりました。これは、高額なモデルを契約しなくても、使い方次第で十分な結果を得られる可能性を示しています。

マルチエージェントシステムの効果は限定的

計画を担当するエージェントと実行を担当するエージェントを分ける「マルチエージェントシステム」も試されました。結果は若干の改善にとどまり、場合によっては逆効果になることも判明しています。

特にカスタマーサービスや人事のように、手順の順序が重要なタスクでは、複数のサブタスクに分解するとかえって文脈が失われ、シンプルな単一エージェントより成功率が下がりました。現時点では、複雑なアーキテクチャより、しっかりした計画と明確な指示を与える方が効果的といえそうです。

フリーランスへの影響

この研究結果は、フリーランスがAIエージェントを実務に導入する際の現実的な見通しを示しています。最新のAIモデルでも、複雑な業務フローを完全に自動化できるレベルにはまだ達していません。成功率4割以下という数字は、エージェントに任せた作業の6割以上は人間の確認や修正が必要になることを意味します。

ただし、使い方次第で効果を高められる余地は大いにあります。人間が大まかな計画や手順を示し、AIに個別の実行を任せる形にすれば、成功率は大幅に向上します。完全自動化ではなく「人間とAIの協働」と捉えることで、作業時間の短縮やミスの削減は十分に期待できます。

コスト面では、Gemini-3-Flashのような中価格帯モデルが実用的な選択肢になりそうです。最高性能のモデルと比べて成功率は数パーセント劣りますが、コストは10分の1以下です。大量の定型業務を扱うフリーランスにとって、この価格差は年間で大きな金額になります。

逆に、絶対的な信頼性が必要な重要業務では、Claude Opus 4.5のような高性能モデルを選ぶ価値があります。クライアントとの契約管理や請求処理といった、ミスが許されない作業では、多少コストをかけても成功率の高いモデルを使うべきでしょう。

まとめ

EnterpriseOps-Gymは、AIエージェントの現在地を冷静に評価する材料を提供してくれました。フリーランスとしては、AIエージェントを「完璧な自動化ツール」ではなく「優秀だが監督が必要なアシスタント」として活用する姿勢が現実的です。大まかな指示を出し、実行を任せ、結果を確認する流れを作れば、作業効率は確実に上がります。

今すぐ業務フローを全自動化する必要はありませんが、AIエージェントを部分的に取り入れて試す価値は十分にあります。まずは定型的なタスクから始めて、成功率とコストのバランスを自分の業務で確かめてみてください。

参考リンク:
論文PDF: https://arxiv.org/pdf/2603.13594
GitHubリポジトリ: https://github.com/ServiceNow/EnterpriseOps-Gym
技術詳細: https://enterpriseops-gym.github.io/

コメント

タイトルとURLをコピーしました