AIニュース・トレンド AIエージェント評価ベンチマーク「EnterpriseOps-Gym」公開
ServiceNow Researchらが、エンタープライズ環境でAIエージェントの計画能力を測る新しいベンチマーク「EnterpriseOps-Gym」を発表しました。カスタマーサービスや人事、ITサービスなど8つの業務ドメインを再現した環境で、Claude Opus 4.5やGPT-5といった最新モデルを評価したところ、成功率は最高でも37.4%にとどまりました。フリーランスがAIエージェントを実務で使う際の現実的な限界と、今後の改善ポイントが明らかになっています。