AIニュース・トレンド OpenAI、AIコーディング評価基準の廃止を提案
OpenAIが業界標準だったSWE-bench Verifiedというベンチマークの引退を提案しました。理由は、評価基準の6割近くに欠陥があり、正しいコードを不合格にしてしまうケースがあるため。さらに、テスト内容がAIの学習データに含まれており、本当の実力ではなく暗記したコードを吐き出しているだけという問題も浮上しています。フリーランスのエンジニアにとっては、AIコーディングツールの性能比較が今後変わってくる可能性があります。