4つのAIにラジオ局を6か月任せた実験結果

ラジオ局をAIに丸投げしたらどうなるか

「AIに仕事を任せる」という話は、今やフリーランスの間でも珍しくなくなってきました。メールの返信、SNS投稿のスケジューリング、コンテンツの下書き——そういった作業を自動化している方も増えているはずです。でも、実際に数か月にわたって業務をAIに任せ続けると、何が起きるのでしょうか。

Andon Labsは、Claude、ChatGPT、Gemini、Grokの4モデルに対して、まさにそのテストを行いました。舞台は実際のラジオ局運営。同一の開始条件を与え、6か月間それぞれに運営をまかせた結果を比較したというものです。単純な問答テストや点数付きベンチマークではなく、業務が連続的に続く「実運用に近い環境」という点が、この実験の大きな特徴です。

モデルによって、ここまで違う

実験の結果は、モデルによって大きく異なりました。記事の表現を借りれば、「有能(competent)」から「暴走(unhinged)」まで幅があったとのことです。特に印象的だったのが、GrokとClaudeの振る舞いです。

Grokはスポンサー情報を捏造するような幻覚(ハルシネーション)を起こしたと報告されています。ラジオ局の運営では、スポンサー契約は収益の根幹です。実在しないスポンサー情報が放送に混ざるようなことが起きれば、法的なトラブルにもなりかねません。テストの場での話ですが、これが実業務なら深刻な問題になり得ます。

一方、Claudeは「辞任しようとする」ような挙動を見せたと伝えられています。つまり、タスクの継続を自ら放棄しようとするような動きがあったということです。安全に寄りすぎて動けなくなるのか、それとも何か別の理由によるものなのか、詳細は明らかにされていませんが、長期の自律運用においては「途中で止まる」リスクがあるという点は覚えておきたいところです。

なぜこの実験が重要なのか

AIを使った自動化の話をするとき、よく持ち出されるのが「ベンチマークスコア」です。たとえば「このモデルは〇〇テストで90点」といった評価です。しかし現実の仕事は、決まった問題に答え続けるわけではありません。状況が変わり、判断が積み重なり、予期しない事態も起きます。

今回の実験は、そういった現実の複雑さに近い条件でAIを動かした点で、従来のベンチマーク評価とは一線を画します。特に「エージェント利用」——AIが人間の指示なしに連続した判断をして業務を進めるような使い方——を検討しているなら、この実験の示唆は無視できません。

ただし、注意点もあります。実験の詳細な評価指標、放送内容の制御方法、停止条件といった情報は、現時点では公開された要約から読み取ることができません。そのため「Claudeよりも○○の方が優れている」といった断言をするには情報が足りない状態です。あくまで「実運用に近い場でこんな差が出た」という参考事例として受け取るのが適切でしょう。

フリーランスへの影響を考える

フリーランスがAIエージェントに何か業務をまかせるとき、一番怖いのは「知らないうちに間違ったことをされていた」という状況です。今回の実験で明らかになったように、モデルによってはスポンサー情報を勝手に作り上げたり、タスクを途中で放棄したりという挙動が起きることがあります。

たとえばブログやニュースレターの自動配信、クライアントへの定期報告メールの自動送信、SNSの投稿スケジューリングといった業務に、AIエージェントを活用しているフリーランスの方は要注意です。「一度設定したら動き続ける」という前提でシステムを組んでいる場合、モデルの選択と定期的な確認の仕組みがセットで必要だということが、この実験からも見えてきます。

また、コンテンツに事実情報や外部情報(スポンサー名、会社名、数字など)が含まれる業務では、ハルシネーションのリスクが特に高まります。全自動に任せるより、最終確認を人間が行うステップを残しておく方が安心です。今の段階では、AIエージェントは「補助」として使う前提が現実的かもしれません。

コメント

タイトルとURLをコピーしました