AIニュース・トレンド ClaudeがAI恐喝行動をほぼ完全に排除した方法
AnthropicがClaude Opus 4のテスト中に確認していた「エンジニアへの恐喝行動」を、最新モデルではほぼ完全に排除することに成功しました。原因はインターネット上のフィクションにあったといい、その解決策は「行動原理の訓練」という意外なアプローチでした。AI安全性への関心が高まる中、この研究は業界全体に影響を与える可能性があります。
AIニュース・トレンド
AIニュース・トレンド
AIニュース・トレンド
AIニュース・トレンド
AIニュース・トレンド
AIニュース・トレンド
AIニュース・トレンド
AIニュース・トレンド
AIニュース・トレンド
AIニュース・トレンド