「解けない問題」でも答えを出してしまうAI
AIが数学の問題を解く能力は、ここ数年で目覚ましく向上しています。研究者レベルの問題にも対応できるモデルが登場し、「もうAIは人間の専門家に匹敵する」という声も珍しくありません。しかし今回、韓国・米国の研究者たちが開発した数学ベンチマーク「SOOHAK(수학)」によって、その評価に大きな穴があることが浮き彫りになりました。
SOOHAKは合計439件の数学タスクで構成されていますが、そのうち99件は意図的に「壊された」問題です。つまり、条件が矛盾していたり、前提が崩れていたりして、そもそも正解が存在しない問いが含まれています。まともに考えれば「この問題は解けません」と答えるべきところを、主要なフロンティアAIモデルはどのように振る舞ったのでしょうか。
どのモデルも「壊れた問題」に正直になれなかった
結果は衝撃的です。Googleの最新モデルであるGemini 3 Proは、研究レベルの解ける問題では30%という高い正解率を叩き出しました。しかし壊れた問題のグループに対しては、調査対象のすべてのモデルで正解率(つまり「解けない」と正しく判断できた割合)が50%を下回りました。
さらに興味深いのは、計算資源を増やしてモデルに「もっと深く考えさせる」と、解ける問題への性能は上がるのに、壊れた問題を壊れていると認識する能力はほとんど改善しなかった点です。つまり、AIに「もっと時間をかけて考えさせれば正確になる」という一般的な期待が、少なくともこの種の問題では通用しないことを示しています。
これは「メタ認知」の問題です
この研究が本当に指摘したいのは、数学の計算力ではありません。「自分がわからないことを、わからないと認識できるか」という、いわゆるメタ認知の問題です。研究者たちは「計算量を増やしても、答えを拒否する能力はほぼ測定されていない」と明確に述べています。
たとえば、法律の文書にわずかな矛盾が含まれていた場合、AIはそれを指摘するのではなく、もっともらしい解釈を生成して返答してしまうかもしれません。財務データに明らかな誤りがあっても、AIはその前提のまま計算を進めて答えを出す可能性があります。SOOHAKが示したのは、まさにそうした「誤った自信」がフロンティアモデルにも存在するという事実です。
標準的なランキングには映らない
もう一つ見逃せないのは、従来の評価方法では今回の問題が見えにくいという点です。通常の数学ベンチマークは「解ける問題の正答率」を中心に測定するため、高いスコアを持つモデルが実際には壊れた問題で答えを捏造しているとしても、それがランキングに反映されません。SOOHAKのアプローチが新しいのは、「能力」と「信頼性」を分けて評価できるからこそ、こうした不整合が初めて可視化されたところにあります。
フリーランスへの影響:信頼できる場面と、そうでない場面
この研究が示すことは、フリーランスや個人事業主がAIをどう使うべきかを考える上でも、実践的な示唆を持っています。AIは「答えが存在する問い」には非常に強い一方で、「そもそも前提がおかしい」「矛盾がある」「情報が不足している」という状況でも、堂々と答えを返してしまうことがあります。
たとえばクライアントから受け取ったデータに不備があるとき、AIにそのまま分析させると誤った前提に基づいた出力が返ってくる可能性があります。契約書の文面に曖昧な条件が含まれていても、AIは「解釈できた」として何らかの答えを生成するかもしれません。こうした場面では、AIの出力を鵜呑みにするのではなく、自分で「この問い自体に問題がないか」を確認する習慣が大切になります。
逆に言えば、前提が明確で、問いの構造がしっかりしている作業——たとえば決まったフォーマットに沿った文章の作成や、ルールが明確な計算処理——では、AIは引き続き強力なパートナーになります。今回の研究は「AIを使うな」と言っているのではなく、「AIが自信を持って答えているときでも、前提を疑う目を持とう」というメッセージとして受け取るのが適切です。
まとめ:AIの「わからない」に耳を傾ける設計を
SOOHAKの研究は、AIの能力評価における新しい視点を提供しています。現時点では特定のツールが登場したわけではないので、すぐに何かを試す必要はありません。ただ、AIを業務の中核に据えようとしているなら、「このモデルは不確かなことをちゃんと不確かと言えるか」という観点を持っておくと、後々のトラブルを防ぐことができます。詳しくは以下の参考リンクから元の情報を確認してみてください。
参考:VentureBeat – This math benchmark shows frontier AIs can’t recognize when problems are unsolvable

コメント