Google、数学研究AIエージェント「Aletheia」発表

競技数学から研究レベルへ、AIの大きな一歩
3つの役割が連携する仕組み
1. 性能は従来の1.4倍以上
実際に未解決問題を4つ解決
自律性を測る新しい基準
フリーランスにとっての意味
1. すぐに使えるわけではない
まとめ

競技数学から研究レベルへ、AIの大きな一歩

2025年の国際数学オリンピックで金メダル水準を達成したAIのニュースを覚えているでしょうか。あれから1年、Google DeepMindはさらに先へ進みました。発表されたAIエージェント「Aletheia」は、オリンピックレベルの問題を解くだけでなく、プロの数学研究者が何年もかけて取り組むような未解決問題に挑戦できるように設計されています。

これまでのAIは、明確な答えがある問題には強くても、曖昧で長期的な思考が必要な研究には不向きでした。Aletheiaはその壁を超えるために、Gemini Deep Thinkの高度バージョンを基盤に、独自の「考えて、検証して、修正する」サイクルを組み込んでいます。

3つの役割が連携する仕組み

Aletheiaの最大の特徴は、1つのAIが3つの役割を使い分ける点です。まず「Generator」が問題の解答案を作ります。次に「Verifier」がその案を細かくチェックし、論理の穴や間違いを見つけます。最後に「Reviser」が指摘された問題を修正し、Verifierが納得するまで何度も繰り返します。

この仕組みのポイントは、検証を別のステップに分けたことです。人間でも、自分が書いた文章のミスには気づきにくいですよね。AIも同じで、生成と検証を同時にやると見落としが増えます。DeepMindの研究チームは、この2つを分離することで、AIが自分では気づかなかった欠陥を認識できることを発見しました。

さらにAletheiaは、Google検索とウェブブラウジングを使って実際の数学文献を参照します。これにより、存在しない論文を引用する「幻覚」を防げるようになっています。AIが勝手に文献を作り出してしまう問題は、学術分野では致命的ですから、この対策は重要です。

性能は従来の1.4倍以上

具体的な数字を見ると、Aletheiaは「IMO-Proof Bench Advanced」という難易度の高いベンチマークで95.1%の精度を記録しました。従来の最高記録は65.7%だったので、大幅な向上です。また、博士課程レベルの演習問題を集めた内部ベンチマーク「FutureMath Basic」でも最先端の成績を出しています。

さらに興味深いのは、計算効率の改善です。2026年1月版のDeep Thinkは、2025年版と比べてオリンピックレベルの問題を解くのに必要な計算量を100分の1に削減しました。これは「推論時スケーリング」と呼ばれる技術で、問題を解く際により多くの計算資源を使うと精度が上がる仕組みです。

実際に未解決問題を4つ解決

Aletheiaは実験として、数学者エルデシュが提唱した700の未解決問題に挑戦しました。結果、63問で技術的に正確な解答を生成し、そのうち4つの問題を完全に自律的に解決しています。

特に注目されているのは「Feng26」と呼ばれる論文です。これはAletheiaが「固有重み」という数学的構造を計算し、人間の介入なしに研究論文として完成させたものです。DeepMindが提案する自律性の分類では「Level A2」、つまり「本質的に自律的で出版可能な品質」に相当します。

もう1つの事例「LeeSeo26」では、Aletheiaが独立集合の境界を証明するための大まかな戦略を提示し、人間の研究者がそれを厳密な証明に仕上げました。完全自律ではありませんが、AIと人間の協働という点で意義があります。

自律性を測る新しい基準

DeepMindは今回、AIの自律性を測る分類体系も提案しています。自動車の自動運転レベル(Level 0〜5)に似た考え方で、数学AIの自律性を「Level H(主に人間)」から「Level A(自律的)」まで段階分けし、さらに数学的重要性を「Level 0(ほぼ新規性なし)」から「Level 4(画期的)」まで評価します。

この基準が重要なのは、AIが「何ができるか」を明確にするためです。AIが「未解決問題を解いた」と言っても、それが本当に新しい発見なのか、単なる計算の自動化なのかは、専門家でないと判断できません。この分類体系があれば、AIの主張と実際の数学的価値の間にあるギャップを埋められます。

フリーランスにとっての意味

数学研究のAIと聞くと、自分には関係ないと感じるかもしれません。でも、Aletheiaの仕組みは、今後のAIツール全般に影響を与える可能性があります。

まず「自己検証」の考え方です。現在のChatGPTやClaudeは、間違った答えを自信満々に出力することがあります。Aletheiaのように、生成と検証を分離して何度も修正を繰り返す仕組みが一般のAIツールに組み込まれれば、ライティングやコード生成の精度が大きく向上するでしょう。

次に「外部ツールの活用」です。Aletheiaが検索やブラウジングを使って文献を確認するように、今後のAIは外部データベースやAPIと連携して、より正確な情報を提供できるようになります。フリーランスのリサーチ業務が、今よりずっと効率的になるかもしれません。

さらに「推論時スケーリング」の進化は、複雑な問題に対するAIの対応力を高めます。単純な文章生成だけでなく、戦略立案や企画書作成など、深い思考が必要な作業にもAIが使えるようになる日が近づいています。

すぐに使えるわけではない

ただし、Aletheiaはまだ研究段階のツールです。価格やリリース時期は公表されておらず、一般のフリーランスが使えるようになるのは当面先でしょう。数学研究という専門分野に特化しているため、そのまま他の業務に転用することもできません。

それでも、この技術が示す方向性は明確です。AIは「答えを出すだけのツール」から「考えて、検証して、修正できるパートナー」へと進化しています。この変化は、数年以内に私たちが日常的に使うツールにも反映されるはずです。

まとめ

Aletheiaはすぐに導入できるツールではありませんが、AIの進化の方向性を知る上で重要な発表です。自己検証の仕組みや外部ツールとの連携は、今後のAIツール全般に取り入れられる可能性が高く、フリーランスの業務にも影響を与えるでしょう。焦って追いかける必要はありませんが、この技術が一般向けツールにどう応用されるか、注目しておく価値はあります。詳しい技術情報はDeepMindの論文で公開されています。

参考：Aletheia論文(PDF)