中国MiniMax M2.7、自分で自分を改良するAIモデル登場

自分で自分を改良するAIの登場
実際のパフォーマンスはどうなのか
どんな作業に使えるのか
OpenAIも同様の取り組みを実施
フリーランスへの影響
まとめ

自分で自分を改良するAIの登場

MiniMaxが発表したM2.7は、単なる高性能AIモデルではありません。開発中に自分自身のナレッジベースを更新し、トレーニングプロセスを自律的に最適化した初めてのモデルだと同社は説明しています。

具体的には、開発チーム内のリサーチエージェントシステムとして機能し、文献調査や実験追跡、デバッグ、指標分析、コード修正といった日常業務をこなします。人間が介入するのは重要な意思決定の場面だけで、ワークフロー全体の30〜50%をM2.7がカバーしているそうです。

MiniMaxは「人間の関与なしにデータ構築やモデルトレーニング、評価などを調整する完全自律へと段階的に移行する」という将来ビジョンも公表しました。この構想の理論的基盤は2003年にJürgen Schmidhuberが提唱した「ゴーデルマシン」という概念にまで遡ります。

実際のパフォーマンスはどうなのか

M2.7は内部開発環境で100回以上のラウンドにわたって自律的に最適化を繰り返し、内部評価セットで30%のパフォーマンス向上を達成したとされています。各ラウンドでは失敗を分析し、変更を計画・実装・テスト・評価するサイクルを回しました。

公開ベンチマークでは、機械学習コンペティション22件を対象にしたMLE Bench Liteで平均メダル率66.6%を記録しました。これはGemini 3.1と同等で、GPT-5.4の71.2%やClaude Opus 4.6の75.7%よりは低い結果です。

ソフトウェアエンジニアリングのタスクを評価するSWE-Proでは56.22%のスコアを獲得し、GPT-5.3 Codexと同等の水準に達しています。また、オープンウェイトモデル限定の比較では、GDPval-AAベンチマークでELOスコア1,495を記録し、最高スコアだと同社は主張しています。

ただし記事では「ベンチマーク結果は有用な指標だが、必ずしも実際のパフォーマンスを反映するわけではない」と注意書きがあります。実務での使い勝手は、実際に触ってみないと判断しづらい部分もあるでしょう。

どんな作業に使えるのか

M2.7はMiniMax AgentとAPIプラットフォームで利用可能になっています。ソフトウェア開発のほか、Word、Excel、PowerPointといったオフィスツールの操作にも対応しており、マルチレベルの編集を高精度で処理できるとのことです。40以上の複雂な指示セットにわたって97%のルール忠実度を維持したという報告もあります。

興味深い事例として、M2.7がTSMCの年次報告書を読み込み、売上予測モデルを構築し、プレゼンテーションとリサーチレポートを作成した例が紹介されています。ある金融専門家は、この出力が「すでに初稿として機能できる」レベルだと評価しました。

また、同社はOpenRoomというオープンソースプロジェクトもリリースしました。これはAIとのやり取りをグラフィカルなWeb環境に移行するもので、従来のテキストベースのインターフェースとは異なる体験を提供します。

OpenAIも同様の取り組みを実施

実は、AIが自分自身の開発プロセスに関与する試みはMiniMaxだけではありません。OpenAIのCodexチームも、モデルの初期バージョンをトレーニング中のバグ発見やデプロイ管理、テスト結果評価に使用していたと報告しています。チームは、Codexが自身の開発プロセスをどれほど加速させたかに驚いたと述べました。

この流れは、AI開発が人間主導から人間とAIの協働、そして将来的にはAI主導へと移行していく可能性を示唆しています。