Meta、Neural Computers発表─AIが学習でプログラムを実行

Neural Computersとは何か
2つのプロトタイプが公開
1. NCCLIGen：CLI環境用
2. NCGUIWorld：GUI環境用
技術的な工夫と改善
従来技術との違い
まだ解決されていない課題
フリーランスへの影響
まとめ

Neural Computersとは何か

Neural Computersは、従来のコンピュータやAIエージェントとはまったく異なるアプローチです。通常のコンピュータは、プログラマーが書いたコードを実行します。AIエージェントは、既存のOS、API、ターミナルといったソフトウェアスタックを使ってタスクをこなします。一方、Neural Computersは、ニューラルネットワーク自体が実行環境となり、計算、メモリ、入出力のすべてを学習されたモデル内に組み込みます。

具体的には、更新関数と潜在実行状態に対する復号器で定義されます。長期的な目標は「完全ニューラルコンピュータ（CNC）」の実現です。これはチューリング完全で、普遍的にプログラム可能であり、明示的に再プログラムされない限り一貫した動作を維持します。また、機械ネイティブなアーキテクチャとプログラミング言語のセマンティクスを備えています。

現時点では、この技術は研究段階です。しかし、将来的にはCLIやGUI環境での自動化タスクに応用できる可能性があります。たとえば、ターミナル操作やデスクトップインタラクションを、学習によって自動化するといった用途が考えられます。

2つのプロトタイプが公開

NCCLIGen：CLI環境用

最初のプロトタイプは、NCCLIGenです。これはCLI（コマンドラインインターフェース）環境用に設計されています。テキストプロンプトと初期画面フレームから、ターミナルインタラクションをモデル化します。基盤モデルには、Wan2.1が使われています。

性能面では、再構成品質がPSNR平均40.77 dB、SSIM 0.989（13pxフォントサイズ）を記録しました。文字レベルの精度は、初期化時の0.03から60,000ステップで0.54に上昇し、完全行一致精度は0.31に達しています。数学問題への算術プローブ精度は4%で、ベースのWan2.1が0%だったことを考えると改善が見られます。さらに、再プロンプト時には精度が4%から83%に大幅上昇しました。

訓練には膨大なリソースが投入されています。CLIGen（General）で約15,000 H100 GPU時間、CLIGen（Clean）で約7,000 H100 GPU時間です。データセットは、CLIGen（General）が約823,989ビデオストリーム（約1,100時間）、CLIGen（Clean）が約78,000通常トレースと約50,000 Python数学検証トレースで構成されています。

NCGUIWorld：GUI環境用

2つ目のプロトタイプは、NCGUIWorldです。こちらはGUI環境用で、フルデスクトップインタラクションをモデル化します。解像度は1024×768、Ubuntu 22.04、XFCE4環境で、15 FPSで動作します。

内部コンディショニングでは、SSIM+15が0.863、FVD+15が14.5を達成し、最高の構造一貫性を実現しました。残差コンディショニングでは、LPIPS+15が0.138で、最高の知覚距離を記録しています。カーソル制御精度は、SVGマスクや参照コンディショニングで98.7%に達しました。

訓練データセットは計約1,510時間で、Random Slowが約1,000時間、Random Fastが約400時間、Claude CUAを使用した目標指向トラジェクトリが110時間です。訓練時間は64 GPU使用で約15日間、1回の実行につき約23,000 GPU時間でした。興味深いのは、Claude CUAデータセット（110時間）でFVD 14.72を達成したのに対し、ランダム探索1,400時間では20.37および48.17にとどまった点です。質の高いデータが効率的な学習につながることが示されています。

技術的な工夫と改善

NCCLIGenでは、CLIPイメージエンコーダ、T5テキストエンコーダ、DiT（Diffusion Transformer）スタックが使われています。詳細なキャプション（平均76語）を導入した結果、PSNRが21.90 dBから26.89 dBに改善し、約5 dBの向上が見られました。これは、詳細な説明がモデルの理解を深めることを示しています。

訓練ダイナミクスでは、PSNR/SSIMがCLIGen（Clean）では25,000ステップ付近で安定化しました。460,000ステップまで訓練を続けても、有意な改善は見られませんでした。これは、訓練の効率化において重要な知見です。

アクション注入スキームについては、外部、文脈的、残差、内部の4種類が評価されました。結果、内部スキームが最良であることが確認されています。

従来技術との違い

Neural Computersは、従来のコンピュータ、AIエージェント、ワールドモデルとは異なるアプローチを取っています。従来のコンピュータは明示的なプログラムを実行し、AIエージェントは既存のソフトウェアスタックを使用してタスクを完了します。ワールドモデルは環境が時系列でどのように進化するかを学習します。

過去には、Neural Turing MachineやDifferentiable Neural Computerといった研究がありましたが、これらは外部メモリの微分可能性に焦点を当てていました。Neural Computersは、それとは異なり、ニューラルネットワーク自体が実行コンピュータとして機能する点が新しいのです。

数学問題での比較では、NCCLIGenが再プロンプト時に83%の精度を達成しました。一方、Sora-2は71%、Veo3.1は2%でした。再プロンプトという条件付きではありますが、高い精度を示しています。

まだ解決されていない課題

研究チームは、いくつかの未解決の課題を挙げています。まず、学習ルーチンの安定的な再利用です。学習された機能を永続的に保持し、必要なときに呼び出せるようにする必要があります。次に、信頼できるシンボリック計算です。数学的な計算を正確に行うことは、まだ難しい状況です。

長距離実行の一貫性も課題です。複数回の実行で再現可能な動作を実現することが求められます。また、明示的な実行時管理も必要です。暗黙的なドリフトではなく、明示的な再プログラミングによって動作を変更できるようにする必要があります。

これらの課題が解決されれば、Neural Computersはより実用的なツールに近づくでしょう。しかし、現時点ではまだ研究段階であり、実務で使えるレベルには達していません。

フリーランスへの影響

現時点では、Neural Computersは研究段階のプロジェクトです。フリーランスがすぐに使えるツールではありません。しかし、この技術が示す方向性は重要です。将来的には、CLI操作やGUI操作を学習によって自動化できる可能性があります。

たとえば、ターミナルでの繰り返し作業や、デスクトップでのルーチンタスクを、明示的なプログラムなしに自動化できるかもしれません。これは、ノーコードツールのさらに先を行くものです。プログラミングの知識がなくても、AIが学習によってタスクをこなしてくれる世界です。

ただし、実用化までには時間がかかるでしょう。訓練に膨大なリソースが必要であり、未解決の課題も多く残っています。また、学習ルーチンの安定性や、シンボリック計算の信頼性といった問題もクリアする必要があります。

今すぐに作業時間を減らしたいフリーランスにとっては、既存のAIツールやノーコードツールを活用する方が現実的です。しかし、数年後のAI自動化の方向性を知っておくことは、将来の準備として有益です。

まとめ

MetaとKAUSTが発表したNeural Computersは、ニューラルネットワーク自体がコンピュータとして機能する新しい機械形式です。現時点では研究段階であり、フリーランスがすぐに使えるツールではありません。しかし、将来的にはCLIやGUI環境での自動化タスクに応用できる可能性があります。

今すぐ何かアクションを起こす必要はありませんが、AI自動化の未来を知っておくことは無駄ではありません。詳細は論文（arXiv:2604.06425）や公式サイト（metauto.ai/neuralcomputer/）で確認できます。興味があれば、チェックしてみてください。