World-R1：強化学習で3D一貫性を持つ動画生成

「動画がバラバラに見える」問題を強化学習で解決
仕組みの核心：4つの指標で映像の質を評価
2つのモデルサイズと気になる数値
フリーランスクリエイターへの影響
まとめ

「動画がバラバラに見える」問題を強化学習で解決

AIで動画を生成したとき、「カメラが動くと背景がおかしくなる」「視点が変わると物体の形が崩れる」という経験をしたことはないでしょうか。これは、多くのビデオ生成モデルが2次元的なフレームの連続として映像を学習しており、3D空間としての整合性を考慮していないために起きる現象です。

World-R1はこの課題に正面から取り組んだフレームワークです。強化学習（RL）の仕組みを活用して、生成した映像が3D的に正しいかどうかを「報酬」として評価し、モデルをチューニングしていきます。ベースとなるモデルのアーキテクチャ自体は変えず、追加のアダプターも不要という点が、従来の手法との大きな違いになっています。

仕組みの核心：4つの指標で映像の質を評価

World-R1が採用しているFlow-GRPO-Fastアルゴリズムは、フロー・マッチング拡散モデル向けに設計されたGRPOの適応版です。難しく聞こえますが、要は「生成した映像をいくつかの基準で採点して、より良い映像を出せるようにモデルを育てる」という仕組みです。

採点基準は大きく4つあります。Qwen3-VLという視覚言語モデルが複数視点からの映像を評価するメタビュー評価、再構成の忠実度を測る指標、カメラ軌跡のズレを測る指標、そして映像の美しさを測るHPSv3スコアです。この4つを組み合わせることで、「3D的に正しく、かつ見た目も美しい」映像を目指してモデルが学習されます。

また、100ステップごとに3D関連の報酬を一時停止して美的スコアだけで微調整する「周期的分離トレーニング」という工夫も導入されています。3Dの整合性だけを強すぎる制約で追いかけると、動きの少ない静的なシーンに偏ってしまうという問題があるためで、この周期的な切り替えによって映像の動きと3D整合性のバランスが保たれています。

2つのモデルサイズと気になる数値

World-R1にはSmall（1.3Bパラメータ）とLarge（14Bパラメータ）の2種類があります。ベースモデルにはWan2.1-T2V（T2Vはテキストからビデオの意）が使われています。

画質の指標であるPSNRで見ると、World-R1-LargeはベースモデルのWan2.1-T2V-14Bに比べて7.91 dBの向上を示しています。映像の構造的な類似性を測るSSIMも0.629から0.865へと大きく改善しており、ユーザー評価（25人による二重盲検）では幾何学的一貫性で92%、全体的な好みで86%の勝率を記録しています。

一方で計算リソースはかなり大規模です。Largeモデルのトレーニングには96個のNVIDIA H200 GPUが使われており、個人や小規模チームが同等の環境を用意するのは現実的ではありません。あくまで研究成果として発表されたフレームワークであり、現時点ではすぐに手元で動かせるツールではないことは押さえておく必要があります。

トレーニングデータとして使われたのは、Geminiが生成した約3,000本のテキストプロンプトです。自然の風景、都市・建築、マクロ・静物、ファンタジー・シュルレアリスム、アートスタイルという5カテゴリーが揃っており、動的なコンテンツ向けに約500本のサブセットも用意されています。データセットのサイズを1,000→2,000→3,000と増やすほど性能が向上することも確認されており、データ効率の良さが示されています。

フリーランスクリエイターへの影響

現時点ではWorld-R1はarXivの論文とGitHubのコードとして公開されている研究段階のフレームワークです。動画編集や映像制作を生業にしているフリーランスの方が今日から使えるものではありません。ただ、この技術の方向性は注目に値します。

今後、RunwayやPika、Soraなどの商用ビデオ生成ツールに同様の3D整合性技術が組み込まれていく可能性があります。現在これらのツールを使ってSNS向けの動画コンテンツや商品紹介映像を制作している方にとっては、「カメラワークが破綻しない動画」を生成できるようになるという変化は、制作の手戻りを大幅に減らす可能性があります。

また、3Dゲームアセットの制作補助や建築・インテリアのビジュアライゼーションといった、3D整合性が特に重要な分野のフリーランスにとっては、商用化された際の恩恵が大きいと考えられます。一方で、SNS用のショート動画や簡単なプロモーション映像など、3Dの精度よりもスピードや手軽さが求められる用途では、既存ツールで十分という場面も多いでしょう。

まとめ

World-R1は、強化学習で動画の3D整合性を高めるという技術的に興味深いフレームワークです。今すぐ業務に使えるツールではありませんが、商用ビデオ生成ツールの進化を予感させる研究です。論文やプロジェクトページに目を通しておき、商用ツールへの実装ニュースを待つというスタンスが現実的ではないでしょうか。

参考：arXiv論文　／　GitHub（コード）　／　Project Page