NVIDIA、単一GPUで60秒720p動画を生成できるオープンソースモデル「SANA-WM」を公開

1枚の画像から60秒の動画を生成する「SANA-WM」とは
どのくらいの速さで動くのか
技術的な背景（ざっくり解説）
どんな用途に向いているか
1. 現時点での注意点
フリーランスへの影響
まとめ

1枚の画像から60秒の動画を生成する「SANA-WM」とは

NVIDIAの研究部門であるNVLabsが、「SANA-WM」というオープンソースの動画生成モデルを公開しました。このモデルが注目されている理由はシンプルで、これまで大型のサーバー環境でないと現実的ではなかった「長尺・高解像度の動画生成」を、単一のGPUで実現できるという点にあります。

使い方の基本的な流れとしては、まず1枚の参照画像を用意します。そこに「カメラがどう動くか」という軌道情報（6自由度、いわゆる6-DoF）を加えると、その画像の世界観を保ちながら最大60秒・1280×720ピクセルの動画が生成されます。たとえば風景写真を起点に、カメラがゆっくり右にパンしていくような映像を自動で作れるイメージです。

どのくらいの速さで動くのか

気になるのは処理速度だと思います。標準的な精度で動作させた場合、H100クラスのGPUで60秒動画を生成するのに約2〜3分かかります。また、蒸留版と呼ばれる軽量化モデルを使うと、RTX 5090上では60秒の動画をおよそ34秒で生成できるとされています。蒸留版の高速化にはNVFP4量子化という技術が使われており、精度とのトレードオフはありますが、試作・確認用途であれば十分な速さといえます。

公開されているベンチマークでは、同じオープンソース系のモデルと比べて36倍のスループットを達成したと報告されています。また、視覚的な品質についても、LingBot-WorldやHY-WorldPlayといった産業用のクローズドモデルに近いレベルだと説明されています。もちろん公式発表の数字なので実際の使用感は試してみないとわかりませんが、ベンチマーク上の数値は印象的です。

技術的な背景（ざっくり解説）

SANA-WMの内部では「Hybrid Linear Diffusion Transformer」というアーキテクチャが使われています。難しそうな名前ですが、要するに処理効率と映像品質のバランスをとるために、異なる種類の注意機構を組み合わせた設計です。カメラの動きを反映する仕組みも工夫されていて、大まかな軌道情報と細かいフレームごとの情報を2段階に分けて扱うことで、長い動画でも一貫したカメラワークを保てるようになっています。

学習データには約21万3,000本の公開動画クリップが使われており、64台のH100で15日間かけて学習させたとのことです。個人や小規模チームが1から再現するのは現実的ではありませんが、完成済みの重みとコードがApache 2.0ライセンスで公開されているため、誰でも自由に使えます。商用利用もライセンス上は可能です。

どんな用途に向いているか

SANA-WMが特に活きそうな用途として、まず「背景プレートの生成」が挙げられます。映像制作やVFXでは、キャラクターや物体の後ろに使う背景映像（背景プレート）を撮影するコストが意外とかかります。参照画像さえ用意できれば、カメラワークを指定して60秒分の背景動画を自動生成できるとすれば、制作の下準備にかかる時間と費用を減らせる可能性があります。

次に「コンセプト映像や絵コンテ的な動画の試作」にも使えそうです。クライアントへの提案段階でカメラの動きを含めたイメージを見せたい場面で、正式な撮影や3DCGなしに動く映像を作れるのは便利です。また、アニメーションやゲームの背景を扱う開発者にとっても、テスト映像の生成ツールとして活用できるかもしれません。

現時点での注意点

一方で、いくつか確認しておきたい点もあります。まず、動作させるにはそれなりに新しい・高性能なGPUが必要です。RTX 5090やH100クラスを手元に持っているフリーランスは多くないと思いますので、クラウド環境での利用が現実的な選択肢になるでしょう。価格については公式情報が明示されていないため、クラウドGPUのコストは別途計算が必要です。

また、生成には必ず「開始画像」と「6-DoFのカメラ軌道データ」の両方が必要です。カメラ軌道の指定方法に慣れるまでは、ある程度の学習コストがかかるかもしれません。日本語対応や利用可能地域についても現時点では情報がないため、実際に触れる環境を整えてから試すのが安全です。

フリーランスへの影響

映像制作やVFXを仕事にしているフリーランスにとって、このモデルが実用的に使えるようになれば、試作や提案フェーズの作業量をある程度削減できる可能性があります。特に「カメラワークを含めた動画のプロトタイプ」を短時間で作れる点は、クライアントとのコミュニケーションを効率化する手段になりえます。

ただし、現段階では「RTX 5090クラスのGPUがあれば実用速度で動く」という条件がついています。ハイエンドGPUを持っていない場合は、RunPodやVast.aiといったGPUクラウドサービスを使う形になりますが、そのコストと生産性向上の効果がつり合うかは、使い方次第です。研究者やAI開発者向けのモデルという印象が強い段階ではあるものの、映像系ツールの発展スピードを考えると、今後のWebUIや統合ツールの登場で一般利用の敷居が下がることも十分考えられます。

まとめ

SANA-WMは、長尺動画生成の世界をオープンソースで切り開く可能性を持つモデルです。映像・VFX系の仕事をしているフリーランスであれば、GitHubのリポジトリを眺めるだけでも雰囲気はつかめます。すぐ業務に組み込むよりも、まずは動作環境を確認しながら「どう使えそうか」を探る段階で触れてみるのが現実的な第一歩だと思います。

参考リンク：SANA-WM GitHub リポジトリ（NVlabs）