Netflix製VOID、動画から不要物を自然に消す新技術

Netflixが動画編集の常識を変える技術を公開
VOIDの仕組みと必要な環境
1. 実際の使い方
フリーランスにとっての実用性
1. どんな人に向いているか
まとめ

Netflixが動画編集の常識を変える技術を公開

動画を撮影した後に「あ、余計なものが映り込んでた」と気づいた経験はありませんか。写真なら画像編集ソフトで消せますが、動画となると話は別です。フレームごとに手作業で修正するのは、途方もない時間がかかります。

Netflixが開発したVOID（Video Object Inpainting and Deletion）は、この問題を解決する技術です。動画から指定したオブジェクトを選んで消すと、AIが背景を自然に生成して埋めてくれます。しかもコードが完全に公開されているため、誰でも試せる状態になっています。

この技術は、フリーランスの動画クリエイターやマーケティング担当者にとって、編集作業の時短につながる可能性があります。ただし現時点では、使いこなすにはいくつかハードルがあるのも事実です。

VOIDの仕組みと必要な環境

VOIDは、CogVideoX-Fun-V1.5という動画生成AIモデルをベースに作られています。仕組みとしては、まず動画内の消したい部分をマスクで指定します。するとAIが周囲の映像から文脈を理解して、その部分に何があるべきかを推測し、自然な背景を生成します。

たとえば公園のベンチに座っている人物を消したい場合、人物の部分をマスクすると、AIがベンチの背もたれや後ろの木々を自然に補完してくれるイメージです。最大197フレーム、つまり約16秒の動画まで処理できます。

ただし、このシステムを動かすには相応のハードウェアが必要です。推奨されるのは40GB以上のVRAMを持つGPU、具体的にはNVIDIA A100クラスです。一般的なノートパソコンや、小規模なクラウドインスタンスでは動作が困難でしょう。T4やL4といったGPUでも動く可能性はありますが、処理に非常に時間がかかります。

実際の使い方

技術的な詳細に触れると、GitHubで公開されているコードをダウンロードし、必要なモデルファイルをHugging Faceから取得する流れになります。CogVideoX-Fun-V1.5-5b-InPという基本モデルと、void_pass1.safetensorsというVOID専用のチェックポイントファイルが必要です。

処理パラメータとしては、解像度384×672ピクセル、推論ステップ数50、ガイダンススケール1.0が標準設定です。オプションでOpenAIのGPT-4o-miniを使って、消した部分に何を生成するかの指示文（プロンプト）を自動生成する機能もあります。

出力は12fpsのMP4形式で、元の動画、マスク部分、処理後の動画を並べた比較動画も自動生成されます。これにより、どれだけ自然に消えたかを視覚的に確認できます。

フリーランスにとっての実用性

この技術が実務で使えるかどうかは、正直なところ現時点では「人による」というのが答えです。

すでに高性能なGPU環境を持っている、あるいはクラウドで大規模インスタンスを気軽に借りられる方なら、動画編集の選択肢が一つ増えたことになります。たとえば企業のプロモーション動画で、撮影時に気づかなかった看板や車のナンバープレートを消したい場合、従来なら手作業で数時間かかっていた作業が、AIに任せられる可能性があります。

一方で、個人のパソコンで動画編集をしている方にとっては、まだ敷居が高いでしょう。40GB以上のVRAMを持つGPUは、個人で購入するには数百万円かかりますし、クラウドで借りるにしても1時間あたり数ドルの費用がかかります。短い動画を1本処理するだけで、それなりのコストになってしまいます。

また、これはあくまでプログラミングが前提の技術です。PythonやGitHubの使い方に慣れていない方が、いきなり使いこなすのは難しいかもしれません。Adobe Premiere ProやDaVinci Resolveのように、GUIで直感的に操作できるわけではありません。

どんな人に向いているか

現実的に恩恵を受けられるのは、以下のような方だと考えられます。すでに動画制作の仕事で月に数十万円以上の売上があり、編集作業の時短が直接収益につながる方。あるいは、技術的な実験や学習が好きで、新しいAI技術を試すこと自体に価値を感じる方です。

逆に、これから動画編集を始めようとしている初心者や、たまにしか動画を作らない方には、今すぐ導入する必要はないでしょう。今後、この技術が既存の編集ソフトに組み込まれたり、もっと手軽に使えるサービスとして提供される可能性を待つのが賢明です。

まとめ

Netflixが公開したVOIDは、技術的には非常に興味深い進歩です。動画からオブジェクトを自然に消すという、これまで手間のかかっていた作業を自動化できる可能性を示しています。ただし、実用にはハイエンドなGPU環境とプログラミングスキルが必要で、万人向けとは言えません。

もしあなたが高性能な編集環境を持っていて、技術的な実験に興味があるなら、GitHubからコードをダウンロードして試してみる価値はあります。そうでなければ、この技術が一般的な編集ソフトに組み込まれるのを待つか、より手軽なサービスが登場するまで様子を見るのが現実的でしょう。

参考リンク:
GitHub リポジトリ: https://github.com/Netflix/void-model
完全なコード例: https://github.com/Marktechpost/AI-Tutorial-Codes-Included/blob/main/Computer%20Vision/netflix_void_video_object_removal_inpainting_pipeline_with_cogvideox_and_sample_inference.py