ByteDance「Lance」公開、画像・動画をまとめて1つのAIモデルで扱う

AIニュース・トレンド

ByteDance Researchが2026年5月21日、画像と動画の理解・生成・編集をすべて1つのモデルで処理できる「Lance」をオープンソースで公開しました。これまで複数のツールを組み合わせる必要があった作業を、単一のフレームワークでこなせる点が注目されています。研究プロジェクトとしての公開のため、すぐに業務へ導入できるかは慎重に見極める必要がありますが、生成AIの活用幅を広げる可能性を持つ技術です。

2026.05.21

「Lance」とはどんなモデルか
軽量なのに幅広く動く、その仕組み
フリーランスへの影響
まとめ

「Lance」とはどんなモデルか

ByteDance Researchが公開した「Lance」は、画像と動画に関する6つのタスク——理解・生成・編集——を1つのモデルだけで処理できるマルチモーダルAIです。具体的には、テキストから画像を生成する、テキストから動画を生成する、既存の画像や動画を編集する、画像や動画の内容を説明させる、といった操作をすべて同じモデルに任せられます。

これまでの一般的なアプローチでは、画像生成にはStable DiffusionやMidjourney、動画生成には別のツール、さらに編集には別のソフト……というように、タスクごとに異なるモデルやサービスを使い分ける必要がありました。Lanceはそういった「ツールの縦割り」を解消しようという発想から設計されています。

軽量なのに幅広く動く、その仕組み

Lanceが技術的に興味深いのは、3Bの有効パラメータという比較的小さいサイズで動作する点です。大規模モデルが当たり前になった昨今、これは「少ない計算リソースで多くのことをこなす」という方向性を示しています。

この効率性を支えているのが、デュアルストリームMixture-of-Experts（MoE）と呼ばれるアーキテクチャです。少し難しい言葉ですが、簡単に言うと「理解系の処理」と「生成系の処理」を内部で別々の経路に分けて担当させることで、干渉を防ぎながら同時に学習させる仕組みです。また、MaPEと呼ばれる位置エンコーディング技術を採用し、画像トークンと動画トークンが混在したときの情報の混乱を抑えています。

学習には128基のA100 GPUを使ってスクラッチから行われており、既存モデルの流用ではなくゼロから構築されている点も特徴です。Hugging Face上ではすでにモデルが公開されており、技術的な興味がある方であれば実際に触れることができます。

フリーランスへの影響

この技術が今すぐ業務に直結するかというと、正直なところ「少し先の話」と考えるのが現実的です。Lanceはあくまで研究プロジェクトとして公開されており、商用製品のような使いやすいインターフェースや安定した動作環境が整っているわけではありません。日本語への対応状況も不明で、利用できる地域の制限についても現時点では確認できていません。

ただ、この技術の方向性は注目に値します。たとえば動画クリエイターが「台本から動画を自動生成して、さらに細部を編集する」という一連の作業を1つのモデルで完結させられるようになれば、ツールの切り替えコストが大幅に下がります。画像・動画を扱うデザイナーやマーケター、SNS向けのコンテンツ制作者にとっては、ワークフローが根本から変わる可能性を秘めています。

また、オープンソースという点はフリーランスにとって無視できない要素です。商用サービスと違い、API料金がかからないため、自前の環境で動かせるエンジニアや技術に詳しいフリーランスであれば、コストを抑えながら実験的に使えるケースもあるでしょう。ただし、それには相応の技術力と環境構築が必要になります。

まとめ

LanceはByteDance Researchが公開した、画像・動画の理解・生成・編集を1つにまとめたオープンソースモデルです。今すぐ導入できる実用ツールというよりは「次世代の生成AIがどこへ向かうか」を示す技術的な一歩として見ておくのがよいでしょう。技術的に興味がある方はHugging Faceで確認してみてください。そうでない方はしばらく様子見でも十分です。

参考リンク：Hugging Face – Lance