「Lance」とはどんなモデルか
ByteDance Researchが公開した「Lance」は、画像と動画に関する6つのタスク——理解・生成・編集——を1つのモデルだけで処理できるマルチモーダルAIです。具体的には、テキストから画像を生成する、テキストから動画を生成する、既存の画像や動画を編集する、画像や動画の内容を説明させる、といった操作をすべて同じモデルに任せられます。
これまでの一般的なアプローチでは、画像生成にはStable DiffusionやMidjourney、動画生成には別のツール、さらに編集には別のソフト……というように、タスクごとに異なるモデルやサービスを使い分ける必要がありました。Lanceはそういった「ツールの縦割り」を解消しようという発想から設計されています。
軽量なのに幅広く動く、その仕組み
Lanceが技術的に興味深いのは、3Bの有効パラメータという比較的小さいサイズで動作する点です。大規模モデルが当たり前になった昨今、これは「少ない計算リソースで多くのことをこなす」という方向性を示しています。
この効率性を支えているのが、デュアルストリームMixture-of-Experts(MoE)と呼ばれるアーキテクチャです。少し難しい言葉ですが、簡単に言うと「理解系の処理」と「生成系の処理」を内部で別々の経路に分けて担当させることで、干渉を防ぎながら同時に学習させる仕組みです。また、MaPEと呼ばれる位置エンコーディング技術を採用し、画像トークンと動画トークンが混在したときの情報の混乱を抑えています。
学習には128基のA100 GPUを使ってスクラッチから行われており、既存モデルの流用ではなくゼロから構築されている点も特徴です。Hugging Face上ではすでにモデルが公開されており、技術的な興味がある方であれば実際に触れることができます。
フリーランスへの影響
この技術が今すぐ業務に直結するかというと、正直なところ「少し先の話」と考えるのが現実的です。Lanceはあくまで研究プロジェクトとして公開されており、商用製品のような使いやすいインターフェースや安定した動作環境が整っているわけではありません。日本語への対応状況も不明で、利用できる地域の制限についても現時点では確認できていません。
ただ、この技術の方向性は注目に値します。たとえば動画クリエイターが「台本から動画を自動生成して、さらに細部を編集する」という一連の作業を1つのモデルで完結させられるようになれば、ツールの切り替えコストが大幅に下がります。画像・動画を扱うデザイナーやマーケター、SNS向けのコンテンツ制作者にとっては、ワークフローが根本から変わる可能性を秘めています。
また、オープンソースという点はフリーランスにとって無視できない要素です。商用サービスと違い、API料金がかからないため、自前の環境で動かせるエンジニアや技術に詳しいフリーランスであれば、コストを抑えながら実験的に使えるケースもあるでしょう。ただし、それには相応の技術力と環境構築が必要になります。
まとめ
LanceはByteDance Researchが公開した、画像・動画の理解・生成・編集を1つにまとめたオープンソースモデルです。今すぐ導入できる実用ツールというよりは「次世代の生成AIがどこへ向かうか」を示す技術的な一歩として見ておくのがよいでしょう。技術的に興味がある方はHugging Faceで確認してみてください。そうでない方はしばらく様子見でも十分です。
参考リンク:Hugging Face – Lance

コメント