画像生成AIが視覚理解も可能に、Google DeepMindが統合モデル発表

画像生成AIに視覚理解機能を統合
1. プロンプトを変えるだけで複数タスクに対応
競合モデルを上回る性能を実証
1. 実世界データなしで深度推定を実現
フリーランスへの影響
まとめ

画像生成AIに視覚理解機能を統合

Google DeepMindが発表したVision Bananaは、画像生成モデルに視覚理解機能を組み込んだ統合型のAIです。従来、画像を作るツールと画像を解析するツールは別々でした。たとえば、Midjourneyで画像を生成してから、別のAIで物体認識をするといった流れです。Vision Bananaはこれを一つのモデルで実行できるようにしました。

ベースになっているのは、Googleの最先端画像生成モデル「Nano Banana Pro」です。これに軽量な指示チューニングという技術を加えることで、画像生成能力を保ったまま、セマンティックセグメンテーション、インスタンスセグメンテーション、深度推定、表面法線推定といった視覚理解タスクを実行できるようになりました。

特徴的なのは、すべての視覚タスクの出力をRGB画像として扱う点です。たとえば深度推定では、距離情報を色の違いで表現します。この仕組みにより、画像生成モデルの強みをそのまま活かしながら、視覚理解タスクをこなせるようになっています。

プロンプトを変えるだけで複数タスクに対応

Vision Bananaの便利な点は、プロンプト（指示文）を変えるだけで、さまざまなタスクに対応できることです。モデルの重み（パラメータ）を変更する必要がないため、ユーザーは指示を出すだけで、物体の識別、距離の測定、表面の向きの推定などを実行できます。

たとえば、商品写真を撮影した後、その写真内の商品と背景を自動で分離したい場合、従来なら専用のセグメンテーションツールを使う必要がありました。Vision Bananaなら、同じモデルで画像生成から物体の分離まで一貫して処理できます。

競合モデルを上回る性能を実証

Google DeepMindは、Vision Bananaを複数のベンチマークで評価しました。結果として、既存の専用モデルと比較しても優れた性能を示しています。

セマンティックセグメンテーション（画像内の物体をピクセル単位で分類するタスク）では、Cityscapesというデータセットで平均IoU（Intersection over Union、精度指標の一つ）0.699を記録しました。これは、Meta社のSAM 3の0.652を4.7ポイント上回る結果です。

深度推定（画像内の物体までの距離を測定するタスク）では、6つの主要ベンチマークで平均δ1（正確に距離を推定できた割合）0.882を達成しました。特にNYU、ETH3D、DIODE-Indoor、KITTIという4つのデータセットでは、Depth Anything V3の0.918を上回る0.929を記録しています。

表面法線推定（物体の表面がどの方向を向いているかを推定するタスク）では、平均絶対角度誤差18.928°という結果で、Lotus-2の19.642°よりも低い誤差を実現しました。

インスタンスセグメンテーション（同じ種類の物体でも個別に識別するタスク）では、DINO-X、Gemini 2.5、APE-D、OWLv2といった競合モデルよりも高い精度を示しました。ただし、DINO-Xには若干及ばない結果となっています。

実世界データなしで深度推定を実現

Vision Bananaの深度推定機能には、もう一つ注目すべき点があります。それは、訓練データに実世界の深度データを一切使っていないことです。すべてシミュレーションエンジンで生成された合成データのみで学習しています。

通常、深度推定モデルは、実際のカメラで撮影した画像と深度センサーで測定した距離データをセットにして学習します。しかしVision Bananaは、画像生成モデルが事前学習で獲得した世界の知識を活用することで、合成データだけで絶対的な距離を推定できるようになっています。カメラの内部パラメータや外部パラメータも不要です。

フリーランスへの影響

Vision Bananaのような統合型モデルが普及すると、フリーランスのワークフローに変化が起きる可能性があります。特にデザイナーやマーケター、コンテンツ制作者にとって、複数のツールを使い分ける手間が減るかもしれません。

たとえば、ECサイトの商品画像を作成する場合、これまでは画像生成ツールで素材を作り、別のツールで背景を除去し、さらに別のツールで奥行き感を調整するといった作業が必要でした。Vision Bananaのような統合モデルなら、一つのツール内で画像生成から物体の分離、深度情報の取得まで完結できます。

また、建築やインテリアデザインの分野では、深度推定や表面法線推定が役立つ場面があります。たとえば、3Dモデルを作成する際の参考資料として、写真から物体の形状や向きを自動で抽出できれば、作業時間を短縮できます。

ただし、現時点ではVision BananaはGoogle DeepMindが論文として発表した段階で、一般ユーザーが使えるサービスやAPIとして公開されているわけではありません。プロジェクトページや論文は公開されていますが、実際に試せる環境が整うまでには時間がかかる可能性があります。

また、生成ベンチマークではGenAI-Benchで53.5%、ImgEditで47.8%の勝率という結果でした。これは、画像生成の品質に関しては、既存の専用生成モデルと比べてまだ改善の余地があることを示しています。視覚理解タスクでは高い性能を示していますが、画像生成の品質を重視するなら、当面は従来の専用ツールを併用する形になるかもしれません。

まとめ

Vision Bananaは、画像生成と視覚理解を一つのモデルで実現する興味深い技術です。複数のタスクをプロンプトだけで切り替えられる柔軟性や、専用モデルに匹敵する精度は魅力的です。ただし、一般ユーザーが使えるサービスとして提供されるかどうかは未定です。論文とプロジェクトページは公開されているので、技術的な詳細に興味がある方は確認してみるとよいでしょう。実務で使えるツールとして登場するまでは、既存の画像生成AIと視覚理解AIを併用する形が現実的です。

参考リンク：
論文PDF: https://arxiv.org/pdf/2604.20329
プロジェクトページ: https://vision-banana.github.io/