Meta、スマホで動く万能AIビジョン「EUPE」公開

なぜMetaがスマホ用AIを作ったのか
3つのサイズから選べる柔軟な設計
従来AIの弱点を克服した訓練方法
既存ツールとの明確な違い
実際のベンチマーク結果
フリーランスにとっての実用性
導入する前に知っておくべきこと
まとめ：今すぐ試すべきか、様子見か

なぜMetaがスマホ用AIを作ったのか

これまでの画像認識AIには大きな問題がありました。高性能なモデルはサーバー上でしか動かず、スマホで使うには画像をクラウドに送信する必要があったのです。通信料がかさむだけでなく、オフライン環境では使えません。

Metaはこの課題を解決するため、100M（1億）パラメータ未満という小型サイズでありながら、複数の視覚タスクをこなせるEUPEを開発しました。背景にあるのは、同社が注力するARグラスやスマートデバイスの普及です。これらの機器では、リアルタイムで周囲の環境を認識し、ユーザーに情報を提供する必要があります。そのためには、端末内で高速に動作する汎用ビジョンAIが不可欠でした。

3つのサイズから選べる柔軟な設計

EUPEは用途に応じて選べる6種類のモデルを提供しています。ViTアーキテクチャではViT-T（6M）、ViT-S（21M）、ViT-B（86M）の3種類、ConvNeXtアーキテクチャではTiny（29M）、Small（50M）、Base（89M）の3種類です。

例えば、リアルタイム処理が最優先ならViT-Tを選びます。iPhone 15 ProのCPUで256×256の画像を6.8ミリ秒で処理できるため、動画からのリアルタイム物体認識に向いています。一方、精度重視ならViT-Bを選択。処理時間は55.2ミリ秒かかりますが、画像理解の精度はImageNet-1kで84.1%という高スコアを記録しています。

フリーランスのアプリ開発者なら、顧客の要望に応じてモデルを使い分けられます。例えば在庫管理アプリなら速度重視のViT-T、医療画像解析アプリなら精度重視のViT-Bといった具合です。

従来AIの弱点を克服した訓練方法

EUPEが優れている理由は、独自の3段階訓練パイプラインにあります。まず、19億パラメータの大規模モデル3つ（PEcore-G、PElang-G、DINOv3-H+）から知識を吸収します。これらはそれぞれ画像理解、言語理解、幾何認識に特化しており、EUPEはこの3つの強みを同時に学習するのです。

次に256×256の固定解像度で約39万回の反復訓練を実施。最後に256、384、512の3つの解像度で追加訓練を行い、様々なサイズの画像に対応できるようにします。この「先にスケールアップしてからスケールダウン」というアプローチが、小型モデルでも高性能を実現する鍵になりました。

訓練データにはLVD-1689Mという16.89億枚の画像データセットを使用。興味深いのは、より大規模なMetaCLIP（25億画像）よりも少ないデータ量で優れた性能を達成した点です。これは「データの質が量を上回る」という重要な示唆を与えています。

既存ツールとの明確な違い

画像認識AIの世界には、すでにCLIP、DINOv2、SAMといった有名なモデルが存在します。しかしそれぞれに弱点がありました。

CLIPやSigLIP2はテキストと画像のペアで訓練されているため、画像分類には強いのですが、ピクセル単位の詳細な認識（セグメンテーションなど）は苦手です。逆にDINOv2やDINOv3は物体の輪郭検出には優れていますが、画像の内容を言葉で説明するような言語理解能力に欠けています。SAMはゼロショット分割に特化しており、汎用性に限界があります。

EUPEはこれらすべてのタスクを1つのモデルでこなせます。例えばフリーランスのデザイナーが商品画像の背景除去と商品説明文の自動生成を同時に行いたい場合、従来なら2つの異なるAIを使う必要がありました。EUPEなら1つで済むため、開発コストも実行コストも削減できます。

実際のベンチマーク結果

ViT-Bモデルの性能を具体的な数値で見てみましょう。画像分類タスク（ImageNet-1k）では、最近傍法で84.1%、ゼロショット分類で79.7%を達成。セマンティックセグメンテーション（ADE20k）では52.4 mIoUを記録し、競合のPEcore-B、SigLIP2-B、DINOv3-ViT-Bを上回りました。

視覚言語タスクでも優秀で、RealworldQAで55.5%、GQAで67.3%のスコアを獲得。これはRADIOv2.5-BやDUNE-Bといった最新モデルを超える結果です。

ただし完璧ではありません。開発チームは興味深い失敗例も報告しています。教師モデルにSigLIP2-Gを追加したところ、OCR性能が著しく低下したのです。TextVQAスコアが56.2から53.2に下がり、最終的な学生モデルでは48.6から44.8まで落ち込みました。原因は2つのCLIPスタイルモデルが機能的に競合したためで、この教訓から言語理解に特化したPElang-Gを選ぶ方針に変更されました。

フリーランスにとっての実用性

このツールが最も役立つのは、モバイルアプリやWebアプリを開発するフリーランスエンジニアです。例えばレシート読み取りアプリを作る場合、従来ならGoogle Cloud VisionやAWS Rekognitionといった有料APIを使う必要がありました。月間1万リクエストで数十ドルのコストがかかります。

EUPEならユーザーのスマホ上で処理できるため、API費用はゼロ。しかもオフラインで動作するため、通信環境が悪い場所でも使えます。クライアントに「通信費不要、プライバシー保護、高速処理」という3つのメリットを提案できるのは大きな武器です。

ノーコード開発者にとっては、直接的な恩恵は今のところ限定的かもしれません。EUPEを使うには多少のプログラミング知識が必要です。ただしHugging Faceでモデルが公開されており、ExecuTorchというツールでモバイルアプリに組み込めるため、外部の開発者に依頼するハードルは低いでしょう。

デザイナーやライターにとっては、このツールを使ったサービスが今後登場することに期待できます。例えば「スマホで撮影するだけで商品説明文を自動生成するアプリ」や「写真から自動でデザイン素材を抽出するツール」などが考えられます。

導入する前に知っておくべきこと

EUPEは研究段階のプロジェクトであり、商用サービスではありません。モデルはオープンソースで公開されていますが、実際にアプリに組み込むには技術的な知識が必要です。GitHubリポジトリには実装例がありますが、英語のドキュメントを読み解く必要があります。

また、iPhoneでの動作速度は示されていますが、Androidデバイスでの性能は環境によって変わります。特に低価格帯のスマートフォンでは処理速度が遅くなる可能性があるため、ターゲットユーザーのデバイス環境を考慮する必要があります。

さらに、訓練データはLVD-1689Mという一般的な画像データセットを使っているため、特定分野（医療画像、衛星画像など）では精度が落ちる可能性があります。専門分野で使う場合は、追加の訓練（ファインチューニング）が必要になるかもしれません。

まとめ：今すぐ試すべきか、様子見か

モバイルアプリ開発やエッジAIに関わるフリーランスエンジニアなら、試す価値は十分にあります。無料で公開されており、APIコスト削減という明確なメリットがあるためです。特にプライバシーが重視される分野（医療、金融など）では、オンデバイス処理という特性が差別化要因になります。

一方、ノーコード開発者やAIツールのユーザーとして活用したい方は、もう少し様子を見た方が良いでしょう。EUPEを組み込んだ使いやすいサービスが登場するまで待つのが現実的です。今後数か月で、このモデルを活用したアプリやツールが出てくる可能性は高いため、その動向をチェックするのがおすすめです。

詳細な技術情報やモデルのダウンロードは、MetaのGitHubリポジトリおよびHugging Faceで確認できます。