スマホで動くAI画像認識モデル、LFM2.5-VL登場

クラウド不要の画像認識AIが現実に
日本語を含む8言語に対応
エッジデバイスでの実行速度
外部ツールとの連携も可能
得意なタスク、不得意なタスク
プライバシーとコストの両立
オープンソースで公開、カスタマイズも可能
フリーランスへの影響
まとめ

クラウド不要の画像認識AIが現実に

AIモデルといえば、これまでサーバー上で動く大規模なものが主流でした。ChatGPTやClaudeのように、インターネット経由でリクエストを送り、結果を受け取る形です。しかしLiquid AIが今回発表したLFM2.5-VL-450Mは、スマートフォンやタブレット、小型PCの中だけで完結します。

このモデルは画像とテキストの両方を理解できるVision-Language Modelと呼ばれるタイプです。写真を見せて「この画像に何が写っているか」と質問すれば、オフラインでも答えてくれます。パラメータ数は450Mと、最近の大型AIモデルと比べると10分の1以下の規模ですが、実用的なタスクには十分な性能を持っています。

特筆すべきは、画像内のオブジェクトがどこにあるかを座標で返してくれる「バウンディングボックス予測」機能です。たとえば商品写真を撮影したとき、「テーブルの上のマグカップ」の位置を自動検出し、JSON形式で座標を出力できます。これは前バージョンでは0点だった機能で、今回のアップデートで大幅に強化されました。

日本語を含む8言語に対応

多言語サポートも改善されています。日本語、中国語、韓国語、アラビア語、フランス語、ドイツ語、ポルトガル語、スペイン語の8言語で動作し、マルチリンガルベンチマークのスコアは前モデルの54.29から68.09へと約25%向上しました。

これはフリーランスの翻訳者やグローバル対応のECサイト運営者にとって、実用的な意味を持ちます。たとえば海外から届いた商品パッケージを撮影し、日本語で「この成分表を読み取って」と指示すれば、オフラインでテキスト化できるわけです。OCR機能のベンチマークスコアは684と、小型モデルとしては優秀な部類に入ります。

エッジデバイスでの実行速度

このモデルの最大の特徴は、エッジデバイス(手元のハードウェア)での動作を前提に設計されている点です。NVIDIA Jetson Orinという組み込みAI用のチップでは、512×512ピクセルの画像を242ミリ秒で処理できます。これは1秒間に4フレーム、つまりリアルタイム動画の全フレームを解析できる速度です。

Samsung S25 Ultraのようなハイエンドスマートフォンでも動作します。ただし同じ512×512画像の処理に2.4秒かかるため、連続撮影には向きません。一方、静止画1枚ずつの分析なら実用範囲です。AMD Ryzen AI Max+ 395を搭載したミニPCでは944ミリ秒と、スマホより高速に動きます。

これらの速度は「Q4_0」という量子化(モデルサイズを圧縮する技術)を適用した状態での数値です。精度を若干犠牲にする代わりに、メモリ使用量と処理時間を大幅に削減しています。

外部ツールとの連携も可能

LFM2.5-VLは「関数呼び出し」にも対応しています。これは画像認識の結果をもとに、外部のプログラムやAPIを自動実行できる機能です。たとえば商品画像を解析したあと、在庫管理システムに自動でデータを送る、といった使い方ができます。

ただしベンチマークスコアは21.08と、まだ発展途上の段階です。複雑な業務フローに組み込むには、エラー処理などの工夫が必要でしょう。それでも、ノーコードツールのMakeやZapierと組み合わせれば、フリーランスでも自動化の幅を広げられる可能性があります。

得意なタスク、不得意なタスク

公式ブログでは、このモデルが得意とする用途がいくつか紹介されています。倉庫での在庫管理、農業機械の自動運転支援、ドライブレコーダーの映像解析、小売店の棚チェック、商品カタログの自動取り込みなどです。いずれも「リアルタイム性」と「オフライン動作」が求められる場面です。

一方で不得意なタスクも明示されています。知識集約的な質問(例:「この絵画の作者は誰か」)や、細かいOCR(例:契約書の小さな文字を正確に読み取る)には向きません。専門知識はクラウド型の大規模モデルに劣るため、用途を見極める必要があります。

たとえばフリーランスのカメラマンが、撮影現場で「この写真に写っている被写体の数」をカウントしたい場合、このモデルは有効です。実際、CountBenchというベンチマークでは47.64から73.31へとスコアが大幅に向上しており、物体の数を数える精度が改善されています。

プライバシーとコストの両立

クラウドAIの課題のひとつは、データを外部サーバーに送信する必要がある点です。顧客情報や未公開の商品画像など、機密性の高いデータを扱うフリーランスにとって、これは無視できないリスクです。

LFM2.5-VLはデバイス内で完結するため、画像データが外部に送信されません。セキュリティカメラの映像解析や、医療関連の画像チェックなど、プライバシーが重要な場面で活用できます。また、クラウドAPIの従量課金も発生しないため、大量の画像を処理する場合はコスト削減にもつながります。

オープンソースで公開、カスタマイズも可能

このモデルはHugging Faceで無料公開されており、誰でもダウンロードして利用できます。ライセンス条件の詳細は公式ページで確認する必要がありますが、オープンソースである点は大きなメリットです。

技術に詳しいフリーランスなら、自分のアプリやサービスに組み込むことも可能です。たとえばWordPressのプラグインとして商品画像の自動タグ付け機能を開発する、スマホアプリで名刺のOCR機能を実装する、といった使い方が考えられます。

ただし、モデルの実装にはPythonやディープラーニングフレームワークの知識が必要です。プログラミング経験がない方にとっては、すぐに使えるツールではありません。今後、このモデルをベースにした使いやすいアプリが登場するかどうかが、普及の鍵になるでしょう。

フリーランスへの影響

このモデルが実務に与える影響は、業種によって大きく異なります。物販やECサイト運営をしているフリーランスにとっては、商品画像の自動分類や在庫チェックの効率化につながる可能性があります。たとえば仕入れた商品を撮影するだけで、カテゴリやタグを自動提案してくれるツールが作れるかもしれません。

一方、ライターやデザイナーにとっては、直接的な恩恵は少ないでしょう。画像認識が得意なモデルであり、文章生成やデザイン制作には特化していないためです。ただし、クライアントから受け取った大量の写真を整理する、といった補助的な作業では役立つかもしれません。

作業時間への影響は、自動化できるタスクの範囲次第です。すでにクラウドのAIサービスを使っている方にとっては、オフライン化とコスト削減がメリットになります。逆に、これまでAIを使っていなかった方がいきなりこのモデルを導入するのは、技術的ハードルが高いでしょう。

収益への直接的な影響は限定的です。このモデル自体は無料ですが、実装や運用には技術的なコストがかかります。外注で開発を依頼すれば費用が発生しますし、自分で実装するなら学習時間が必要です。すぐに売上が伸びるツールではなく、長期的な業務効率化の一環として考えるべきでしょう。

まとめ

LFM2.5-VL-450Mは、エッジデバイスで動く実用的な画像認識AIとして、技術的には大きな進歩です。ただしフリーランスが今すぐ使えるかというと、現時点では技術者向けのツールという位置づけです。

もしあなたが物販やEC運営をしていて、大量の商品画像を扱う業務があるなら、将来的に役立つ可能性があります。一方、文章作成やデザイン制作が中心の方は、様子見で問題ありません。今後このモデルをベースにした使いやすいアプリが登場するかどうかを、定期的にチェックしておくとよいでしょう。

詳細はLiquid AIの公式ブログ(https://www.liquid.ai/blog/lfm2-5-vl-450m)で確認できます。