Microsoft Phi-4 Vision公開、数学・科学推論に強いコンパクトAI

なぜ今、コンパクトな推論モデルなのか
画像と推論を組み合わせる仕組み
1. 具体的にどんなことができるのか
従来のモデルとの違い
実際に使うにはどうすればいいか
フリーランスにとっての意味
まとめ

なぜ今、コンパクトな推論モデルなのか

AI業界では、より大きく強力なモデルを作る競争が続いていますが、Microsoftは逆のアプローチを取りました。Phi-4-Reasoning-Vision-15Bは、15億パラメータという比較的小さなサイズで、大型モデルに匹敵する性能を目指したモデルです。

背景には、すべてのユーザーが高性能なサーバーや高額なAPI利用料を負担できるわけではないという現実があります。フリーランスや小規模チームが自分のパソコンやクラウドの小さなインスタンスでAIを動かしたい場合、従来の大型モデルでは現実的ではありませんでした。Phi-4は、そうした制約のある環境でも動作する「実用的な賢さ」を追求しています。

画像と推論を組み合わせる仕組み

このモデルの特徴は、画像を理解する部分（SigLIP-2ビジョンエンコーダ）と、論理的に考える部分（Phi-4-Reasoning言語モデル）を組み合わせた「マルチモーダル」設計にあります。高解像度の画像を最大3,600個の視覚トークンに変換し、それを元に推論を行います。

さらに興味深いのは、推論の方法を使い分けられる点です。数学や科学の問題を解くときは、<think>ブロックという機能を使って、ステップバイステップで考えるプロセスを実行します。一方、画像のキャプションを作るような単純なタスクでは、<nothink>で直接答えを出し、処理を高速化します。この使い分けが、コンパクトさと性能の両立を可能にしています。

具体的にどんなことができるのか

Phi-4-Reasoning-Vision-15Bが得意とするのは、以下のような作業です。

たとえば、教育コンテンツを作っているフリーランスなら、数式や図表が含まれた教科書の画像をアップロードして、それに関する解説や問題の解答を生成させることができます。従来のモデルでは画像内の数式を正確に理解するのが難しかったのですが、Phi-4はこの部分が強化されています。

また、アプリやウェブサイトのUIデザイナーやテスターにとっても有用です。画面のスクリーンショットをモデルに見せて、「このボタンをクリックしたらどうなるか」「このフォームの入力方法は何か」といった質問に答えさせることができます。GUI理解能力が高いため、操作マニュアルの自動生成や、UIテストの自動化にも応用できる可能性があります。

さらに、OCR（文字認識）やオブジェクト検出、画像内の特定の要素を指し示す「グラウンディング」といった機能も備えています。ドキュメント分析や、画像内の情報を構造化したいときに役立ちます。

従来のモデルとの違い

従来の大型マルチモーダルモデルは、画像全体とテキスト全体に対して双方向の注意機構を使うため、計算コストが高くなりがちでした。Phi-4は、画像内部だけに双方向注意を使い、空間的な推論を強化しながら、全体のコストを抑えています。

Microsoftの発表によれば、Phi-4は同じ速度で動く他のモデルよりも数学や科学のタスクで高い精度を示し、さらに10倍以上の計算資源が必要な大型モデルとも競合できる性能を持っているとのことです。つまり、コストパフォーマンスが非常に高いということです。

実際に使うにはどうすればいいか

Phi-4-Reasoning-Vision-15Bは、Hugging FaceとMicrosoft Foundryで公開されています。Hugging Faceでは、オープンウェイトとして提供されているため、ダウンロードして自分の環境で動かすことも可能です。ただし、15億パラメータのモデルを動かすには、それなりのメモリとGPUが必要になります。

APIとして利用したい場合は、Microsoft Foundry経由でアクセスできます。価格については明示されていませんが、Microsoftの他のAzure AIサービスと同様の課金体系になると予想されます。

注意点として、このモデルは推論タスクと知覚タスクを混合して訓練されています。そのため、どのタスクでどちらのモードを使うべきかを理解しておくことが、効率的な利用につながります。知覚タスクで冗長な推論をさせると、無駄に処理時間が長くなってしまいます。

フリーランスにとっての意味

このモデルがフリーランスに与える影響は、主に2つの側面があります。

ひとつは、コスト面です。大型モデルのAPIを使うと、画像と推論を組み合わせたタスクではすぐに費用がかさんでしまいます。Phi-4のようなコンパクトなモデルを自分の環境で動かせれば、長期的にはコストを大幅に削減できます。特に、教育コンテンツ制作やドキュメント分析など、大量の画像を処理する仕事をしている方には、経済的なメリットが大きいでしょう。

もうひとつは、新しいサービスの可能性です。GUI理解や画像推論の能力を活かして、アプリのテスト自動化ツールや、視覚的な学習支援ツールを開発することができます。これまで大型モデルでしかできなかったことが、より小さなモデルでできるようになったことで、サービス提供のハードルが下がりました。

ただし、現時点ではまだ公開されたばかりのモデルです。日本語対応や、実際のパフォーマンスについては、コミュニティからのフィードバックを待つ必要があります。また、15億パラメータのモデルを動かすには、それなりのスペックのマシンが必要になるため、すべてのフリーランスがすぐに恩恵を受けられるわけではありません。