Mistral Small 4登場、推論と速度を1モデルで両立

これまでのMistralモデルとの違い
推論の深さを調整できる柔軟性
性能とベンチマーク結果
技術仕様とデプロイ環境
Apache 2.0ライセンスの意味
フリーランスへの影響
まとめ

これまでのMistralモデルとの違い

Mistral AIはこれまで、用途に応じて複数のモデルを提供してきました。高速な応答が必要ならMistral Small、複雑な推論が必要ならMagistral、画像を扱うならPixtral、コーディング支援ならDevstralといった具合です。

今回のMistral Small 4は、これらの機能を1つのモデルに統合しました。たとえば、クライアントからの問い合わせに素早く返信したいときは高速モード、データ分析や複雑な提案書を作成するときは推論モードといった使い分けが、モデルを切り替えることなく可能になります。

技術的には、128個の専門家（エキスパート）を持つMixture-of-Expertsという仕組みを採用していて、1回の処理ごとに4つのエキスパートが動作します。総パラメータ数は119B（1,190億）ですが、実際に動くのは6B〜8B程度なので、大規模モデルの性能を保ちながら処理速度も確保しています。

推論の深さを調整できる柔軟性

Mistral Small 4の大きな特徴は、「reasoning_effort」というパラメータで推論の深さを調整できる点です。この設定を「none」にすれば、前モデルのMistral Small 3.2と同等の高速応答が得られます。一方、「high」にすると、Magistralと同じレベルの詳細な推論を実行してくれます。

具体的な使い分けとしては、こんなイメージです。フリーランスのライターがブログ記事の見出し案を10個ほしいときは高速モード、企業向けのホワイトペーパーを作成して論理構成をチェックしてほしいときは推論モード、といった感じです。

従来は高速モデルと推論モデルを別々に契約したり、切り替えたりする必要がありましたが、Mistral Small 4ならパラメータ1つで済みます。これにより、API呼び出しのコードもシンプルになり、管理の手間が減ります。

性能とベンチマーク結果

Mistral AIが公表したベンチマークによると、Mistral Small 4は前モデルのMistral Small 3と比べて、レイテンシ最適化設定で処理時間が40%短縮、スループット最適化設定では毎秒リクエスト数が3倍になったとされています。

また、AA LCRという評価指標では、競合のQwenモデルと同等の性能を出すのに、Mistral Small 4は平均1,600文字の出力で済むのに対し、Qwenは5,800〜6,100文字必要だったとのこと。つまり、より少ない出力で同じ品質を達成しているため、API料金の節約にもつながります。

コーディング分野のベンチマーク「LiveCodeBench」では、GPT-OSS 120Bを上回る性能を示しつつ、出力量は20%少なかったとMistral社は発表しています。数学的推論を測る「AIME 2025」でも、GPT-OSS 120Bと同等以上のスコアを記録しました。

ただし、これらはMistral社が公表した数値なので、実際の業務で使う際は自分のタスクで試してみるのが確実です。

技術仕様とデプロイ環境

Mistral Small 4は256,000トークンのコンテキストウィンドウに対応しており、長文の契約書や複数ファイルにまたがるコードベースの分析にも使えます。テキストだけでなく画像の入力もサポートしているため、デザインのフィードバックや図表の解析といった用途にも応用できます。

デプロイには最低でもNVIDIA HGX H100が4台、またはHGX H200が2台、もしくはDGX B200が1台必要です。クラウドサービスを使う場合は、これらのGPUを提供しているプロバイダーを選ぶことになります。個人で環境を構築するのは現実的ではないので、Mistral社が提供するAPIサービスや、対応しているクラウドプラットフォーム経由で利用するのが一般的です。

対応しているサービングフレームワークは、vLLM、llama.cpp、SGLang、Transformersなどです。vLLMが推奨されていますが、一部の機能（ツールコーリングや推論のパース）については、オープンソースのサービングスタックへの統合が進行中とのことです。

Apache 2.0ライセンスの意味

Mistral Small 4はApache 2.0ライセンスで公開されています。これは、商用利用、改変、再配布が自由にできるライセンスです。フリーランスが自分のサービスに組み込んだり、クライアント向けのツールを開発したりする際に、ライセンス料を気にする必要がありません。

ただし、Apache 2.0はソースコードやモデルの利用に関するライセンスなので、実際にAPIとして利用する場合は、Mistral社や各クラウドプロバイダーの料金体系に従う必要があります。現時点で具体的な料金は公表されていないため、利用前に確認が必要です。

フリーランスへの影響

Mistral Small 4は、複数のモデルを使い分けていたフリーランスにとって、管理の手間を減らせる可能性があります。たとえば、ライティング業務でリサーチ、要約、執筆、校正といった工程ごとに異なるモデルを使っていた場合、Mistral Small 4なら1つのモデルで完結できるかもしれません。

コーディング業務でも、簡単なコード生成から複雑なデバッグまで対応できるため、API契約を一本化できるメリットがあります。特に、推論の深さを調整できる機能は、急ぎの案件と時間をかけて精度を高めたい案件を、同じツールで処理できる点が便利です。

一方で、現時点ではAPI料金が公表されていないため、コスト面での判断はまだできません。また、実際の業務で使う際には、自分のタスクに合っているかを試す期間が必要です。Mistral社が公表しているベンチマークは参考にはなりますが、実務での使い勝手は業種や作業内容によって変わります。

画像入力に対応している点は、デザイン系のフリーランスやマーケティング担当者にとって魅力的です。たとえば、クライアントから送られてきたデザイン案を読み込んで、改善提案を自動生成するといった使い方が考えられます。ただし、画像理解の精度については、実際に試してみないと分からない部分も多いです。

まとめ

Mistral Small 4は、速度と推論を1つのモデルで切り替えられる点が新しく、フリーランスにとってはツールの管理がシンプルになる可能性があります。Apache 2.0ライセンスで公開されているため、商用利用の制約もありません。

ただし、API料金がまだ公表されていないこと、実務での使い勝手は試してみないと分からないことから、今すぐ飛びつくよりも、まずは公式ドキュメントやベンチマーク結果を確認し、無料トライアルや少額プランがあれば試してみるのが現実的です。

モデルの詳細はMistral AIの公式サイト（https://mistral.ai/news/mistral-small-4）や、HuggingFaceのチェックポイントページ（https://huggingface.co/collections/mistralai/mistral-small-4）で確認できます。自分の業務に合いそうなら、少しずつ導入を検討してみてください。