「Step 3.7 Flash」とはどんなモデルか
StepFunは中国発のAIスタートアップで、これまでもテキスト特化の高速モデルをリリースしてきました。今回公開された「Step 3.7 Flash」は、その最新版にあたります。前モデルの「Step 3.5 Flash」はテキストだけを扱うモデルでしたが、今回はここに画像入力の機能が加わり、マルチモーダル対応になりました。
モデルの構造としては、198Bという大規模なパラメータ数を持つMixture-of-Experts(MoE)方式を採用しています。MoEとは、すべてのパラメータを常に使うのではなく、タスクに応じて必要な部分だけを動かす仕組みです。実際に推論時に使われるアクティブパラメータは約11Bにとどまるため、大きなモデルでありながらスピードを出しやすい構造になっています。スループットは400トークン毎秒と公表されており、高速な応答が期待できます。
画像を「理解して調べる」仕組みが特徴的
Step 3.7 Flashが単なる「画像も読めるモデル」にとどまらない点は、画像認識と検索推論を組み合わせた独自の設計にあります。
まず画像処理については、1.8Bパラメータ規模のVision Transformer(ViT)エンコーダが独立して画像を解析し、その情報をテキスト推論の流れに注入する仕組みになっています。これにより、画像の内容を踏まえた上で言語的な推論を行えます。
さらに注目したいのが「Visual Search Tool」と「Advisor Mode」という2つの機能です。Visual Search Toolは、モデルが自分の知識だけでは判断できないとき、検索を推論プロセスの一部として実行する機能です。たとえば、あまり知られていないブランドのロゴや最近登場した人物の顔写真など、学習データに含まれていない可能性が高い情報を、検索によって補完しながら回答します。Advisor Modeはコーディング支援に特化したモードで、ソフトウェアエンジニアリングのベンチマーク「SWE-Bench Verified」でAdvisor Modeが76.3%を記録しています。
コンテキスト長は256,000トークンと長く、大量の文書や長いコードを丸ごと渡して処理させるような用途にも対応できます。ライセンスはApache 2.0で、商用利用を含む幅広い活用が認められています。
他のモデルと比べてどうか
ベンチマーク上の比較として、画像と検索を組み合わせた視覚QAの評価指標「SimpleVQA(Search あり)」でStep 3.7 Flashは79.16%を記録しています。これはGPT-4.5の79.11%とほぼ同等で、Kimi K2.6の78.24%やGLM 5V Turboの78.20%を上回る数値です。
コスト面では、OpenRouter経由で利用した場合、入力100万トークンあたり0.20ドル、出力100万トークンあたり1.15ドルという料金設定になっています。開発元のStepFun自身は、Advisor ModeのコストがClaude Opus 4.6より低いと説明しており、処理能力とコストのバランスを押し出した位置づけになっています。
ただし、ベンチマークの数値はあくまで特定の条件下での測定結果です。実際の業務で使ったときのパフォーマンスは用途や設定によって変わるため、公表数値をそのまま実力の保証と受け取るのは注意が必要です。
利用にあたっての注意点
Step 3.7 FlashはOpenRouter経由であればグローバルから利用可能です。一方、StepFun公式プラットフォームの中国リージョンAPIは、+86(中国の国番号)の電話番号による認証が必要とされており、日本からの直接利用はやや複雑になる可能性があります。現時点では日本語対応の状況も明確ではないため、実際に試してみるまでは日本語処理の品質は未知数です。
フリーランスへの影響
Step 3.7 Flashが最も力を発揮するのは、コードを書いたり、複数の情報源を調べながら作業するような場面です。たとえばWebサービスのノーコードツールと組み合わせたエージェント開発や、スクリーンショットや画面操作ログを渡してUIのフィードバックを得るような使い方が考えられます。
ライターやマーケターなど、コーディングを日常的に行わないフリーランスにとっては、現時点では直接的な恩恵を感じにくいかもしれません。ただ、文書の読み取りや画像を含む資料の分析といった用途では試す価値があります。OpenRouter経由であれば既存のAPIワークフローに組み込みやすく、料金も比較的抑えられているため、技術的なハードルが低い点は評価できます。
Apache 2.0ライセンスで公開されているため、ツールやサービスを自作したいフリーランスエンジニアにとっては、商用プロダクトへの組み込みも視野に入れやすい選択肢です。

コメント