Mercury 2発表、従来AI比5倍速の推論モデル

拡散ベースという新しいアプローチ
実務での具体的な使い方
1. 料金体系と利用開始の方法
従来モデルとの比較
フリーランスへの影響
まとめ

拡散ベースという新しいアプローチ

Inception Labsが発表したMercury 2は、これまでのAI言語モデルとは異なる「拡散ベース」という技術を採用しています。ChatGPTやClaudeなどの既存モデルは「トランスフォーマー」という仕組みで、文章を1トークンずつ順番に生成していきます。一方、Mercury 2はテキストを複数のブロックに分けて同時に精緻化していく方式です。

この違いは、料理で例えるとわかりやすいかもしれません。従来のモデルが「材料を一つずつ順番に切って調理する」やり方だとすれば、Mercury 2は「複数の材料を同時進行で処理する」ような働き方をします。その結果、Nvidia Blackwell GPUを使った環境では1秒間に1,009トークンを生成でき、エンドツーエンドの応答時間はわずか1.7秒です。

比較すると、Gemini 3 Flashが14.4秒、Claude 4.5 Haikuが23.4秒かかるところを、Mercury 2は5倍以上の速さでこなせます。ただし出力品質は同等レベルを維持しており、128,000トークンのコンテキストウィンドウ、ツール使用、JSON形式での出力にも対応しています。

実務での具体的な使い方

Mercury 2はOpenAI互換のAPIで提供されるため、既存のChatGPT連携ツールからの移行がスムーズです。特に効果を発揮するのは、応答速度が重要になる以下のような業務です。

一つ目は、コーディング支援です。プログラムを書きながらリアルタイムでコード補完やエラー修正の提案を受けたい場合、従来モデルでは数秒の待ち時間が作業のリズムを崩していました。Mercury 2なら1秒台で応答が返ってくるため、思考の流れを止めずにコーディングを続けられます。

二つ目は、音声アシスタントです。カスタマーサポートや電話対応の自動化では、会話の自然さが成否を分けます。応答が遅いと顧客は不安を感じますが、Mercury 2の速度なら人間の会話に近いテンポで対応できます。リアルタイム翻訳でも同様の効果が期待できます。

三つ目は、エージェントループです。複数のツールを連携させて自動で作業を進めるIT運用やSecOps業務では、AIが一つ一つの判断に時間がかかると全体の処理時間が膨らみます。Mercury 2の高速応答は、こうした連鎖的な処理の効率を大きく改善します。

料金体系と利用開始の方法

料金は入力が100万トークンあたり0.25ドル、出力が0.75ドルです。Claude 4.5 Haikuと比較すると、速度だけでなくコスト面でも優位性があります。OpenAI互換APIで即座に利用可能で、公式サイトのチャット画面でテストすることもできます。

ただし企業向けの早期アクセスプログラムへの申請が必要とされており、個人フリーランスがすぐに全機能を使えるかは現時点では不明です。また日本語対応の詳細や、利用可能な地域についても公式発表では明らかにされていません。将来的にはAWS BedrockやAzure Foundry経由での提供も予定されているようです。

従来モデルとの比較

Mercury 2の最大の特徴は、逐次生成ではなく並列生成という点です。従来のGPT、Claude、Geminiは文章を左から右へ順番に生成するため、長い応答ほど時間がかかります。一方、拡散ベースは複数の部分を同時に精緻化していくため、推論の深さが増しても遅延の増加が抑えられます。

さらに内蔵のエラー訂正機能により、生成途中での軌道修正がしやすく、構造化されたJSON出力などの制御性も向上しています。Google DeepMindも類似の「Gemini Diffusion」という実験を行っていますが、Mercury 2は商用化済みという点で一歩先を行っています。

ただし新しい技術であるため、実際の運用での安定性や、特殊なユースケースでの挙動については、今後の利用者からのフィードバックを待つ必要があります。トランスフォーマーは何年もかけて最適化されてきた技術ですから、拡散ベースが同じレベルに達するにはまだ時間がかかるかもしれません。

フリーランスへの影響

Mercury 2がもたらす変化は、主に「待ち時間の削減」です。コーディング、カスタマーサポート、リアルタイムコンテンツ生成など、AIとの対話が業務の一部になっている人にとって、応答速度の向上は作業効率に直結します。

例えば、1日に100回AIに問い合わせる業務があるとします。従来モデルで1回あたり10秒かかっていたものが2秒になれば、1日で13分以上の時短になります。月単位で見れば、数時間分の作業時間を他のことに使えるようになるわけです。

収益面では、時間単価で仕事をしているフリーランスにとって、作業時間の短縮は直接的な収益増につながります。また音声対応やエージェント開発など、これまで応答速度がネックで実現しにくかったサービスを提供できるようになる可能性もあります。

特に恩恵を受けやすいのは、プログラマー、カスタマーサポート代行、バックオフィス自動化を手がけるフリーランスです。一方、ライティングやデザインなど、応答速度よりも出力品質が重視される分野では、既存モデルとの差を感じにくいかもしれません。

まとめ

Mercury 2は速度とコストの両面で優位性がありますが、企業向け早期アクセスが必要で、個人フリーランスがすぐに試せるかは不明です。コーディングやリアルタイム対応の業務をしている人は、公式サイトでのテストや今後の提供状況を確認してみる価値があります。それ以外の用途では、既存モデルで十分なケースも多いため、急いで乗り換える必要はないでしょう。新技術の動向を見守りつつ、自分の業務に合うタイミングで検討するのが現実的です。

参考リンク：Inception launches Mercury 2, the first diffusion-based language reasoning model