Meta「Muse Spark」発表、医療推論で競合を大きくリード

Meta Superintelligence Labsの新戦略
3つのスケーリング軸で効率を追求
1. 思考圧縮という新しい現象
医療分野で圧倒的な強さ、弱点も明確
フリーランスへの影響
まとめ

Meta Superintelligence Labsの新戦略

Metaが新たに立ち上げたMeta Superintelligence Labsから、Museファミリーの最初のモデル「Muse Spark」が発表されました。この組織は、Hyperionデータセンターへの大規模投資と並行して設立されたもので、Metaが次世代AIに本格的に取り組む姿勢を示しています。

Muse Sparkは、従来のテキスト中心のAIモデルとは異なり、テキストとビジュアル入力を同時に処理するように一から設計されたネイティブマルチモーダルモデルです。つまり、後から画像認識機能を追加したのではなく、最初から両方を扱えるように作られているため、より自然な処理が可能になっています。

3つのスケーリング軸で効率を追求

Muse Sparkの開発では、3つの異なるアプローチでモデルの性能を高めています。1つ目はプリトレーニングの改善で、前モデルのLlama 4 Maverickと比べて10倍以上のコンピュート効率を実現しました。これは、モデルの設計、最適化、データの選別を根本から見直した結果です。

2つ目は強化学習です。アウトカムベースのフィードバックを使ってトレーニングすることで、初回で正解を出す確率と、複数回試行した際の成功率の両方が対数線形的に向上しています。3つ目はテストタイム推論で、推論時に使うコンピュートリソースをどう配分するかを最適化しています。

思考圧縮という新しい現象

興味深いのは「思考圧縮」と呼ばれる現象です。Muse Sparkは最初、長い推論プロセスを経て答えを導き出そうとしますが、途中で長さペナルティが働くと推論を短縮し、その後再度拡張するという動きを見せます。これは人間が複雑な問題を解く際に、一度シンプルに整理してから再び詳細を詰めていく過程に似ています。

また「Contemplating mode」という機能では、複数のAIエージェントが並列で動作し、ソリューションの生成、自己改善、集約を繰り返します。これにより、より複雑な問題に対応できるようになっています。

医療分野で圧倒的な強さ、弱点も明確

ベンチマーク結果を見ると、Muse Sparkの得意分野と苦手分野がはっきりしています。最も印象的なのは医療関連の推論能力で、HealthBench Hardというベンチマークでは42.8というスコアを記録しました。これはClaude Opus 4.6 Maxの14.8、Gemini 3.1 Pro Highの20.6を大きく上回っています。

Metaは1000人以上の医師と協力してトレーニングデータをキュレーションしたとのことで、この投資が結果に表れています。医療画像の読み取りや健康に関する質問への回答など、ビジュアル情報と専門知識を組み合わせたタスクで特に強みを発揮します。

一方で、抽象的な推論には弱さが見られます。ARC AGI 2というベンチマークでは42.5と、競合他社の76以上に大きく水をあけられています。コーディングタスク(SWE-Bench Verified)でもClaude Opus 4.6 Maxに若干劣り、PhD級の推論問題(GPQA Diamond)ではGemini 3.1 Pro Highに後れを取っています。

ScreenSpot Proというビジュアルタスクでは、Pythonツールを使用した場合84.1というスコアで、GPT-5.4 Xhighの85.4に迫る性能を示しました。画像からエンティティを認識したり、スクリーンショット上の特定要素を見つけたりするタスクでは、十分に実用的なレベルに達しています。

フリーランスへの影響

現時点でMuse Sparkは開発者向けのモデルで、一般ユーザーが直接使えるサービスではありません。ただし、医療系のライティングや翻訳、健康関連のコンテンツ制作に携わるフリーランスにとっては、今後このモデルを組み込んだツールが登場する可能性があります。

特に注目したいのは、医療画像の分析や健康情報の整理といった、専門知識とビジュアル理解の両方が必要な作業です。これまでは医療専門家の監修が必須だった領域でも、AIが下準備をしてくれることで作業時間を削減できるかもしれません。もちろん、最終的な確認は専門家が行う必要がありますが、初期段階での情報収集や整理にかかる時間は確実に減らせるでしょう。

一方、抽象的な推論やコーディングが必要な業務では、他のモデルの方が適しています。Muse Sparkは万能ではなく、得意分野がはっきりしているモデルだと理解しておくことが大切です。ツール選択の際は、自分の業務内容と照らし合わせて判断する必要があります。

まとめ

Muse Sparkは医療分野での推論能力に特化した興味深いモデルですが、現段階では開発者向けです。フリーランスとして直接使う機会は当面ないでしょう。ただし、健康・医療系のコンテンツ制作に携わっている方は、このモデルを活用したサービスが今後登場する可能性があるため、動向を追っておく価値はあります。詳細な技術情報はai.meta.comで近日公開される予定なので、関心がある方はチェックしてみてください。