Microsoft、3つの新AIモデル発表。音声とビデオ生成が大幅進化

Microsoftが独自AIモデルで本格参入
3つのモデルの詳細と実務での使い道
価格競争力が最大の武器
OpenAIとの関係はどうなる?
フリーランスへの影響
まとめ

Microsoftが独自AIモデルで本格参入

MicrosoftはこれまでOpenAIとの強力なパートナーシップで知られてきました。130億ドル以上を投資し、ChatGPTの技術を自社製品に組み込んできたからです。しかし今回の発表は、Microsoftが独自のAI技術スタックを本格的に構築し始めたことを示しています。

今回リリースされた3つのモデルは、Microsoft AI CEOのMustafa Suleymanが率いるMAI Superintelligenceチームによって開発されました。このチームは2025年11月に結成されたばかりですが、わずか数ヶ月で商用レベルのモデルをリリースしたことになります。Suleymanは「人間を中心に置き、人々が実際にコミュニケーションする方法を最適化した」と語っており、実用性重視の姿勢が伺えます。

3つのモデルの詳細と実務での使い道

MAI-Transcribe-1：多言語音声認識

MAI-Transcribe-1は、25の言語で音声をテキストに変換できるモデルです。既存のMicrosoft Azure Fastよりも2.5倍高速に処理できるのが特徴で、料金は1時間あたり0.36ドルから始まります。

例えば、海外クライアントとのオンライン会議を録音して、自動的に議事録を作成したい場合に便利です。従来は会議後に自分で聞き直して要点をまとめていた作業が、ほぼ自動化できます。また、Podcastやインタビュー動画の文字起こしを外注していた方は、このモデルを使えばコストを大幅に削減できる可能性があります。

MAI-Voice-1：カスタムボイス生成

MAI-Voice-1は音声を生成するモデルで、1秒間に60秒分のオーディオを作れる高速処理が売りです。料金は100万文字あたり22ドルからとなっています。

興味深いのはカスタムボイス機能です。自分の声やクライアントが求める特定のトーンの声を作成できるため、ナレーション制作の幅が広がります。例えば、企業のプロモーション動画で一貫したブランドボイスを作りたい場合や、多言語展開する際に同じトーンで異なる言語のナレーションを用意したい場合に活用できます。

MAI-Image-2：ビデオ生成

MAI-Image-2はビデオ生成に対応したモデルで、2026年3月19日にMAI Playgroundで先行リリースされました。テキスト入力は100万トークンあたり5ドル、画像出力は100万トークンあたり33ドルからの価格設定です。

このモデルの実用例としては、SNS用のショート動画の自動生成や、プレゼンテーション資料に組み込む説明動画の作成などが考えられます。従来は動画編集ソフトで1本作るのに数時間かかっていた作業が、テキスト指示だけで短時間に完成する可能性があります。

価格競争力が最大の武器

Microsoftが今回強調しているのは、GoogleやOpenAIの競合モデルよりも安価であることです。AI市場が成熟するにつれて、性能だけでなくコストパフォーマンスが重視されるようになってきた証拠でもあります。

例えば、月に20本の動画コンテンツを制作するフリーランスの場合、外注費や自分の作業時間を考えると、1本あたり数千円から数万円のコストがかかっています。MAI-Image-2を使えば、トークン単価が低い分、月額コストを抑えながら大量のコンテンツを生成できる計算になります。

ただし注意すべきは、これらのモデルがまだリリースされたばかりで、実際の品質や使い勝手については実例が少ないことです。価格が安くても、生成されるコンテンツのクオリティが低ければ結局手直しに時間がかかり、コスト削減にはなりません。

OpenAIとの関係はどうなる?

興味深いのは、MicrosoftがOpenAIとのパートナーシップを継続しながら、独自モデルの開発も進めている点です。Suleymanは最近The Vergeのインタビューで、「パートナーシップの再交渉により、本格的に独自の研究を追求できるようになった」と語っています。

これは、MicrosoftがAIチップ戦略でも見せている姿勢と同じです。自社でチップを製造しながら、NvidiaやAMDからも購入しています。つまり、依存先を分散させながら、自社の選択肢を増やす戦略です。

フリーランスにとってこれが意味するのは、今後Microsoftの製品やサービスで、OpenAI技術とMicrosoft独自技術の両方が使えるようになる可能性が高いということです。用途に応じて使い分けられる環境が整いつつあります。

フリーランスへの影響

この発表で最も影響を受けるのは、音声コンテンツや動画コンテンツの制作に関わるフリーランスです。文字起こし、ナレーション制作、動画編集といった作業の一部が自動化できる可能性が出てきました。

作業時間への影響としては、例えば1時間のインタビュー音声の文字起こしに従来2〜3時間かかっていたものが、MAI-Transcribe-1を使えば数分で完了します。その分、編集や構成といったクリエイティブな部分に時間を使えるようになります。

収益面では、外注していた作業を内製化できればコスト削減になりますし、逆に今まで手が回らなかった案件を受けられるようになり、売上増加につながる可能性もあります。特に多言語対応が必要なプロジェクトでは、翻訳と音声生成を組み合わせることで、従来は断っていた海外案件にも対応できるかもしれません。

ただし、これらのツールが普及すればするほど、単純な文字起こしや基本的な動画編集の単価は下がる可能性があります。フリーランスとして差別化するには、AIが生成したコンテンツをどう編集・改善するか、クライアントの意図をどう汲み取るかといった、人間ならではのスキルがより重要になってきます。

まとめ

Microsoft MAIのモデルは、現時点ではリリース直後で実績が少ないため、すぐに飛びつく必要はありません。ただし、音声や動画コンテンツの制作を日常的に行っている方は、MAI Playgroundで無料トライアルがあるかチェックしてみる価値はあります。

特に、複数の言語で同じコンテンツを展開する必要がある場合や、大量のコンテンツを短期間で制作する必要がある場合は、試してみる価値が高いでしょう。一方で、クオリティ重視のクリエイティブワークをメインにしている方は、しばらく様子を見て、実際の使用例や評判が出揃ってから判断するのが賢明です。

参考リンク：TechCrunch