Microsoft、43言語対応の音声文字起こしAIを発表

Microsoftが音声認識の自社モデルを本格投入

Microsoftが2026年6月初旬、音声認識(ASR)の独自開発モデル「MAI-Transcribe-1.5」を発表しました。これまでMicrosoftのAzureサービスでは外部ベースのモデルも活用されてきましたが、今回は完全な自社開発モデルとして打ち出されているのが大きな特徴です。

音声文字起こしのツールはWhisperをはじめいくつか選択肢がありますが、MAI-Transcribe-1.5が差別化のポイントとして掲げているのは「速度」と「多言語対応の幅広さ」です。FLEURSという多言語ベンチマークで43言語全体にわたり高い精度を示したとMicrosoftは説明しており、単一システムでこれだけの言語をカバーできる点は実務的な強みになりえます。

「15秒で1時間分」という処理速度の意味

今回のモデルで特に目を引くのが処理スピードです。長時間音声の文字起こしで最大5倍高速になり、1時間分の音声を15秒未満で処理できるとされています。前バージョンのMAI-Transcribe-1と比較しても、Azureのインフラ上では長時間推論が最大5.7倍速くなっているとのことです。

たとえばポッドキャストの収録や取材インタビューを定期的に文字起こししている場合、これまで数分待っていた処理が数秒で終わるイメージです。単純な時短というより、「文字起こしを待つ間に別の作業をする」という習慣自体がなくなるほどの変化になるかもしれません。

また、固有名詞や専門用語をあらかじめキーワードとして設定しておくことで、誤認識率(WER)を最大30%削減できる機能も搭載されています。たとえばIT系の取材で頻繁に出てくる製品名やブランド名を事前に登録しておけば、後から手直しする手間が減りそうです。

精度についての注意点

Microsoftは自社ベンチマーク(FLEURS)での高評価を強調していますが、第三者機関であるArtificial Analysisのベンチマークでは、WER(単語誤り率)2.4%で3位という結果も報じられています。1位ではないという事実は、どのベンチマークを基準にするかで評価が変わることを示しており、「最強のモデル」として鵜呑みにするのは少し早いかもしれません。

また、43言語対応とされていますが、日本語が対応言語に含まれるかどうかは現時点の記事情報からは明確ではありません。日本語メインで使いたい場合は、正式なドキュメントや対応言語リストを確認してから判断することをおすすめします。料金や利用可能地域についても、現段階では詳細が公開されていないため、Azureの公式情報をチェックするのが確実です。

フリーランスへの影響

このモデルが直接フリーランスの日常に入ってくるとすれば、主にAzure経由でのAPI利用か、Azure上に構築されたサードパーティツールを通じた形になりそうです。今すぐ「使ってみよう」というより、自分が使っている文字起こしツールのバックエンドが更新されて体験が変わる、という形で恩恵を受けるケースが多いかもしれません。

一方、複数言語でのインタビューや海外クライアントとの会議録音を扱うフリーランスにとっては、1つのシステムで多言語対応できる点は注目する価値があります。現在ツールを言語ごとに使い分けているなら、将来的に一本化できる可能性があります。また、コールセンターや大量の音声データ処理を請け負う仕事をしている方には、処理速度の向上が直接コスト削減につながるかもしれません。

ただし日本語対応状況や料金が未確認の段階では、今すぐ乗り換えを検討するよりも、情報が揃ってから改めて評価するのが現実的な対応です。

まとめ

MAI-Transcribe-1.5は、速度と多言語対応を強みとするMicrosoft製の音声認識モデルです。日本語対応や料金など不明点がまだあるため、今すぐ行動するというより「情報をウォッチしておく」タイミングといえます。Azure利用者や多言語対応に関心がある方は、Microsoftの公式発表ページを確認しておくとよいでしょう。

参考リンク:https://techcommunity.microsoft.com/blog/azure-ai-services-blog/

コメント

タイトルとURLをコピーしました