xAIが音声API公開、通話認識の精度で競合を上回る

Grokの音声技術が開発者向けに開放
文字起こし精度で既存サービスを圧倒
1. バッチとストリーミングの2モード
2. 複数話者の自動識別機能
音声合成は感情表現に対応
1. 笑い声やささやきも再現
フリーランスへの影響
まとめ

Grokの音声技術が開発者向けに開放

xAIが5月に発表した音声APIは、同社のモバイルアプリ「Grok Voice」やテスラ車両で使われているのと同じ技術基盤を使っています。つまり、すでに実環境でテストされている技術をAPI経由で利用できるようになったということです。

今回公開されたのは2つのAPI。音声を文字に変換する「Speech-to-Text API」と、テキストから音声を生成する「Text-to-Speech API」です。どちらも開発者向けのサービスですが、フリーランスが日常的に使うツールに組み込まれる可能性が高いため、その性能は知っておいて損がありません。

文字起こし精度で既存サービスを圧倒

Speech-to-Text APIの最大の特徴は、固有名詞や数字の認識精度です。xAIが公開したベンチマークによると、電話通話での人名・アカウント番号・日付の認識エラー率は5.0%。これに対してElevenLabsは12.0%、Deepgramは13.5%、AssemblyAIは21.3%という結果でした。

具体的に何が違うかというと、クライアントとの通話記録を文字起こしするとき、「田中太郎」が「たなかたろう」になってしまったり、「3月15日」が「さんがつじゅうごにち」と表記されてしまうミスが少ないということです。こうした細かな修正作業は意外と時間がかかるので、精度が高いほど後工程が楽になります。

ポッドキャストや動画の音声認識では、Grokのエラー率は2.4%。これはElevenLabsと同率で、Deepgram(3.0%)やAssemblyAI(3.2%)をわずかに上回る程度です。一般的なオーディオ全体でのワードエラー率は6.9%とされています。

バッチとストリーミングの2モード

このAPIには2つの処理モードがあります。バッチモードは録音済みの音声ファイルをまとめて処理する方式で、料金は1時間あたり0.10ドル。ストリーミングモードはリアルタイムで音声を文字化する方式で、1時間あたり0.20ドルです。

たとえば1時間のインタビュー音声をバッチ処理すると約15円、リアルタイムで文字起こしすると約30円という計算になります(為替レートによって変動します)。現在使っている文字起こしサービスと比較して、コストパフォーマンスを検討する価値はあるでしょう。

対応言語は25言語で、日本語も含まれています。音声ファイル形式はWAV、MP3、FLAC、AACなど12種類に対応し、1リクエストあたり最大500MBまで処理できます。長時間の会議やセミナー録音でも、分割せずに処理できるサイズです。

複数話者の自動識別機能

実務で便利なのが「スピーカーダイアライゼーション」という機能です。これは複数の人が話している音声を自動的に話者ごとに分離してくれる機能で、パネルディスカッションやグループインタビューの文字起こしに役立ちます。

従来のツールでは、誰が話しているか手動でタグ付けする必要がありましたが、この機能があれば「スピーカー1」「スピーカー2」のように自動で振り分けられます。あとは実際の名前に置き換えるだけで済むため、編集時間が大幅に短縮されます。

音声合成は感情表現に対応

Text-to-Speech APIは、テキストから自然な音声を生成するサービスです。料金は100万文字あたり4.20ドル。一般的なブログ記事が2,000文字程度なので、500記事分を音声化しても4.20ドルという計算です。

用意されている音声は5種類(Ara、Eve、Leo、Rex、Sal)で、デフォルトはEveです。対応言語は20言語で、こちらも日本語が含まれています。

笑い声やささやきも再現

このAPIのユニークな点は、感情表現のタグが使える点です。テキストに[laugh]と書けば笑い声、[sigh]でため息、[breath]で息遣いを挿入できます。また、囲んだテキストのように書けば、その部分をささやき声で読み上げます。

たとえばポッドキャストの台本を音声化するとき、「ここは驚いた感じで」「ここは小声で」といった演出を、タグで指定できるわけです。完全に人間の声優と同じとはいきませんが、棒読みではない自然な音声コンテンツを、短時間で量産できるようになります。

WebSocketストリーミングを使えば、長文でもテキスト全体の処理を待たずに、入力した部分から順次音声を返してくれます。読み上げアプリやリアルタイム音声アシスタントを開発する場合、ユーザー体験の向上につながる機能です。

フリーランスへの影響

今回のAPIは開発者向けサービスなので、一般のフリーランスが直接契約して使うというより、既存の文字起こしツールや音声合成ツールの「裏側」に組み込まれる可能性が高いです。今後数カ月で、xAIの技術を採用したサービスが登場するかもしれません。

ライターやインタビュアーにとっては、文字起こしの精度向上が最大のメリットです。固有名詞の誤認識が減れば、修正作業が減り、1本あたりの作業時間が短縮されます。月に10本のインタビュー記事を執筆しているなら、1本あたり10分の短縮でも、月間100分の時間が浮く計算です。

ポッドキャスターやYouTuberにとっては、音声合成の感情表現機能が興味深いところです。ナレーション原稿を用意すれば、声優を手配せずに自然な音声コンテンツを作れます。ただし、リスナーが「これAIだな」と気づく可能性はあるので、コンテンツの性質によって使い分けが必要でしょう。

プログラミングスキルがあるフリーランスなら、このAPIを使った独自ツールを開発し、それ自体を商品にする道もあります。たとえば特定業界向けの専用文字起こしツールや、多言語対応の音声ガイド生成サービスなどです。

まとめ

xAIの音声APIは、精度の高さと手頃な価格設定が魅力です。ただし現時点では開発者向けサービスなので、一般ユーザーが恩恵を受けるには、このAPIを組み込んだツールの登場を待つ必要があります。

もしプログラミングスキルがあるなら、公式ドキュメントを確認して試してみる価値はあります。そうでない場合は、今使っている文字起こしツールが今後xAI技術を採用するかどうか、アップデート情報をチェックしておくといいでしょう。

参考リンク：xAI Speech API公式ページ