xAI「Grok 4.20」API公開、ハルシネーション抑制で新記録達成

Grok 4.20の3つのAPIバリアント
ハルシネーション抑制率78%の意味
総合性能では他のトップモデルに遅れ
料金設定は競争力あり
フリーランスへの影響
まとめ

Grok 4.20の3つのAPIバリアント

今回公開されたGrok 4.20 Betaは、用途に応じて選べる3種類のAPIが用意されています。推論機能を有効にしたモード、推論なしのシンプルなモード、そして複数のAIエージェントを連携させるマルチエージェントモードです。

推論機能を有効にすると、AIが回答を生成する前に内部で考えるプロセスを経るため、より慎重で正確な回答が期待できます。一方、推論なしモードは素早いレスポンスが必要な場面に適しています。マルチエージェントモードは、複雑なタスクを複数のAIが協力して処理する仕組みで、より高度な自動化を実現したい場合に有効です。

また、すべてのバリアントで200万トークンというコンテキストウィンドウをサポートしています。これは約150万語に相当する情報量で、長文の資料やドキュメントをまるごと読み込ませて分析することが可能です。

ハルシネーション抑制率78%の意味

今回のGrok 4.20が注目を集めている最大の理由は、Artificial Analysisが実施した「AA Omniscienceテスト」でハルシネーション非発生率78%を記録したことです。これは、テスト済みのすべてのAIモデルの中で最高記録となります。

このテストは、AIが答えを知らない質問に対してどれだけ事実を捏造せずに「わかりません」と答えられるか、そして実際に知っている情報をどれだけ正確に思い出せるかを測定するものです。Grok 4.20は、答えがわからない場合でも約5回に1回(20%)しか誤った情報を提供しませんでした。

フリーランスでリサーチ業務やファクトチェックが必要な記事制作を行っている方にとって、これは重要な指標です。たとえば、クライアントから依頼された専門的なテーマについて調べる際、AIが自信満々に間違った情報を提示してしまうと、それをそのまま使ってしまうリスクがあります。Grok 4.20は「知らない」ことを正直に伝える能力が高いため、情報の信頼性を重視する場面で安心して使えます。

総合性能では他のトップモデルに遅れ

ハルシネーション抑制では優秀な成績を収めたGrok 4.20ですが、総合的なAI性能を測るIntelligence Indexスコアでは48点にとどまっています。これは、GoogleのGemini 3.1 Pro PreviewやOpenAIのGPT-5.4が記録した57点と比較すると、9ポイントの差があります。

前モデルのGrok 4と比べると6ポイント改善していますが、現時点では業界トップクラスのモデルとは明確な性能差があるのが実情です。このスコアは、複雑な推論や創造的なタスク、高度な文章生成能力など、さまざまな能力を総合的に評価したものです。

したがって、Grok 4.20は「情報の正確性を最優先したい場面」では強みを発揮しますが、「クリエイティブな文章生成」や「複雑な論理的推論」が必要な場合は、GeminiやGPTのほうが適している可能性があります。

料金設定は競争力あり

価格面では、Grok 4.20は100万トークンあたり2ドルまたは6ドルという設定になっています。どちらの価格が適用されるかは、選択するAPIバリアント(推論あり・なし・マルチエージェント)によって変わると考えられます。

前モデルのGrok 4よりも安価になっており、西側諸国のAIモデルの中では競争力のある価格帯です。たとえば、月に500万トークン(約375万語相当)を処理する場合、推論なしモードなら月額10ドル程度で済む計算になります。

フリーランスで月間に大量のリサーチやコンテンツ生成を行う方にとって、コストパフォーマンスは重要な判断材料です。情報の正確性を重視する案件が多いなら、Grok 4.20は選択肢の一つになるでしょう。

フリーランスへの影響

Grok 4.20の登場により、フリーランスがAIを選ぶ際の判断軸が「総合性能」だけでなく「用途別の得意分野」へとさらに細分化されることになります。

特に恩恵を受けるのは、ファクトチェックが重要なライターやリサーチャー、専門的な情報を扱うコンサルタントです。これまでAIの回答を常に疑いながら使っていた方にとって、ハルシネーション抑制率78%という数字は安心材料になります。誤情報を掴まされるリスクが減れば、確認作業にかける時間を削減でき、結果的に作業効率が上がります。

一方で、クリエイティブなコピーライティングやアイデア出し、複雑な論理展開が必要な文章作成を主な業務とするフリーランスにとっては、現時点ではGeminiやGPT-5.4のほうが適している可能性が高いでしょう。総合性能で9ポイントの差は、実務上でも体感できる違いとして現れる可能性があります。

また、200万トークンのコンテキストウィンドウは、長文の契約書や技術文書、リサーチレポートを一度に読み込ませて要約や分析を依頼したい場面で役立ちます。これまで分割して処理していた作業が一度で済むようになれば、時間短縮につながります。

まとめ

Grok 4.20 Betaは、情報の正確性を最優先する場面で強みを発揮するモデルです。ハルシネーション抑制率で新記録を達成した点は評価できますが、総合性能ではまだトップクラスに届いていません。

すでにAPIを利用した業務フローを構築している方で、ファクトチェックやリサーチ精度を改善したいなら、試してみる価値はあるでしょう。一方、クリエイティブな文章生成や複雑な推論が中心の業務なら、現時点では他のモデルのほうが適しています。料金も比較的手頃なので、まずは小規模なテストから始めて、自分の業務に合うか確認するのがおすすめです。

参考リンク：The Decoder