Forum AI、AIの高リスク回答を90%精度で評価

「AIは正確な情報を届けられているか」という問いから生まれた会社
人間の専門家をベースにAIジャッジを訓練する仕組み
AI業界が見落としてきた「ニュース・情報」という領域
フリーランスへの影響
まとめ

「AIは正確な情報を届けられているか」という問いから生まれた会社

ChatGPTが世界中に広まった2022年末、Campbell Brownはひとつの問いに直面していました。「これだけ多くの人がAIから情報を受け取るようになったとき、その情報は本当に信頼できるのか」という問いです。Metaでニュース責任者を務めていた彼女は、エンゲージメント（クリック数や滞在時間）を優先した結果、誤情報が拡散していくプラットフォームの失敗を間近で見てきました。その経験をもとに、17ヶ月前にニューヨークでForum AIを創業しました。

Forum AIが取り組むのは、AIモデルが「高リスクトピック」にどれだけ正確に答えられるかを評価することです。高リスクトピックとは、地政学的な紛争、メンタルヘルスに関するアドバイス、金融判断、採用・雇用に関わる情報など、答えを間違えると実害が生じうる領域のことです。これらは「正解が一つとは言えない」複雑で曖昧なテーマばかりで、単純な事実確認とは性質が異なります。

人間の専門家をベースにAIジャッジを訓練する仕組み

Forum AIのアプローチは、まず各分野の人間専門家にAI回答を評価してもらい、その判断基準をAIジャッジに学習させるというものです。その結果、人間専門家の評価とAIジャッジの評価が約90%一致するようになったと報告されています。

たとえばメンタルヘルスの領域では、「落ち込んでいます、どうすればいいですか」という問いに対してAIがどう答えるかを評価するとき、単に「専門家に相談しましょう」と返すだけでは不十分な場合があります。回答の温度感、情報の正確さ、危機状況を見極める感度など、専門家の目線でしか判断できない細かなニュアンスをフォーラムAIは評価基準として組み込もうとしています。

金融分野でも同様です。「今すぐ株を売るべきですか」という質問に対し、AIが特定の行動を促すのか、リスクを適切に伝えるのかは、ユーザーの資産に直接影響する可能性があります。こうしたデリケートな判断を自動で評価できるようにするのが、Forum AIの目指す仕組みです。

AI業界が見落としてきた「ニュース・情報」という領域

現在のAI開発競争は、コーディングや数学といった検証しやすい能力指標でモデルを評価することが中心になっています。「このモデルはコーディングテストで何点取れるか」という比較は分かりやすく、ベンチマークとしても定着しています。しかしBrownが指摘するように、日常的に多くの人が使う「ニュースや情報を調べる」という用途については、精度を測る業界標準がほとんど存在しませんでした。

Forum AIは昨年秋、Lerer Hippeau主導のラウンドで300万ドルを調達しており、スタートアップとしての本格的な展開が始まっています。ただし、具体的な料金体系やサービスの一般公開時期、日本語対応については現時点では明らかになっていません。

フリーランスへの影響

Forum AIのサービスは、現時点ではAI基礎モデルを開発・評価する企業や、情報の正確性に責任を持つ組織が主な対象です。ライターやマーケターなど個人で活動するフリーランスが今すぐ使えるツールではありません。ただ、この動きが業界に影響を与えるとすれば、将来的にChatGPTやClaudeなどの主要モデルが「ニュースや情報分野でも信頼できる回答を出せる」方向に改善されていく可能性があります。

特にフリーランスのライターやリサーチャーにとって、AIが調査・情報収集の補助ツールとして使えるかどうかは大きな問題です。現状では、地政学や金融など専門性の高いテーマでAIの回答をそのまま使うのはリスクがあり、自分で一次ソースを確認する手間がかかります。Forum AIのような評価インフラが整い、主要モデルへのフィードバックが進めば、こうした検証作業を減らせる可能性があります。ただし、それが実現するまでには時間がかかる見通しです。

また、Forum AIの存在は「AIの精度を測ること自体がビジネスになる」という新しい市場を示しています。評価・検証の専門性を持つフリーランスにとっては、将来的に新しい仕事の領域が生まれる可能性も考えられます。

まとめ

Forum AIは、AI業界が軽視してきた「情報の正確性」という課題に正面から取り組むスタートアップです。現時点でフリーランスが直接使えるサービスではありませんが、AIへの情報収集依存度が高い方は、この動きを定期的にチェックしておく価値があります。まずは様子見で、続報を待つのがよさそうです。

参考：TechCrunch – Forum AI原文記事