ハーバード研究：AIが救急診断で医師を上回る

救急車の診断でAIが医師を超えた？ハーバードの研究が示すもの
研究の設計がポイント——どんな条件でテストされたのか
研究者自身が強調する「限界」と「注意点」
フリーランスへの影響——医療AIが与える間接的な意味

救急車の診断でAIが医師を超えた？ハーバードの研究が示すもの

ハーバード医科大学とベスイスラエル・ディーコネス医療センターの医師・コンピュータ科学者チームが、OpenAIのo1およびo4モデルを使った医療診断の比較実験を実施し、その結果をScience誌に発表しました。実際の救急車に搬送された76人の患者データをもとに、AIと内科医2名の診断精度を、評価者に人間かAIかを伏せた状態で比べるという、かなり厳密な設計の研究です。

結果として、o1モデルは初期トリアージの段階で「正確またはほぼ同等の診断」を67%の確率で提供しました。比較対象の医師1名は55%、もう1名は50%でした。この差が最も際立っていたのは、患者についての情報が最も乏しく、かつ判断の緊急性が最も高い「初期ER到着時のトリアージ」の場面だったといいます。

研究の設計がポイント——どんな条件でテストされたのか

この研究で注目したいのは、AIが「特別に整えられたデータ」を使ったわけではないという点です。AIモデルには、電子医療記録（EMR）の時点で実際に利用できるのと同じ情報が提供され、データの事前加工も行われませんでした。つまり、現場の医師が手にする情報と同じ条件でテストされたということです。

また、評価を担当した別の内科医2名は、どの診断がAIによるもので、どれが人間によるものかを知らされていませんでした。この「盲検評価」の設計が、結果の信頼性を高めています。研究リード著者のArjun Manrai氏（ハーバード医科大学AIラボ）は「AIモデルをほぼあらゆるベンチマークに対してテストしたが、先行モデルと医師のベースライン両方を上回った」とコメントしています。

研究者自身が強調する「限界」と「注意点」

ただし、この研究の著者たちは、結果を過大評価しないよう慎重な姿勢を崩していません。今回の研究はあくまで「テキストベースの情報を与えた場合のAIの診断精度」を調べたものです。実際の救急現場では、視覚的な観察、患者の様子、バイタルサインの変化など、テキスト以外の情報が診断に欠かせません。既存の研究では、現在の基礎モデルは非テキスト入力に対する推論能力がより限定的であることも示唆されています。

共同著者のAdam Rodman医師は「AI診断の説明責任のための正式な枠組みが現在存在しない」と指摘し、患者は「生死にかかわる決定や困難な治療選択を通じて寄り添ってくれる人間が必要だ」とも述べています。研究チームは「実世界の患者ケア設定でこれらの技術を評価するための、予期しない試験が緊急に必要だ」との見解も示しました。

さらに、救急医師のKristen Panthagani氏は、この研究が「誇大広告されたヘッドラインを生みやすい興味深いAI研究」であると評した上で、比較対象の医師が「その専門分野を実践している医師でなければ公平な比較にならない」と問題提起しています。ER医師として「初期目標は最終診断を推測することではなく、命に関わる状態かどうかを見極めることだ」とも強調しており、評価指標そのものへの疑問も提示しています。

フリーランスへの影響——医療AIが与える間接的な意味

「フリーランスに医療AIの研究が関係あるの？」と思われるかもしれませんが、この研究が示す意味は医療の枠を超えています。まず、OpenAIのo1モデルが専門知識を要する高度なタスクにおいても一定の実力を発揮できることが、実際のデータで示されました。これは、医療以外の専門領域——たとえば法律的な文書のチェック、会計・財務の整理、技術的なエラーの分析といった場面でも、AIが補助ツールとして活躍できる可能性が高まっていることを示唆しています。

フリーランスのライターやコンサルタントにとっては、AIが「詳しい分野の知識がなくても、ある程度正確な情報を引き出せるツール」として信頼性を増しつつあるというシグナルでもあります。ただし、今回の研究が示す通り、AIには「現状では対応できない情報形式」や「説明責任の枠組みがない」という制約も依然として残っています。これは医療に限らず、仕事でAIを使う場面でも共通する話です。AIの出力をそのまま使うのではなく、自分の判断を加える工程を省かないことが、今後もフリーランスとして重要なスタンスになりそうです。