AIニュース・トレンド AIモデルの訓練データ、ネットの5%しか使えていない現実
大規模言語モデルの訓練に使われているインターネットデータは、実は公開ウェブ全体のわずか5%程度に過ぎないことが明らかになりました。残りの95%はJavaScriptで動的に生成されるコンテンツや、ペイウォールで守られた記事、非公開のデータベースなどで、現在の技術では収集が難しい状態です。これはAI研究者やデータサイエンティストだけでなく、AIツールを日常的に使うフリーランスにとっても、将来的なツールの進化速度に影響を与える可能性があります。