AIモデルの訓練データ、ネットの5%しか使えていない現実

インターネットの95%が訓練データから漏れている
Common Crawlの限界
訓練データ不足が意味すること
1. 今後の改善策は?
フリーランスへの影響
まとめ

インターネットの95%が訓練データから漏れている

ChatGPTやClaudeなどの大規模言語モデルは、膨大なインターネットデータで訓練されていると思われがちです。しかし実際には、公開されているウェブページ全体のうち、わずか5%程度しか訓練データとして活用されていません。

この事実を指摘したThe Decoderの記事によれば、主な理由は技術的な制約にあります。現在のデータ収集ツールは、静的なHTMLページの収集には優れていますが、JavaScriptで動的に生成されるコンテンツの抽出が苦手です。例えば、Twitterのタイムラインやインタラクティブなウェブアプリケーションの内容は、ページを開いた瞬間にJavaScriptが実行されて初めて表示されるため、従来のクローラーでは取得できません。

さらに、ペイウォールで保護された専門記事や、GitHubなどの非公開リポジトリ、企業の内部データベースなども、当然ながら訓練データには含まれていません。こうした「見えないデータ」が、インターネット全体の大半を占めているのです。

Common Crawlの限界

多くのAIモデルは、Common Crawlというプロジェクトが提供するデータセットを訓練に使っています。これは定期的にウェブをクロールして収集した、巨大なテキストデータの集合体です。しかし、このデータセットも基本的には静的なHTMLページが中心で、動的コンテンツや会員制サイトの情報は含まれていません。

例えば、LinkedInのようなSNSでは、ログインしないと見られない情報が大量にあります。また、NetflixやSpotifyのようなストリーミングサービスの推薦アルゴリズムや、ユーザーレビューなども、訓練データには反映されにくい領域です。

加えて、データの品質管理も課題です。インターネット上には、スパムや自動生成された低品質なコンテンツも大量に存在します。これらを訓練データに含めると、AIモデルの性能が低下したり、バイアスが発生したりするリスクがあります。そのため、データ収集の段階で慎重にフィルタリングする必要があり、結果的に使えるデータの割合がさらに減ってしまうのです。

訓練データ不足が意味すること

訓練データが限られていると、AIモデルの性能向上にも限界が生まれます。特に、専門的な知識や最新の情報を必要とする分野では、データ不足の影響が顕著です。

例えば、医療や法律のような専門分野では、公開されている論文や判例だけでなく、実務で使われる非公開の資料やノウハウが重要です。しかし、これらは訓練データに含まれていないため、AIが専門家レベルの回答をするのは難しい状況です。

また、多言語対応の面でも課題があります。英語のコンテンツは比較的豊富ですが、日本語を含む他の言語のデータは相対的に少なく、言語によってAIの性能に差が出やすくなっています。

今後の改善策は?

この問題を解決するため、いくつかの取り組みが進んでいます。一つは、JavaScriptを実行できる高度なクローラーの開発です。これにより、動的に生成されるコンテンツも収集できるようになる可能性があります。

もう一つは、企業や研究機関が保有する非公開データを、プライバシーに配慮した形で訓練に活用する方法の模索です。ただし、これには法的・倫理的な課題も多く、すぐに実現するのは難しいでしょう。

フリーランスへの影響

この話は一見すると技術的な議論に思えますが、実はAIツールを使って仕事をしているフリーランスにも関係があります。

まず、今後のAIツールの進化速度に影響が出る可能性があります。訓練データが限られていると、モデルの性能向上が頭打ちになりやすく、新しいバージョンが出ても劇的な改善が見られないかもしれません。特に、専門性の高い分野で仕事をしているライターやデザイナーにとっては、AIが期待したほどサポートしてくれないという状況が続く可能性があります。

一方で、これはチャンスでもあります。AIがカバーしきれない専門知識や、非公開データを扱うスキルを持っているフリーランスは、今後も価値を保ち続けられるでしょう。例えば、特定の業界に特化したライティングや、クライアント企業の内部データを活用したマーケティング支援などは、AIだけでは代替できない領域です。

また、現在のAIツールは英語中心のデータで訓練されているため、日本語での細かいニュアンスや文化的な背景を反映した仕事では、まだ人間の判断が必要です。この傾向は、訓練データの偏りが解消されない限り続くと考えられます。