ChatGPT以降、新規Webサイトの35%がAI生成に? スタンフォード大など調査
新規Webサイトの35%がAI生成? スタンフォード大調査

ChatGPTの登場以降、インターネット上にはAIが生成したテキストがあふれ、情報の質の低下を懸念する声が高まっている。しかし、これまで実際にどの程度のWebサイトがAIによって書かれているのかは明確ではなかった。そこで、研究チームは2022年8月から2025年5月にかけて公開されたWebサイトを調査した。その結果、新しく公開されたサイトの約35%がAIによって生成されたか、AIの支援を受けて執筆された可能性が高いことが判明した。

調査手法と結果

調査では、インターネット上のAIコンテンツの割合を推定するため、過去のWebページを保存しているInternet Archiveが運営する「Wayback Machine」を活用した。具体的には、2022年8月から2025年5月にかけて公開されたWebサイトの中から、特定のドメインに偏りが出ないよう毎月約1万のURLを無作為に抽出。そして、ページ内のテキストを抽出し、高性能なAIテキスト検出器にかけて解析を行った。

事前に4種類の検出ツールをテストし、長文や短文、異なるAIモデル(GPT、Claude、Geminiなど)、さまざまな言語に対しても安定して高い精度を出せる「Pangram v3」というツールを厳選して採用している。このツールを用いて膨大なテキストを「完全にAIが生成したもの」「AIの支援を受けて人間が書いたもの」「完全に人間が書いたもの」の3つに分類した結果、新しく公開されたサイトの約35%がAIによって生成、あるいはAIの支援を受けて執筆されたものであると確認された。

Pickt横長バナー — Telegram用の共同買い物リストアプリ

質的な変化:多様性の低下とポジティブシフト

研究チームは、人々の意識調査と実際のデータ分析の両面からAIの普及がネット空間に与える影響を検証した。アンケート調査では、大多数の人が「AIのせいで間違った情報が増えた」「個人の独特な文体が失われ、どれも似たようなテキストになった」と懸念していることが示された。しかし、Web上の膨大なテキストデータを実際に解析すると、人々のイメージとは異なる事実が浮かび上がった。

一般の人々が危惧していた事実の正確性の低下や文体の画一化については、インターネット全体という広い視点で見ると、実は目立って悪化しているという証拠は見つからなかった。一方で実際のデータからは、明確に進行していると認められた2つの大きな変化が見られた。

1つ目は、テキストが表す意味や意見が似通ってくる意味的多様性の縮小。AIが生成したWebサイト群は、人間が書いたサイト群と比較して、書かれている内容の類似性が33%も高かった。AIは極端な意見を避け、平均的で無難な回答を出力することがある。このデータは、ネット上の多様な視点や独自のアイデアが狭まっている可能性を示している。

2つ目に、不自然なほど明るいテキストが増加する「ポジティビティ・シフト」である。AI生成が関与したサイトのポジティブな感情を示すスコアは、人間が書いたサイトに比べて2倍以上(107%増)も高かった。これは、AIが人間に嫌われないように過剰に明るく、当たり障りなく振る舞う性質に由来し、オンラインのテキストが人工的に陽性すぎるものへと変化していることが実証された。

結論

つまり、現在のインターネットにおいて実際に起きている危機とは、分かりやすいウソやデマが爆発的に増えていることではなく、AI特有の「当たり障りのない、不自然に明るいテキスト」がネット上に多くなってきたことが示唆された。

Pickt記事後バナー — 家族イラスト付きの共同買い物リストアプリ