ChatGPTで有名なAI開発企業・OpenAIは、自社のAI開発のために「GPTbot」を使って各ウェブページをクロールしています。
このGPTbotに自分のウェブサイトをクロールされたくない方は、robots.txtに以下の2行を追加すればOKです。
User-agent: GPTBot Disallow: /
また、以下のように記述する事で、一部のディレクトリ(サイトの一部)だけを許可・ブロックする事もできます。
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
(Allowは許可、Disallowはブロック)
GPTbotで収集した情報は、ペイウォール(課金コンテンツ)や個人情報などを削除するためにフィルタリングされます。
しかし、そうしたコンテンツを扱っているウェブサイトは、あらかじめrobots.txtに上記の記述を行い、GPTbotがウェブサイトの情報を収集するのをブロックしておくと良いでしょう。
なお、これは今後のデータ収集をブロックする方法であって、既にOpenAIに収集された情報には影響を及ぼしません。