ChatGPTで有名なOpenAIのクローラーをブロックする方法

ChatGPTで有名なAI開発企業・OpenAIは、自社のAI開発のために「GPTbot」を使って各ウェブページをクロールしています。

このGPTbotに自分のウェブサイトをクロールされたくない方は、robots.txtに以下の2行を追加すればOKです。

User-agent: GPTBot
Disallow: /

また、以下のように記述する事で、一部のディレクトリ(サイトの一部)だけを許可・ブロックする事もできます。

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

(Allowは許可、Disallowはブロック)

GPTbotで収集した情報は、ペイウォール(課金コンテンツ)や個人情報などを削除するためにフィルタリングされます。

しかし、そうしたコンテンツを扱っているウェブサイトは、あらかじめrobots.txtに上記の記述を行い、GPTbotがウェブサイトの情報を収集するのをブロックしておくと良いでしょう。

なお、これは今後のデータ収集をブロックする方法であって、既にOpenAIに収集された情報には影響を及ぼしません。

参考:GPTBot – OpenAI API

GoogleのAI学習をブロックする方法

Googleは会話型のAI・Geminiを提供しており、そのためにウェブ上のコンテンツを学習(トレーニング)に利用しています

自身のウェブサイトがGoogleの生成AIモデルの学習に利用されないようにするには、robots.txtに以下を記述し、「Google-Extended」をブロックすればOKです

User-agent: Google-Extended
Disallow: /

この2行を記述すれば、自身のウェブサイトがGoogleの生成AIモデルの学習に利用されるのを防ぐことが可能です

関連:ChatGPTのクローラーをブロックする方法はこちら

既に学習されたコンテンツは削除できない

今回紹介したのは、コンテンツがGoogleに新たに学習されるのを防ぐオプションであり、Googleに既に学習されたコンテンツを削除する事は不可能です。

Googleはこのオプションを発表する前から、ウェブ上のコンテンツを学習に利用していました。

その為、このオプションをrobots.txtに記述しても、既に自分のウェブサイトがGoogleに利用されている可能性がある点に注意しましょう。

日本人には読めない言葉?

カタカナっぽいのに読めない言葉…でも外国人には読める?

気付いたらスッキリ。でもやっぱり読みにくい…笑(=´∀`)

参考:『日本人だけ読めない』フォントが話題 これ読める??

水曜日を休みにすると 毎日が休日か休日明けか休日前

画像:毎日が休日か休日明けか休日前 「仕事したくない日がない」ある企業の勤務形態が話題|まいどなニュース

これ言いアイデアだよね。週休3日欲しいね。

【ホロライブ】Blue Journey「水たまり」

めっちゃアイドルしてる!配信とは違った雰囲気で素敵!

アイドルらしい可愛い歌声でありながら、みな個性的で誰の声かハッキリわかるのが良いですね。

余談ですが、名義は「ホロライブ」ではなく「Blue Journey」なんですね。

Blue Journey – 「水たまり」 (Music Video) – YouTube

ずっとアル中の気持ちが分からなかったが、モンエナ中毒になってアル中の気持ちが分かった。

ずっとお酒がやめられない人の気持ちがわからなかった。

しかし、自分がモンスター・エナジー カオスにはまって、毎日1本飲まないと耐えられない身体になってから、お酒がやめられない人の気持ちがわかった(´・∀・`)

(2020年3月20日)