logo

如何禁止OPENAI的爬虫(GPTBot)抓爬网站 附该爬虫的IP地址网段


张传聪
久笙 2024-01-21 11:43:19 16440 赞同 0 反对 0
分类: 资源 标签: 信创资讯
如何禁止OPENAI的爬虫(GPTBot)抓爬网站 附该爬虫的IP地址网段

OPENAI 利用自己的网络爬虫在互联网上抓取信息,这些信息经过分类整理后,用来继续训练GPT系列模型。

当然可能会有网站和出版商觉得OPENAI这是在白嫖自己,所以OPENAI公布爬虫和 IP 地址网段供网站屏蔽。

这个爬虫遵守网站提供的robots.txt协议 , 网站和出版商不想被OPENAI抓取内容即可按照提示进行屏蔽操作。

 

OPENAI提供的说明:

 

OPENAI使用GPTBot用户代理抓取的网页可能用于改进未来的模型,同时会过滤掉某些付费才能访问的内容。

另外:基于OPENAI的政策,如果网页中包含个人身份信息或其他违规内容,则GPTBot也会删除这部分网页。

允许GPTBot访问您的站点可帮助 AI 模型变得更加准确并提高其总体功能和安全性,但也允许网站屏蔽抓取。

如何禁止OPENAI的爬虫(GPTBot)抓爬网站 附该爬虫的IP地址网段

 

以下是爬虫信息和屏蔽方法:

 

爬虫名称:GPTBot 该爬虫使用的网段为40.83.2.64/28 你可以使用nslookup命令来判断GPTBot爬虫真假。

  1. # 以下是爬虫的完整UA信息
  2. Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

如果想禁止GPTBot抓爬你的内容,你可以在robots.txt中写入指令,爬虫检测到该指令后会按照指令要求操作。

  1. # 完全禁止GPTBot抓取内容
  2. User-agent: GPTBot
  3. Disallow: /
  1. # 完全允许GPTBot抓取内容(不禁止即默认允许、所以下面的非必须)
  2. User-agent: GPTBot
  3. Allow: /
  1. # 完全允许的另一种作用:当禁止其他所有爬虫但允许 GPTBot 时则必须声明以下内容
  2. # 禁止所有爬虫但仅允许 GPTBot
  3. User-agent: *
  4. Disallow: /
  5. User-agent: GPTBot
  6. Allow: /
  1. # 允许GPTBot抓取特定内容
  2. User-agent: GPTBot
  3. Disallow: /
  4. Allow: /路径1/...
  5. Allow: /路径2/...

 

查看GPTBot的抓爬记录:

 

OPENAI毕竟不是传统的搜索引擎提供商,所以并没有站长平台 , OPENAI不提供爬虫的抓爬频次等相关设置。

网站管理员可以搜索自己的网站日志检查GPTBot的抓爬记录 ,打开网站日志后搜索GPTBot关键词即可查看。

如果您发现该资源为电子书等存在侵权的资源或对该资源描述不正确等,可点击“私信”按钮向作者进行反馈;如作者无回复可进行平台仲裁,我们会在第一时间进行处理!

评价 0 条
久笙
粉丝 0 资源 35 + 关注 私信
最近热门资源
当“ventoy启动盘”遇到“主板安全启动”  404
最近下载排行榜
当“ventoy启动盘”遇到“主板安全启动” 0
作者收入月榜
1

prtyaa 收益354.19元

2

风晓 收益207.84元

3

IT-feng 收益197.65元

4

zlj141319 收益173.23元

5

777 收益169.89元

6

1843880570 收益160.33元

7

信创来了 收益103.8元

8

Fhawking 收益99.6元

9

克里斯蒂亚诺诺 收益91.08元

10

技术-小陈 收益79元

请使用微信扫码