如何禁止OPENAI的爬虫(GPTBot)抓爬网站附该爬虫的IP地址网段

久笙 2024-01-21 11:43:19  16440 赞同 0 反对 0

分类：资源标签：信创资讯

如何禁止OPENAI的爬虫(GPTBot)抓爬网站附该爬虫的IP地址网段

OPENAI 利用自己的网络爬虫在互联网上抓取信息，这些信息经过分类整理后，用来继续训练GPT系列模型。

当然可能会有网站和出版商觉得OPENAI这是在白嫖自己，所以OPENAI公布爬虫和 IP 地址网段供网站屏蔽。

这个爬虫遵守网站提供的robots.txt协议 , 网站和出版商不想被OPENAI抓取内容即可按照提示进行屏蔽操作。

OPENAI提供的说明：

OPENAI使用GPTBot用户代理抓取的网页可能用于改进未来的模型，同时会过滤掉某些付费才能访问的内容。

另外：基于OPENAI的政策，如果网页中包含个人身份信息或其他违规内容，则GPTBot也会删除这部分网页。

允许GPTBot访问您的站点可帮助 AI 模型变得更加准确并提高其总体功能和安全性，但也允许网站屏蔽抓取。

以下是爬虫信息和屏蔽方法：

爬虫名称：GPTBot 该爬虫使用的网段为40.83.2.64/28 你可以使用nslookup命令来判断GPTBot爬虫真假。

# 以下是爬虫的完整UA信息
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

如果想禁止GPTBot抓爬你的内容，你可以在robots.txt中写入指令，爬虫检测到该指令后会按照指令要求操作。

# 完全禁止GPTBot抓取内容
User-agent: GPTBot
Disallow: /

# 完全允许GPTBot抓取内容(不禁止即默认允许、所以下面的非必须)
User-agent: GPTBot
Allow: /

# 完全允许的另一种作用：当禁止其他所有爬虫但允许 GPTBot 时则必须声明以下内容
# 禁止所有爬虫但仅允许 GPTBot
User-agent: *
Disallow: /
User-agent: GPTBot
Allow: /

# 允许GPTBot抓取特定内容
User-agent: GPTBot
Disallow: /
Allow: /路径1/...
Allow: /路径2/...

查看GPTBot的抓爬记录：

OPENAI毕竟不是传统的搜索引擎提供商，所以并没有站长平台 , OPENAI不提供爬虫的抓爬频次等相关设置。

网站管理员可以搜索自己的网站日志检查GPTBot的抓爬记录，打开网站日志后搜索GPTBot关键词即可查看。

如果您发现该资源为电子书等存在侵权的资源或对该资源描述不正确等，可点击“私信”按钮向作者进行反馈；如作者无回复可进行平台仲裁，我们会在第一时间进行处理！

评价 0 条

相关资源

爬虫 (七) 必须掌握的基础概念 (四) 2023-12-28 16724 浏览
爬虫必须掌握的基础概念 (四)
爬虫 (十) 学习 python 基础知识点的正确姿势 (三) 2023-12-28 18422 浏览
我会以比较学习的方式，主要拿Python和我之前学习的javascript进行比较，拿学习javascript的学习经历来迁移到学习Python，如果你在此之前有一门编程思维，那么你可以这么做，如果没有的话，也不用担心，跟着我一步一步来，不要急，当然，我的这个教程也不是那么全面，还是要自己花时间，精力去专研的，想成为什么人，就得在某个地方使劲，往对的地方使劲，读不懂的，可以使劲读完，然后反复读，进而读得更懂，今天我们换种方式来学习 python
爬虫 (八) 学习 python 基础知识点的正确姿势 (一) 2023-12-28 18248 浏览
我会以比较学习的方式，主要拿Python和我之前学习的javascript进行比较，拿学习javascript的学习经历来迁移到学习Python，如果你在此之前有一门编程思维，那么你可以这么做，如果没有的话，也不用担心，跟着我一步一步来，不要急，当然，我的这个教程也不是那么全面，还是要自己花时间，精力去专研的，想成为什么人，就得在某个地方使劲，往对的地方使劲，读不懂的，可以使劲读完，然后反复读，进而读得更懂
爬虫 (六) 必须掌握的基础概念 (三) 2023-12-28 17008 浏览
爬虫必须掌握的基础概念 (三)
爬虫 (九) 学习 python 基础知识点的正确姿势 (二) 2023-12-28 19203 浏览
我会以比较学习的方式，主要拿Python和我之前学习的javascript进行比较，拿学习javascript的学习经历来迁移到学习Python，如果你在此之前有一门编程思维，那么你可以这么做，如果没有的话，也不用担心，跟着我一步一步来，不要急，当然，我的这个教程也不是那么全面，还是要自己花时间，精力去专研的，想成为什么人，就得在某个地方使劲，往对的地方使劲，读不懂的，可以使劲读完，然后反复读，进而读得更懂
爬虫 (五) 必须掌握的基础概念 (二) 2023-12-28 20631 浏览
爬虫必须掌握的基础概念 (二)
爬虫 (四) 必须掌握的基础概念 (一) 2023-12-28 19838 浏览
在准备工作做好之后，我们就要开始学习爬虫的各种知识了
爬虫 (一) 神器准备篇 2023-12-28 18756 浏览
爬虫中我们用到的主要就是anaconda
爬虫 (二) 神器准备篇 2023-12-28 18801 浏览
昨天已经讲解过了 python 界的第一大神器，就是 anaconda3，今天，我们再来介绍一下另一个神器，那就是 pyCharm，写正式代码需要的神器，今天我就带着大家一步一步的安装这个 pyCharm 编辑器
爬虫 (三) anaconda3 入门 2023-12-28 18761 浏览
我们知道安装 anaconda3 之后会出现一下几个东东，我们来简单的了解下 1. Anaconda Navigtor ：用于管理工具包和环境的图形用户界面，后续涉及的众多管理命令也可以在 Navigator 中手工实现 2. Jupyter notebook ：基于web的交互式计算环境，可以编辑易于人们阅读的文档，用于展示数据分析的过程 3. spyder ：一个使用Python语言、跨平台的、科学运算集成开发环境 4. qtconsole ：一个可执行 IPython 的仿终端图形界面程序，相比 Python Shell 界面，qtconsole 可以直接显示代码生成的图形，实现多行代码输入执行，以及内置许多有用的功能和函数

如何禁止OPENAI的爬虫(GPTBot)抓爬网站 附该爬虫的IP地址网段

相关资源

如何禁止OPENAI的爬虫(GPTBot)抓爬网站附该爬虫的IP地址网段