嘟嘟社区

Cloudflare为免费用户推出AI爬虫防护功能 可自动识别和阻止...


被网友戏称为赛博菩萨的 CloudFlare 日前为所有免费用户推出了 AI 爬虫防护设置,该功能其实以前就有但需要按照规则进行设置,而规则功能则需要开通 CloudFlare Pro 等订阅计划才能使用。

新推出的 AI 爬虫防护 (AI Scrapers and Crawlers) 则是面向所有用户推出的一键设置,无论是免费还是订阅用户,只需要一键开启该选项后即可。

CloudFlare 称开启此选项后将会阻止机器人和爬虫抓取网站内容用于训练人工智能模型,这可以避免某些人工智能公司未经授权直接抓取网站内容。

背后的运作原理暂时还不清楚,不过大概率是 CloudFlare 已经整理并识别常见的 AI 爬虫例如 OpenAI 的 GPTBot,只要根据这些爬虫的名称进行拦截即可。

CloudFlare 为数以百万计的网站提供安全防护和分发服务,因此这项功能也确实有实际意义,毕竟有不少网站尤其是新闻媒体类的网站都是版权保护的。

只不过问题在于爬虫识别本身也是防君子不防小人,像 OpenAI 这样公布自己的爬虫名称并表示会遵守 robots.txt 协议还好处理,问题是很多公司压根不遵守协议也不公布自己的爬虫名称,疯狂抓爬网站获取内容。

这种情况下想要拦截就需要想一些对策了,比如对于高频抓爬的 UA 直接封禁,开启 CloudFlare 的真人验证等功能,防止各种爬虫绕过 CloudFlare 的 AI 爬虫防护。

如何开启此功能:CloudFlare、控制台、转到对应网站、安全性、自动程序,开启 AI Scrapers and Crawlers 即可。