尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

Cloudflare新规:屏蔽AI爬虫、按价值收费,内容权益分配变局将至?

Cloudflare新规:屏蔽AI爬虫、按价值收费,内容权益分配变局将至?
📅 发布时间:2026/7/5 22:51:10

Cloudflare官宣屏蔽AI爬虫新规

7月1日,Cloudflare发了一篇标题为「你的网站,你的规则」的博客。不过内容可不温和,从9月15日起,所有使用Cloudflare的网站,默认屏蔽混合用途的AI爬虫。只要页面上有广告,AI的训练爬虫和Agent爬虫就无法进入,除非手动去后台打开。这里逻辑翻转了,以前是「默认允许,你可以选择屏蔽」,现在是「默认屏蔽,你可以选择允许」。这可是互联网基础设施层首次对AI数据获取方式进行系统性「立法」。做出此决定的背景是一个标志性事件,互联网上的bot流量已超过人类流量。Cloudflare CEO Matthew Prince称,这个里程碑比预期来得早,原本预计要到2027年才会发生。也就是说,如今打开的大多数网页,主要「看」它们的是机器。而规范来自AI的流量,既可能决定所有网站的未来,也关乎网络守门人Cloudflare自身的发展轨迹。

最严厉的「爬虫政策」

据官方介绍,Cloudflare把AI爬虫拆成了三类。第一类是「Search」,即给搜索服务建索引的传统爬虫,像Google做了二十多年的那种。第二类是「Agent」,是实时代用户访问网页的AI代理,比如让ChatGPT查信息、填表单,背后就有Agent爬虫帮忙。第三类是「Training」,是大规模抓取内容用于模型训练的爬虫。这三类分开标注,网站主能分别对每类设置「允许」或「屏蔽」。想让搜索引擎找到网站?可以。想让AI代理帮用户查信息?也行。但不想让AI公司白用内容训练模型?那就单独关掉Training。这个分类可直戳Google的痛点。Google的Googlebot是典型的「混合爬虫」,它既为Google搜索建索引,也为Google的AI功能(如AI Overviews)采集数据。Google虽提供了叫Google - Extended的工具,允许网站选退AI训练,但核心爬虫Googlebot仍会为搜索引擎内置的AI功能收集数据。搜索和AI的数据需求,在Google的架构里并未真正分开。这意味着什么呢?Cloudflare的数据显示,因为网站想在Google搜索中可见,就得让Googlebot进来,而它进来后,AI训练的数据也就被拿走了。Google因此获得了约两倍于其他AI公司的网页内容访问量。另外,Cloudflare还加了「最严规则优先」原则。如果一个爬虫同时执行搜索和训练功能,所有适用规则会同时生效,按最严格的来。也就是说,只要选择屏蔽Training爬虫,Googlebot、Applebot、BingBot等混合爬虫都会被屏蔽。这是在砍「捆绑」,即想被搜索到,就得接受被AI训练。Cloudflare认为这种捆绑不公平,必须拆开。一组数据能说明旧「社会契约」崩坏程度。Cloudflare公布的各家AI公司爬取与回流比显示,Google约是14:1,即每爬取14个页面,回流1次点击;OpenAI是1,700:1;Anthropic是73,000:1。搜索引擎时代是「我爬你的内容,你得到流量」,在AI时代,这笔账算不过来了。

从「保安」到「收银员」

要是Cloudflare只是帮网站主挡住AI爬虫,那意义就局限于「防御」,但它显然不满足于此。去年7月,Cloudflare推出「Pay Per Crawl」,按爬取次数向AI公司收费。今年,又将模式升级为「Pay Per Use」。区别在于,不再是爬虫来一次收一次钱,而是内容在AI系统中真正产生价值,用于生成回答、出现在AI搜索结果里,用户才能收钱。从「按次收费」到「按价值收费」,这转变野心不小,意味着Cloudflare想建立的不是墙,而是市场。目前初始合作伙伴是两家AI搜索公司Ceramic.ai和You.com。出版商加入后,内容出现在Ceramic的AI搜索结果中,或被You.com的Agent访问时,会收到付款。大出版商纷纷支持,Condé Nast的CEO称这是「游戏规则的改变」,Reddit的联合创始人说「整个生态系统都会受益」。不过,有个不太完美的细节。今年3月,Cloudflare自己发布了一个爬虫API,输入URL能一次性抓取整个网站,返回HTML、Markdown或结构化JSON。这让一些出版商不安,那个一直帮忙挡爬虫的公司,自己却造了一个爬虫。更尴尬的是,有出版商尝试屏蔽Cloudflare自己的爬虫时,设置不生效。虽然后来Cloudflare修复了问题,但网上评论传开了:「我们保护网站不被爬虫抓取……除非是我们自己的爬虫。」Cloudflare解释称,其爬虫是「合规爬虫」,会尊重robots.txt,遵守自己的AI Crawl Control规则。若站长选择屏蔽AI爬虫,Cloudflare自己的爬虫也会被挡在门外。用一位开发者的话说,这是「两边下注所以永远赢」的策略。这就引出一个根本问题:Cloudflare到底是中立的基础设施裁判,还是新型中间商?答案可能是后者。它同时扮演着规则制定者(定义三类爬虫)、规则执行者(在基础设施层拦截爬虫)和市场参与者(运营自己的爬虫和内容交易平台)三个角色。这不是说它做的事没价值,把AI爬虫从「无序掠夺」拉入「明确分类、需要许可」的框架,是个进步。但把它当成内容创作者的「救世主」,就太天真了。它构建的是以自己为枢纽的「AI内容税收站」。

普通人能分到蛋糕吗?

这或许是整件事中最让人冷静的部分。站出来支持Cloudflare的,如Condé Nast、Dotdash Meredith、Reddit等,都是大型出版商和平台。它们有内容规模、法务团队和谈判筹码,即便没有Cloudflare,也能和AI公司签许可协议,事实上,过去一年全球已签超50份内容许可大单。对它们来说,Cloudflare只是多了个工具,并非唯一出路。但个人博主、在WordPress上写技术教程的独立开发者、用公众号写深度分析的自媒体人呢?理论上,Cloudflare的基础设施能让小内容主不用逐一跟每家AI公司谈判,就能设定权限和获得补偿。但关键是「理论上」三个字。「Pay Per Use」到现在只有Ceramic.ai和You.com两个合作伙伴,都是小玩家。OpenAI、Google、Anthropic这些大规模消耗内容的公司都没参与。而且还有现实矛盾,对小创作者来说,曝光是最稀缺的资源,屏蔽AI爬虫可能减少被发现的机会。大媒体屏蔽爬虫,Google搜索还是会收录;小博客屏蔽爬虫,可能就消失在互联网噪音里了。有组数据更让人清醒,AI聊天机器人带来的引荐流量比传统搜索少约96%,用户在AI回答中点击引用来源的概率只有约1%,出版商过去一年因AI搜索功能损失了20% - 90%不等的流量和收入。一项研究发现,Google的AI Overviews让外链点击量下降了约40%。这意味着,即便「Pay Per Use」全面铺开,付费规模可能也远不足以弥补出版商已损失的广告收入。这不是变局,更像是止损,而且未必能止住。Cloudflare报告称,超50%的AI爬虫流量花在重复抓取未更新的页面上。解决这种低效有价值,但解决效率问题和让创作者真正赚钱是两码事。

「菩萨」也有自己的庙

Cloudflare向来被用户赞为「赛博菩萨」,因为它确实做了有价值的事,把AI时代的数据掠夺从暗处拉到明处,逼AI公司说清「要数据干什么」。在bot流量超人类流量的互联网上,有人站出来喊「规矩不能这么没有」,值得肯定。但「菩萨」也有自己的考量。Cloudflare管理着全球约20%的网络流量,这数字说大不大。另外80%的网站不在其保护范围内,AI公司完全可以把数据采集重心转向非Cloudflare站点。Google和Apple的爬虫已提供形式上的选退工具,可能借此绕过Cloudflare的拦截。英国竞争与市场管理局(CMA)正从监管角度向Google施压,要求其让出版商在不影响搜索排名的前提下退出AI训练。一个基础设施公司的政策,不会让内容权益的重新分配尘埃落定。但它揭示了深层趋势,互联网的「收费站」正从搜索引擎转移到基础设施层。过去二十年,Google决定谁能被看见,现在Cloudflare想在更底层拦一道,要求过路者说清目的,按规矩来。收费站变了,但收费的人,未必变了。

相关新闻

  • YOLO26目标检测框架:架构演进与实战应用
  • MySQL 8.0 多表查询实战:学生-课程-成绩-教师4表12个经典业务场景解析
  • AI项目筛选与技能安全实践:从GitHub热门到高效工作流

最新新闻

  • Docker化邮件中继服务架构设计与容器化部署最佳实践
  • OpenCV 4.8 MOG2 实战:3个关键参数调优与阴影检测性能对比
  • 当古代名医遇见AI:如何用仲景中医大语言模型开启智慧医疗新纪元?
  • Linux中断下半部机制的工程选择:从tasklet到workqueue的性能权衡
  • ComfyUI节点式AI图像生成工具入门与优化指南
  • 网络安全认证全解析:从入门到进阶,如何选择适合你的证书?

日新闻

  • AI智能体安全防护框架AgentGuard:从原理到实战部署指南
  • KMX63与PIC18F26K40硬件组合及低功耗设计实践
  • 基于YOLO13改进的门体检测模型:C3k2模块与PoolingFormer技术解析

周新闻

  • 基于YOLOv12的番茄成熟度智能检测系统开发
  • 终极RimWorld模组管理指南:用RimSort告别模组冲突烦恼
  • AI Agent框架开发:从理论到实践的完整指南

月新闻

  • 2026年6月公司网站搭建最新热门渠道测评:四大低成本/零代码平台对比+避坑
  • 【Linux】Linux arm 编译QT程序,出现expected “}“报错
  • 【MATLAB例程】四基站二维AOA定位与距离辅助增强对比仿真。基于角度观测和测距修正的固定目标平面定位精度分析

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号