当前位置: 首页 > news >正文

反爬虫监控

1.背景

最近导师交给我一个任务,要我做一个反爬虫的监控,因此首先了解爬虫反爬虫。

什么是爬虫?简单来说就是利用程序假装用户访问我们的网站接口。

爬虫对我们有什么坏处?首先最基本的高频的爬虫会导致我们数据库压力暴涨,接口qps升高,正常用户访问变慢,也就是爬虫在白用我们的服务器,其次高频的爬虫会影响我们的决策数据,试想公司的数仓全部都是无意义的爬虫数据,根本无法做业务决策,更重要的是,我们网站的核心数据或者自己做好清洗的数据被爬,这些属于业务资产,决不能被白嫖。

如何反爬?反爬思路很多,总体上可以这样理解:通过行为识别出爬虫和用户,实施相应策略做对应处理,最后还需要复盘+迭代。

2.设计

反爬的重点不是如何拦住爬虫,而是如何识别爬虫。

针对如何识别,我们的重点应该是判断行为是否像正常用户,我们可以先设计最基础的条件,每小时或每天接口的访问次数大于设定阈值,我们识别为爬虫,这种设计一般只能防止一次性大量爬虫,除此之外还需要设计一些特殊规则,比如针对有些爬虫每小时都持续爬数据,我们可以识别为爬虫,或者有些接口是一起调用的,但是爬虫会只爬一个接口,我们也可以标记为爬虫。

针对识别后的处理,我们遵循的规则是宁可放过不可错杀,最好不要影响正常用户的体验,因此初期设计的阈值都明显不是正常用户的次数,其次我们还应该设计多级阈值,比如疑似阈值,封号阈值,对不同的疑爬虫做筛选,不同程度处理。

针对处理完的复盘迭代,我们应该记录每次监控日志,并接入oss,将excel存入服务器定时分析改变阈值大小或者处理力度,其次接入钉钉机器人,出现异常迅速报警可以快速处理。

3.代码逻辑

做好设计进入代码编写,这里因为初期接口太多不好处理,第一版首先挑选120个接口分好模块,建表存储接口信息,这样后续可以直接从数据库中查询实时变更的接口列表,提取每个模块下的接口列表用来动态构建sql查询数据仓库,查出来的uid就是访问次数超过阈值的uid,可以做后续日志记录和报警,这是小时级阈值判断流程。

其余是针对很多特殊规则的实现,不过大部分都是sql中做好查询即可。

4.复盘和迭代

测试sql没有问题之后还需要做好复盘和迭代,因为反爬监控不是一朝一夕工程,因此每次输出的日志应该记录下来作为参考,并且可以每天生成excel文件作为决策基础,每天根据excel的数据做封号以及阈值调整。

http://www.rkmt.cn/news/117080.html

相关文章:

  • 键盘输入可视化神器:让你的按键操作不再“隐形“
  • 分布式监控终极指南:从业务场景出发的技术选型方法论
  • 开启“全无人测试”,特斯拉创历史新高!
  • 探索EBWO:混合改进的白鲸优化算法
  • 2003-2024年上市公司人工智能采纳程度数据+Stata代码
  • 如何解决管家婆软件登录提示“用户null登录失败配置文件打开错误”的问题
  • 【更新至2026年新版本】超详细PyCharm安装教程及基本使用!
  • 终极指南:3步搭建高性能饥荒服务器,告别卡顿困扰
  • 基于CodeT5+AST_diff的企业级代码重构系统:从屎山到微服务的production实践
  • Android开发圣经
  • 智能无人机开发技术实战:构建云端一体化应用新范式
  • 必看!2026年EOR名义雇主服务品牌排行榜:助力企业国际化的最佳选择
  • 揭秘Docker环境下LangGraph Agent扩展原理:3步实现智能体无缝集成
  • 快速上手Forge.js:JavaScript加密与TLS通信的终极指南
  • 彻底解决 Monaco Editor 导入混乱问题:从原理到实践的终极指南
  • 固体氧化物燃料电池(SOFC)模型及COMSOL电池仿真计算
  • 你打的每一单滴滴,背后都有一个“Agent”在指挥!万字长文拆解其智能调度核心!
  • 【Python零基础到进阶】字面量、变量、字符串和数字输入与输出,注释
  • 基于VUE的企业协同管理系统 [VUE]-计算机毕业设计源码+LW文档
  • AutoGen到Microsoft Agent Framework终极迁移指南:从零开始构建现代化AI代理系统
  • 基于S7-1200的食堂饮用水水质净化控制系统设计
  • MindSpore框架下LSUN数据集高效处理实战指南
  • GLAD:带有反射壁的空心波导
  • FastDepth终极指南:嵌入式实时单目深度估计完整教程
  • 万字长文!AI Agent九大设计模式全景图(上),从ReAct到协作,收藏这篇就够了!
  • 全国铁路货运营业站示意图:专业货运规划终极指南
  • 重新定义终端边界:现代开发效率的探索之旅
  • StarRocks索引技术终极指南:从毫秒响应到百亿数据的高效查询
  • 警惕!中科院1区TOP(IF9.8)或被SCI剔除
  • CLIP-ReID初尝试