当前位置: 首页 > news >正文

通过DrissionPage爬取某获客平台内容

前言最近想用自己之前写的脚本看看市场行情结果发现代码竟然跑不通了仔细一查发现拓客吧做了三个改动反爬检测打开开发者工具就进入无限循环或者整个网页闪退关闭分页机制取消以前通过page 参数翻页的方式失效了。薪资数据加密搜索结果页的薪资数字变成了乱码用字体加密的方式防止直接采集。不过我发现虽然搜索结果页加密了但每个详情页里的薪资还是明文的基于这个发现我的主要调整思路是临时禁用JavaScript让页面以纯静态形式加载。适配新的页面加载方式改为滚动加载职位信息。无视搜索结果页的薪资加密直接解析详情页。缺点由于是通过自动化的方式采集数据效率比较一般优点稳定不容易触发反爬试了五个关键词采集也就是1500个详情页解析个人的话应该够用我把脚本整理了一下发出来供有类似需求的朋友参考。欢迎交流1.cookie处理脚本打开浏览器后打开登录界面扫码登录等待脚本保存cookiedef get_cookie(self, urlhttps://www.tuokeba.com, timeout30): 获取Cookie手动登录 logger.info(请打开登录窗口扫码登录您的个人账号...) self.page.get(url) time.sleep(timeout) # 等待手动登录 cookies self.page.cookies() self.file_manager.save_json(cookies, self.config.cookie_file) logger.info(fCookie已保存到{self.config.cookie_file}) def load_cookie(self) - bool: 加载Cookie if not os.path.exists(self.config.cookie_file): logger.warning(fCookie文件不存在: {self.config.cookie_file}) return False logger.info(开始加载Cookie) self.page.get(https://www.tuokeba.com) time.sleep(2) cookies self.file_manager.load_json(self.config.cookie_file) for cookie in cookies: self.page.set.cookies(cookie) self.page.refresh() time.sleep(2) logger.info(Cookie加载完成) # 保存首页HTML if self.config.save_html_debug: self.file_manager.save_html(self.page.html, 01_首页_加载Cookie后) return True2.首页处理2.1 前置步骤绕过反爬检测仅调试时勾选注正常访问网站时发生异常比如一直在空白页加载可能是这个禁用js的选项没有取消勾选取消勾选后再刷新网站即可正常访问由于目标网站设置了严格的反爬虫机制直接按F12进入开发者工具网站会闪退。我们可以通过临时禁用浏览器JavaScript来绕过大部分检测让页面以纯静态形式加载这个模式下我们可以随意定位元素。操作步骤打开浏览器按F12进入开发者工具点击右上角的齿轮图标⚙进入设置向下找到Debugger调试器部分勾选Disable JavaScript禁用JavaScript图示
http://www.rkmt.cn/news/1296785.html

相关文章:

  • 初创团队如何利用Taotoken以最小成本启动AI产品开发
  • 选对GEO监测优化系统,品牌AI推荐率提升5倍:五款主流平台对比 - 新闻快传
  • YOLOv5/v7改进系列——融合EfficientNetV2主干网络的轻量化部署实践
  • 三步搞定Windows磁盘空间不足:WinDirStat终极清理方案
  • CST软件利用电流钳(current probe)测试实现以太网口的RE仿真
  • 永久免费无套路!网慕安 ERMS-Agent,重新定义中小企业安全新标准
  • 12000㎡智造基地,赋能服装工厂自动化务实升级
  • 别再只用普通GCN了!手把手教你用CompGCN搞定知识图谱链接预测(附PyTorch代码)
  • 充电桩串口屏选型与开发实战:基于大彩屏的HMI设计指南
  • Linux内核模块化驱动开发:从框架原理到嵌入式实战
  • C++、汇编与易语言:三大编程语言深度对比
  • 探索OpenBoardView:硬件工程师的PCB分析利器
  • imgaug实战:从基础图像增强到关键点与边界框的完整数据流水线
  • 3步免Root解锁手机区域限制:Nrfr终极配置指南
  • AI Agent Harness Engineering 在法律行业的应用前景
  • T2080工控主板开发实战:从核心特性到系统部署全解析
  • 2026届毕业生推荐的五大AI辅助论文方案解析与推荐
  • QLC SSD可靠性提升:LDPC软判决与智能固件如何实现低开销加固
  • 开源商业技能知识库:结构化沉淀实战方法论
  • 告别环境配置噩梦:手把手教你用Anaconda在Win10上搞定MPE与MADDPG(附版本避坑清单)
  • Taotoken 用量看板如何帮助开发者清晰掌控 API 成本
  • Step-by-Step知识蒸馏:让小模型学会大模型的推理思维
  • Awesome-Harness-Engineering:从资源聚合到工程化治理的实践范式
  • KUKA机器人FSoE安全地址丢了别慌!手把手教你用WorkVisual手动找回(附KRC4标准柜地址表)
  • 模型逆向攻击(MIA)实战剖析:从原理到攻防演进
  • 保姆级教程:在Spring Boot项目里正确配置Hutool和BouncyCastle搞定SM4国密加密
  • 缠论分析不再难:ChanlunX通达信插件让复杂技术分析变简单
  • HTTPCanary Magisk模块:突破Android HTTPS抓包限制的完整解决方案
  • BEAGLE库:系统发育分析的计算加速利器终极指南
  • 明日方舟MAA自动化助手终极指南:一键解放你的游戏时间