尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

102302142罗伟钊第一次作业

102302142罗伟钊第一次作业
📅 发布时间:2026/6/19 20:23:13

1. 作业①:
**1)、核心代码与输出 **
o 要求:用requests和BeautifulSoup库方法定向爬取给定网址(http://www.shanghairanking.cn/rankings/bcur/2020 )的数据,屏幕打印爬取的大学排名信息。
图片
代码是一个大学排名数据爬虫,主要思路是通过网络请求获取软科2020年中国大学排名页面,然后使用BeautifulSoup解析HTML内容,提取出各个大学的排名、名称、所在省市、学校类型和总分等信息。程序将提取的数据进行整合,最后以整齐的表格形式在控制台输出展示。
图片
通过F12审查元素,再通过标签匹配相关的属性
图片
图片
排名与校名有着独特的标签

1
、清华大学
剩下所在省市、学校类型和总分标签完全一致,通过具体'td'标签的位置进行提取
图片
2)心得体会:
从使用requests库发送请求获取网页源码,到利用BeautifulSoup解析复杂的HTML结构并精准提取排名、校名、总分等字段,最后将数据清晰规整地输出。这个过程让我认识到,细致的标签定位和必要的数据清洗对保证数据质量至关重要。

2. 作业②:
1)、核心代码与输出
o 要求:用requests和re库方法设计某个商城(自已选择)商品比价定向爬虫,爬取该商城,以关键词“书包”搜索页面的数据,爬取商品名称和价格。
图片
如上图,爬的是当当网,其网址的url较为规整,为https://search.dangdang.com/?key=%CA%E9%B0%FC&act=input&page_index=i,易于爬取
图片
但值得注意的是网站的商品名对应标签是'gbk'形式的,一开始用'utf-8'显示乱码
输出结果如下:
图片
2)心得体会:
在处理商品数据时,我意识到数据清洗的重要性。每个商品的名称和价格信息都需要精确提取,稍有偏差就会导致结果不准确。特别是在中文字符编码方面,正确设置gbk编码确保了商品名称的正常显示。

3.作业③
1)、核心代码与输出
o 要求:爬取一个给定网页(https://news.fzu.edu.cn/yxfd.htm)或者自选网页的所有JPEG、JPG或PNG格式图片文件
在该题中,我爬取的是福大的新闻网的数据,爬取图片不仅限与主栏中的图片,还包含有侧栏等的,诸如校徽的logo,重复出现的不再存,只要是属于(jpg|jpeg|png|gif|bmp|webp|svg)中的一种,当然,大部分都是jpg与png格式的图片,其中dif存在3张。
图片
图片
如上图,该题与上题略有不同的是需要生成文件名对图片进行存储。
2)心得体会:
****通过完成这个福州大学新闻图片爬虫项目,我深刻体会到编写一个稳健的爬虫程序需要考虑诸多细节。在实现过程中,URL去重和文件去重机制让我意识到数据完整性的重要性,避免了重复下载造成的资源浪费。使用正则表达式提取图片链接虽然比HTML解析器更复杂,但让我对字符串匹配和模式识别有了更深的理解。

相关新闻

  • 一个基于 .NET 开源、功能强大的分布式微服务开发框架
  • UE4学习笔记
  • 关于2025年暑假自主巡航小车脚本文件的学习笔记

最新新闻

  • 寄大件怎么省钱?2026快递比价全攻略 - 快递物流资讯
  • 白山市奢侈品手表包包回收门店推荐,这5家口碑店回收价格整理 - 谊识预商贸
  • Windows x64下ONNX Runtime 1.18.0 C++ CPU推理开发包(含头文件、静态/动态库及调试符号)
  • 学校比赛用什么微信投票工具?免费好用平台汇总 - 微信投票小程序
  • 郴州市奢侈品回收门店红黑榜:综合实力最强的五家店铺推荐 - 谊识预商贸
  • 7月1日超龄用工新规落地,企业劳动合同管理必须跨过这道合规关

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号