尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

102302122许志安作业1

102302122许志安作业1
📅 发布时间:2026/6/26 20:22:45

作业1

(1)爬取大学排名信息实验

import requests
from bs4 import BeautifulSoupurl = "http://www.shanghairanking.cn/rankings/bcur/2020"res = requests.get(url)
res.encoding = 'utf-8' soup = BeautifulSoup(res.text, "html.parser")
rows = soup.select("tbody tr")print("排名\t学校名称\t省市\t学校类型\t总分")for row in rows:cols = row.find_all("td")rank = cols[0].text.strip()name = cols[1].text.strip().split('\n')[0] province = cols[2].text.strip()type_ = cols[3].text.strip()score = cols[4].text.strip()print(f"{rank}\t{name}\t{province}\t{type_}\t{score}")

![屏幕截图 2025-10-26 122906](C:\Users\ASUS\Pictures\Screenshots\屏幕截图 2025-10-26 122906.png)

![屏幕截图 2025-10-26 115317](C:\Users\ASUS\Pictures\Screenshots\屏幕截图 2025-10-26 115317.png)

(2)心得体会

该实验核心在于:找到所指向数据在文本页下对应的表格位置,提取表格数据并遍历每行排版输出,考验了我们对requests , BeautifulSoup的使用。

作业2

(1)爬取商品名称和价格实验

import urllib3, reurl = "https://search.bl.com/k-%25E4%25B9%25A6%25E5%258C%2585.html"
html = urllib3.PoolManager().request("GET", url).data.decode("utf-8", "ignore")names = re.findall(r'<div class="pro-img">.*?<img[^>]+(?:alt|title)="(.*?)"', html, re.S)
prices = re.findall(r'<div class="pro-money">.*?<div class="money-fl">¥\s*([\d\.]+)</div>', html, re.S)for n, p in zip(names, prices):print(f"商品名: {n.strip()} | 价格: ¥{p.strip()}")

![屏幕截图 2025-10-26 112707](C:\Users\ASUS\Pictures\Screenshots\屏幕截图 2025-10-26 112707.png)

![屏幕截图 2025-10-26 115527](C:\Users\ASUS\Pictures\Screenshots\屏幕截图 2025-10-26 115527.png)

(2)心得体会

本次实验的核心在于:写出正确的正则表达式从网页源代码中提取商品名称和价格,考验了我们书写正则表达式的能力。

作业3

(1)爬取并下载图片实验

import urllib.request, re, oshtml = urllib.request.urlopen("https://news.fzu.edu.cn/yxfd.htm").read().decode("utf-8")
urls = re.findall(r'src=["\']/?(__local/.*?\.(?:jpe?g|png))["\']', html, re.I)[:9]if not urls: exit("未匹配到任何图片链接")
print(f"共找到 {len(urls)} 张图片,准备下载")os.makedirs("images", exist_ok=True)
for i, u in enumerate(urls, 1):full = "https://news.fzu.edu.cn/" + u.lstrip("/")path = f"images/img_{i}{os.path.splitext(full)[1]}"print(f"下载第 {i} 张: {full} -> {path}")try: urllib.request.urlretrieve(full, path)except Exception as e: print("下载失败:", e)print("下载完成!图片已保存在 ./images 文件夹中")

![屏幕截图 2025-10-26 123301](C:\Users\ASUS\Pictures\Screenshots\屏幕截图 2025-10-26 123301.png)

![屏幕截图 2025-10-26 115657](C:\Users\ASUS\Pictures\Screenshots\屏幕截图 2025-10-26 115657.png)

(2)心得体会

该实验的核心同样是使用正确的正则表达式匹配对应网页图片链接,其中有许多多余图片,要能匹配到关键,写出合适的正则表达式,并下载图片,考验我们的书写应变能力。

相关新闻

  • ARC201B Binary Knapsack
  • LDC
  • 完整教程:由JoyAgent观察AI Agent 发展

最新新闻

  • 天星账号保管箱:超越密码管理的数字安全中枢
  • 3个技巧让你轻松掌握DLSS版本管理:为什么说DLSS Swapper是游戏画质优化的智能助手?
  • 如何快速解决MediaPipe-TouchDesigner摄像头连接故障:5种实用方案
  • 2026越南华商ERP进销存选型避坑指南|跨境批发零售、门店收银数字化实操攻略
  • vs code报错修改
  • AI智能DDoS防护:从行为分析到实战部署

日新闻

  • Qwen2.5-Turbo百万上下文实战指南:百炼平台长文本处理全解析
  • 怎么监控对标账号更新,2026年作者监控工作流,5款深度对比
  • EdgeRemover:专业级Windows Edge浏览器管理工具,彻底解决顽固软件卸载难题

周新闻

  • Visual C++运行库修复终极指南:5分钟快速解决Windows软件启动错误
  • 手把手教你构建统计局地区经济数据爬虫:从环境搭建到数据持久化全指南
  • 2026多Agent深度解析:用AI团队替代单一模型,四种架构实战落地

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号