当前位置: 首页 > news >正文

人工智能之编程进阶 Python高级:第六章 文件类模块

人工智能之编程进阶 Python高级

第六章 文件类模块


@

目录
  • 人工智能之编程进阶 Python高级
  • 前言
  • 一、csv 模块:读写 CSV 文件
    • 1. 写入 CSV
    • 2. 读取 CSV
  • 二、json 模块:处理 JSON 数据
    • 1. 基本用法
    • 2. 读写文件
  • 三、xml 处理:使用 xml.etree.ElementTree
    • 1. 解析 XML(从字符串或文件)
    • 2. 构建 XML
  • 四、io.StringIO / io.BytesIO:内存中的文件模拟
    • 1. StringIO(文本)
    • 2. BytesIO(二进制)
  • 五、pickle 模块:Python 对象序列化
    • 1. 基本用法
    • 2. 序列化到内存
  • 六、with 语句:上下文管理器(Context Manager)
    • 1. 文件操作(最常见)
    • 2. 支持多个资源
    • 3. 自定义上下文管理器
  • 七、模块对比与选型建议
  • 八、总结
  • 资料关注


前言

本文主要介绍和文件相关的模块,包括文件类型csv、json、xml,文件模拟在内存中创建的StringIO,数据的序列化与反序列化,以及最常见的上下文管理器with。


一、csv 模块:读写 CSV 文件

用于处理逗号分隔值(Comma-Separated Values) 文件,常用于表格数据导入导出。

1. 写入 CSV

import csv# 写入列表数据
with open('data.csv', 'w', newline='', encoding='utf-8') as f:writer = csv.writer(f)writer.writerow(['Name', 'Age', 'City'])        # 表头writer.writerow(['Alice', 30, 'New York'])writer.writerows([['Bob', 25, 'London'], ['Charlie', 35, 'Tokyo']])# 写入字典数据(推荐)
with open('data_dict.csv', 'w', newline='', encoding='utf-8') as f:fieldnames = ['Name', 'Age', 'City']writer = csv.DictWriter(f, fieldnames=fieldnames)writer.writeheader()writer.writerow({'Name': 'Alice', 'Age': 30, 'City': 'New York'})

2. 读取 CSV

# 读取为列表
with open('data.csv', 'r', encoding='utf-8') as f:reader = csv.reader(f)for row in reader:print(row)  # ['Alice', '30', 'New York']# 读取为字典(推荐)
with open('data_dict.csv', 'r', encoding='utf-8') as f:reader = csv.DictReader(f)for row in reader:print(row['Name'], row['Age'])  # Alice 30

✅ ​注意​:

  • 使用 newline='' 避免空行(Windows)
  • 指定 encoding='utf-8' 防止中文乱码

二、json 模块:处理 JSON 数据

用于​序列化/反序列化 JSON​(JavaScript Object Notation),是 Web API 和配置文件的通用格式。

1. 基本用法

import jsondata = {"name": "Alice","age": 30,"hobbies": ["reading", "coding"],"active": True,"balance": None
}# 序列化:Python → JSON 字符串
json_str = json.dumps(data, ensure_ascii=False, indent=2)
print(json_str)# 反序列化:JSON 字符串 → Python
parsed = json.loads(json_str)
print(parsed['name'])  # Alice

2. 读写文件

# 写入 JSON 文件
with open('config.json', 'w', encoding='utf-8') as f:json.dump(data, f, ensure_ascii=False, indent=2)# 读取 JSON 文件
with open('config.json', 'r', encoding='utf-8') as f:config = json.load(f)

🔑 ​参数说明​:

  • ensure_ascii=False:支持中文
  • indent=2:美化输出(适合人类阅读)
  • sort_keys=True:按键排序

⚠️ ​限制​:
JSON 不支持 setdatetime、自定义类等类型。需自定义 default 函数或预处理。


三、xml 处理:使用 xml.etree.ElementTree

Python 标准库提供轻量级 XML 解析器(​不验证 DTD/XSD​)。

1. 解析 XML(从字符串或文件)

import xml.etree.ElementTree as ETxml_data = '''
<bookstore><book id="1"><title>Python指南</title><author>张三</author><price>59.9</price></book><book id="2"><title>数据科学实战</title><author>李四</author><price>79.9</price></book>
</bookstore>
'''# 从字符串解析
root = ET.fromstring(xml_data)# 或从文件解析
# tree = ET.parse('books.xml')
# root = tree.getroot()# 遍历
for book in root.findall('book'):title = book.find('title').textauthor = book.find('author').textprice = float(book.find('price').text)book_id = book.get('id')  # 获取属性print(f"ID:{book_id} | {title} by {author} - ¥{price}")

2. 构建 XML

# 创建根元素
root = ET.Element("students")# 添加子元素
student = ET.SubElement(root, "student", id="101")
ET.SubElement(student, "name").text = "王五"
ET.SubElement(student, "grade").text = "A"# 写入文件
tree = ET.ElementTree(root)
tree.write("students.xml", encoding="utf-8", xml_declaration=True)

✅ ​优点​:内存占用小(适合大文件)
❌ ​缺点​:功能有限,复杂场景建议用 lxml(第三方库)


四、io.StringIO / io.BytesIO:内存中的文件模拟

在​内存中读写字符串或字节​,无需真实文件,常用于测试、缓存、API 响应。

1. StringIO(文本)

from io import StringIO# 写入内存
f = StringIO()
f.write("Hello, ")
f.write("World!")
content = f.getvalue()  # "Hello, World!"
f.close()# 读取内存
f = StringIO("Line 1\nLine 2\nLine 3")
for line in f:print(line.strip())
f.close()# with 语句自动关闭
with StringIO() as f:f.write("Test")print(f.getvalue())  # Test

2. BytesIO(二进制)

from io import BytesIO# 模拟二进制文件(如图片、PDF)
buffer = BytesIO()
buffer.write(b'\x89PNG\r\n\x1a\n')  # PNG 文件头
png_data = buffer.getvalue()
buffer.close()

✅ ​典型用途​:

  • 单元测试中模拟文件对象
  • 将数据直接传给需要 file-like object 的函数(如 pandas.read_csv(StringIO(...))

五、pickle 模块:Python 对象序列化

将​任意 Python 对象​(包括自定义类)序列化为二进制,用于保存/恢复程序状态。

1. 基本用法

import pickledata = {'users': ['Alice', 'Bob'], 'count': 42, 'flag': True}# 序列化到文件
with open('data.pkl', 'wb') as f:  # 注意:二进制模式 'wb'pickle.dump(data, f)# 从文件反序列化
with open('data.pkl', 'rb') as f:  # 'rb'loaded = pickle.load(f)print(loaded)  # {'users': ['Alice', 'Bob'], ...}

2. 序列化到内存

# 转为 bytes
serialized = pickle.dumps(data)
# 从 bytes 恢复
restored = pickle.loads(serialized)

⚠️ ​严重警告​:

  • 不要反序列化不可信来源的 pickle 数据!​(可执行任意代码)
  • pickle 不是跨语言格式(仅限 Python)
  • 不同 Python 版本可能不兼容

✅ ​适用场景​:
临时缓存、进程间通信(同一系统)、机器学习模型保存(如 joblib 基于 pickle)


六、with 语句:上下文管理器(Context Manager)

确保资源(如文件、锁、网络连接)​自动正确释放​,即使发生异常。

1. 文件操作(最常见)

# 自动关闭文件,无需 f.close()
with open('file.txt', 'r') as f:content = f.read()
# 文件在此处已关闭

2. 支持多个资源

with open('input.txt', 'r') as fin, open('output.txt', 'w') as fout:fout.write(fin.read().upper())

3. 自定义上下文管理器

class Timer:def __enter__(self):self.start = time.time()return selfdef __exit__(self, exc_type, exc_val, exc_tb):print(f"耗时: {time.time() - self.start:.2f}秒")with Timer():time.sleep(1)  # 耗时: 1.00秒

✅ ​核心优势​:

  • 避免资源泄漏(如忘记关闭文件)
  • 代码更简洁、安全
  • 自动处理异常后的清理

七、模块对比与选型建议

格式/模块 可读性 跨语言 安全性 适用场景
csv ✅ 高 ✅ 是 ✅ 安全 表格数据交换
json ✅ 高 ✅ 是 ✅ 安全 Web API、配置文件
xml ⚠️ 中 ✅ 是 ✅ 安全 企业级数据、文档
pickle ❌ 二进制 ❌ 否 危险 Python 内部对象持久化
StringIO 内存中模拟文件

八、总结

  1. 能用 JSON 就别用 pickle
    除非你百分百确定数据是你自己生成的,而且只在 Python 里用。不然 pickle 不光别人看不懂,还可能被用来搞坏事(比如执行恶意代码)。
  2. 打开文件一定要用 with
    这样不管程序跑没跑完、出没出错,文件都会自动关掉。省得忘了关,占着资源还容易出 bug。
  3. 记得加上 encoding='utf-8'
    特别是处理中文的时候,不加这个很容易乱码。加上就安心,一劳永逸。
  4. 读写 CSV 推荐用 DictReaderDictWriter
    用字典操作字段名(比如 row['name']),比记第几列直观多了,代码也更好读、好维护。
  5. XML 太复杂?试试 lxml
    标准库的 XML 功能比较基础。如果你要查节点、做转换或者验证结构,直接上 lxml,它支持 XPath,写起来爽很多。
  6. 千万别用 pickle 存密码、密钥这类敏感信息
    pickle 本质是“把代码存下来再运行”,反序列化时可能偷偷执行东西,安全风险很高!
  7. 写测试时,用 StringIO 模拟文件
    不用真在硬盘上建文件,直接在内存里读写,干净又快,测完就丢,特别适合单元测试。

资料关注

公众号:咚咚王

艺术二维码.png

《Python编程:从入门到实践》
《利用Python进行数据分析》
《算法导论中文第三版》
《概率论与数理统计(第四版) (盛骤) 》
《程序员的数学》
《线性代数应该这样学第3版》
《微积分和数学分析引论》
《(西瓜书)周志华-机器学习》
《TensorFlow机器学习实战指南》
《Sklearn与TensorFlow机器学习实用指南》
《模式识别(第四版)》
《深度学习 deep learning》伊恩·古德费洛著 花书
《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》
《深入浅出神经网络与深度学习+(迈克尔·尼尔森(Michael+Nielsen) 》
《自然语言处理综论 第2版》
《Natural-Language-Processing-with-PyTorch》
《计算机视觉-算法与应用(中文版)》
《Learning OpenCV 4》
《AIGC:智能创作时代》杜雨+&+张孜铭
《AIGC原理与实践:零基础学大语言模型、扩散模型和多模态模型》
《从零构建大语言模型(中文版)》
《实战AI大模型》
《AI 3.0》

http://www.rkmt.cn/news/54475.html

相关文章:

  • 国产数据库替代MongoDB的技术实践过程:金仓多模数据库在电子证照框架中的深度应用
  • 用USB BLASTER II 下载sof文件没有问题,debug波形也没有问题。但是下载jic问题异常?
  • AI浪潮下的机遇与挑战:从巨头动态看未来趋势
  • linux for 死循环
  • 注册表禁用/启用Windows系统更新
  • PID 文件不一致导致 REDIS 一直重启
  • Linux for OneNote
  • linux for in seq
  • 高级程序语言设计第6次
  • 深入解析:Flink 实验性特性把“已预分区”的 DataStream 重新解释为 KeyedStream
  • 2025密炼机厂家实力榜:大连华韩领衔 四大品牌凭技术与口碑领跑橡塑机械行业
  • 2025矿物铸件厂家推荐排行榜:头部企业实力领跑,四星厂商凭细分优势站稳脚跟
  • Python 中 pymysql 操作 MySQL 数据库实操指南
  • 如何优雅地看着电脑为你打工? - Magic
  • 告别内网限制!用StirlingPDF+cpolar打造可远程访问的PDF程序站
  • 用localStorage 模拟SharedWorker
  • 千问快速review评审Java工程代码与异步代码智能体
  • 石油天然气行业OT/ICS安全:守护全球经济命脉的关键防线
  • trae编译器前端agent提示词
  • 2025 年最新http 代理服务商权威推荐排行榜:百万级 IP 资源 + 国际认证高可用率,爬虫 / 动态 / 高匿代理优选指南不限量 http 代理/独享 http 代理平台推荐
  • 安装部署opengauss
  • 视频汇聚平台EasyCVR如何通过可视化管理与远程运维赋能安防“一张网”
  • 单向循环链表接口设计
  • 2025 年 11 月高温老化房厂家推荐排行榜,老化室、高温老化室、高温房、熟化房、固化房、恒温恒湿室、恒温房、恒温恒湿房公司推荐
  • 2025 年 11 月耐磨板厂家推荐排行榜,国产耐磨板,悍达耐磨板,堆焊耐磨板,进口耐磨板,MN13耐磨板,NM360-NM600高强度耐磨板,高铬合金耐磨板公司推荐!
  • 视频融合平台EasyCVR助力守护渔业牧区安全与增效
  • 2025 最新推荐!精雕机厂家口碑排行榜,国际协会测评认证 + 多行业适配实力权威发布高校合作精雕机/东莞精雕机/广东精雕机公司推荐
  • 2025 最新供水设备源头厂家推荐排行榜:无负压 / 恒压 / 变频供水设备实力品牌精选
  • 2025 年智慧停车系统、高校智慧停车系统十大品牌权威推荐!破解停车难题,这些优质品牌值得选择
  • 实用指南:智慧家政系统:未来家庭管理的核心技术解析