当前位置: 首页 > news >正文

学习图片数据如何处理为MindSpore自定义数据集

概述

近期正在学习目标检测和语义分割(图像分割),代码小白的我看到某些案例代码繁杂充满细节无处下手,整理思路后决定从处理训练和验证图片作为自定义数据集入手,并写博客记录学习过程。参考示例使用MindSpore框架完成DeepLab v3搭建,并实现车道线检测这样的语义分割场景,因此数据集中的数据部分是车道图片,标签(导师值)对应的是黑底白线的车道线图片。
参考项目链接:车道线检测GitCode

代码逻辑梳理

单个图片转ndarry矩阵为例,基本过程如下

  • 得到图片字节形式:f.read()以rb方式读取jpg文件,得到字节流image_byte
  • 得到图片数组(一维)形式:np.frombuffer(image_byte, dtype=np.uint8) 通过frombuffer函数将字节流变为ndarray类型数组(后续np.imdecode只能接收ndarry格式)
  • 得到图片矩阵形式:cv2.imdecode(..., cv2.IMREAD_COLOR) 解码ndarry数组,变为IMREAD_COLOR彩色图矩阵(ndarry类型,含通道),可直接送入神经网络。此时形状是H,W,C,即[[[B,G,R], [B,G,R], ...], [...]]
  • 注意对于标签图像矩阵,需要将0和255的黑白图像转为二值化0和1,目的是表示分类 0 和 1。参考代码为:label_out = (label_out > 127).astype(np.uint8)

对数据和标签的图片矩阵进一步处理(经典的:scale + standardization + pad + crop,再加概率翻转和矩阵结构变换):

  • cv2.resize来缩放并插值。缩放比例按照了一个均值随机的比例(例如np.random.uniform(0.5, 2)),本例interpolation插值方法数据图像采用双三次插值INTER_CUBIC,标签图像采用最近邻插值INTER_NEAREST
  • 对数据图像做标准化,不需要对标签图像做。(标准化一般都放在scale和pad中间,因为标准化后不再有“颜色”的物理意义。如果先标准化再resize,resize的插值会不准确,应该在“颜色”有意义时候做插值。)
  • 对于尺寸小于512*512的,通过cv2.copyMakeBorder加边框(注意标签label图像所填充值需要和背景色一致,本例为0)
  • 对大于512512尺寸的做随机裁剪,最终保证尺寸统一为512512,裁剪方法使用Python中的字符串切片[h1:h1+crop_size, w1:w1+self.crop_size, :],标签部分类似,只是没有通道维度
  • 50%概率翻转,数据部分[:, ::-1, :],标签部分由于没有通道维度,直接[:, ::-1]
  • HWC转CHW transpose((2, 0, 1),注意transpose返回的是 “视图”(view),不是新数组,所以需要再调用返回值的.copy,而为了保险虽然标签图片没有transpose,也建议最后做.copy()操作。

创建MindRecord格式数据集

  • 读出文件夹所有图片的名称,放入列表变量img_list中,再进行shuffle打乱,用于后续根据名称找到指定数据和标签
  • 创建mindspore.mindrecord.FileWriter对象,使用.add_schema关联schema变量(schema字典变量(数据模板),每个字段需要指定数据类型type,如果是张量,还可以指定shape)
  • 按照img_list列表中的文件名,rb方式读取所有的数据和标签文件,每个样本的名称、数据字节、标签字节组合成符合schema的一个小字典,最终将所有样本的值都append到一个列表datas中(列表每1000个清空一次),每处理完1000个样本则向之前创建的FileWriter对象中通过.write_raw_data将列表datas中这1000个样本数据写入一次;遍历完不足1000个的数据最后再写入一次
  • FileWriter对象.commit(),用于将内存中的数据同步到磁盘,并生成相应的数据库文件。

读取MindRecord数据集(数据集分为了训练和验证数据集,位于不同的文件夹下)

  • 实例化MindRecord作为待访问的数据集对象(本例变量名为data_set),实例化时可指定路径、需要的列(例如不需要名称列,只需要数据和标签列)、是否打乱(一般训练打乱,验证不打乱)、线程数量、分布式训练逻辑分片数量等
  • 调用MindRecord对象data_set.map(),来指定对数据集变量的操作函数(即上述的将字节处理为矩阵、对矩阵数据进行缩放标准化等)、函数输入输出对应列、线程数量等
  • 分别调用data_set.shuffle(创建缓存区,每次取走一个数据后随机填入另一个),data_set.batch(一个epoch分多个batch),data_set.repeat(多个epoch即重复多少次),最后返回处理后的data_set

tip:文中np指的是numpy


2025.11.07

http://www.rkmt.cn/news/43343.html

相关文章:

  • Java程序员该如何快速上手LLM应用开发呢?
  • 经典欧拉角与泰特布莱恩角
  • 详细介绍:识别含地理信息的 PDF作为底图在 Mapbox GL项目中使用
  • Markdown使用
  • Apifox接口测试工具简介 - 努力-
  • 定金单专题
  • CJI8运行查询没有数据
  • 贪心,排序,二分,分治
  • python01
  • AI Compass前沿速览:Cursor 2.0、Firefly Image5、Agent HQ 、LongCat-Video、Kimi-k2 Thinking
  • 25.11.7联考题解
  • EPnP算法学习随笔
  • 【机器学习入门】7.1 决策树 —— 像 “判断流程图” 一样做分类 - 教程
  • 完整教程:Labview项目01:标准可配置序列测试框架
  • Transformer Decoder 中序列掩码(Sequence Mask / Look-ahead Mask) - 详解
  • P9785 [ROIR 2020] 对常规的斗争 (Day1) 题解
  • 深入解析:SciPy傅里叶变换与信号处理教程:数学原理与Python实现
  • CentOS Stream 9编译安装Nginx 1.28 - Leone
  • JavaWeb03-Vue
  • 调整包含特定文本的单元格所在的行高
  • 一次十分折腾的系统迁移:BCD损坏(0xc000000f), 0xc0000255, 0xc000000e以及解决办法
  • 2025昆山/太仓/苏州/常熟/上海/农村自建房推荐榜 巨德翔建筑领衔 三家实力公司赋能乡村宜居生活
  • 深入解析:ST-Raptor:无需微调,准确率超越 GPT-4o 的半结构化表格问答新范式
  • 树上拓扑序个数小记
  • 2023最新Win10/Win11运行罪恶都市解决方案
  • 2025废气处理/废气治理/环保/污水/分子筛/除臭设备推荐榜:深城环保五星领跑,3 家企业以技术适配解锁多元异味治理场景
  • P6954 [NEERC 2017] Connections 题解
  • CF1463E Plan of Lectures
  • 2025年防水补漏企业TOP5:漏水维修、防水翻新、漏水检测
  • ansible + docker compose, RustFS MNMD 架构的一键部署之道