当前位置：首页 > news >正文

学习图片数据如何处理为MindSpore自定义数据集

news 2026/6/15 15:43:34

概述

近期正在学习目标检测和语义分割（图像分割），代码小白的我看到某些案例代码繁杂充满细节无处下手，整理思路后决定从处理训练和验证图片作为自定义数据集入手，并写博客记录学习过程。参考示例使用MindSpore框架完成DeepLab v3搭建，并实现车道线检测这样的语义分割场景，因此数据集中的数据部分是车道图片，标签（导师值）对应的是黑底白线的车道线图片。
参考项目链接：车道线检测GitCode

代码逻辑梳理

单个图片转ndarry矩阵为例，基本过程如下：

得到图片字节形式：f.read()以rb方式读取jpg文件，得到字节流image_byte
得到图片数组（一维）形式：np.frombuffer(image_byte, dtype=np.uint8) 通过frombuffer函数将字节流变为ndarray类型数组（后续np.imdecode只能接收ndarry格式）
得到图片矩阵形式：cv2.imdecode(..., cv2.IMREAD_COLOR) 解码ndarry数组，变为IMREAD_COLOR彩色图矩阵（ndarry类型，含通道），可直接送入神经网络。此时形状是H,W,C，即[[[B,G,R], [B,G,R], ...], [...]]
注意对于标签图像矩阵，需要将0和255的黑白图像转为二值化0和1，目的是表示分类 0 和 1。参考代码为：label_out = (label_out > 127).astype(np.uint8)

对数据和标签的图片矩阵进一步处理（经典的：scale + standardization + pad + crop，再加概率翻转和矩阵结构变换）：

cv2.resize来缩放并插值。缩放比例按照了一个均值随机的比例（例如np.random.uniform(0.5, 2)），本例interpolation插值方法数据图像采用双三次插值INTER_CUBIC，标签图像采用最近邻插值INTER_NEAREST
对数据图像做标准化，不需要对标签图像做。（标准化一般都放在scale和pad中间，因为标准化后不再有“颜色”的物理意义。如果先标准化再resize，resize的插值会不准确，应该在“颜色”有意义时候做插值。）
对于尺寸小于512*512的，通过cv2.copyMakeBorder加边框（注意标签label图像所填充值需要和背景色一致，本例为0）
对大于512512尺寸的做随机裁剪，最终保证尺寸统一为512512，裁剪方法使用Python中的字符串切片[h1:h1+crop_size, w1:w1+self.crop_size, :]，标签部分类似，只是没有通道维度
50%概率翻转，数据部分[:, ::-1, :]，标签部分由于没有通道维度，直接[:, ::-1]
HWC转CHW transpose((2, 0, 1)，注意transpose返回的是 “视图”（view），不是新数组，所以需要再调用返回值的.copy，而为了保险虽然标签图片没有transpose，也建议最后做.copy()操作。

创建MindRecord格式数据集：

读出文件夹所有图片的名称，放入列表变量img_list中，再进行shuffle打乱，用于后续根据名称找到指定数据和标签
创建mindspore.mindrecord.FileWriter对象，使用.add_schema关联schema变量（schema字典变量（数据模板），每个字段需要指定数据类型type，如果是张量，还可以指定shape）
按照img_list列表中的文件名，rb方式读取所有的数据和标签文件，每个样本的名称、数据字节、标签字节组合成符合schema的一个小字典，最终将所有样本的值都append到一个列表datas中（列表每1000个清空一次），每处理完1000个样本则向之前创建的FileWriter对象中通过.write_raw_data将列表datas中这1000个样本数据写入一次；遍历完不足1000个的数据最后再写入一次
FileWriter对象.commit()，用于将内存中的数据同步到磁盘，并生成相应的数据库文件。

读取MindRecord数据集（数据集分为了训练和验证数据集，位于不同的文件夹下）

实例化MindRecord作为待访问的数据集对象（本例变量名为data_set），实例化时可指定路径、需要的列（例如不需要名称列，只需要数据和标签列）、是否打乱（一般训练打乱，验证不打乱）、线程数量、分布式训练逻辑分片数量等
调用MindRecord对象data_set.map()，来指定对数据集变量的操作函数（即上述的将字节处理为矩阵、对矩阵数据进行缩放标准化等）、函数输入输出对应列、线程数量等
分别调用data_set.shuffle（创建缓存区，每次取走一个数据后随机填入另一个），data_set.batch（一个epoch分多个batch），data_set.repeat（多个epoch即重复多少次），最后返回处理后的data_set

tip：文中np指的是numpy

2025.11.07

查看全文

http://www.rkmt.cn/news/43343.html