当前位置：首页 > news >正文

基于树莓派与CNN的工业缺陷检测系统：从硬件搭建到模型部署全流程

news 2026/5/29 20:05:08

1. 项目概述：用树莓派为生产线装上“智能眼”

在工业生产的流水线上，质检环节往往是效率瓶颈和成本痛点。传统的人工目检不仅劳动强度大、易疲劳，而且标准难以统一，尤其在面对微小缺陷或高速生产时，漏检、误检在所难免。近年来，计算机视觉与机器学习技术的成熟，为自动化质检提供了全新的、经济可行的解决方案。这个项目的核心，就是利用树莓派（Raspberry Pi）——这块信用卡大小的微型电脑，结合卷积神经网络（CNN），亲手搭建一个从零到一的自动化缺陷检测原型系统。它不仅仅是一个技术演示，更是一套可以实际部署在小型生产线、实验线或教育场景中的完整方案。通过这个项目，你将掌握如何将前沿的AI算法落地到真实的物理世界中，实现从“看见”到“判断”，再到“执行”的闭环。无论你是对工业自动化感兴趣的工程师、希望将AI应用于实际场景的学生，还是寻求产线智能化升级的创客，这套基于开源硬件和开源软件的低成本方案，都将为你提供一个清晰、可复现的实践路径。

2. 系统整体设计与核心思路拆解

2.1 为什么选择树莓派+CNN的组合？

在构思一个自动化检测系统时，硬件平台和算法模型的选择是首要决策。我们选择树莓派，主要基于以下几点考量：成本可控，一套树莓派5加上相机模组的总成本远低于一台工业相机或工控机；生态成熟，其基于Linux的系统拥有庞大的开源软件库和社区支持，Python、OpenCV、TensorFlow Lite等工具链完善；接口丰富，GPIO、USB、CSI等接口便于连接各类传感器和执行器；功耗与体积，其低功耗和小型化特性非常适合嵌入式部署。而选择卷积神经网络（CNN）作为核心算法，是因为它在图像分类任务上经过了充分验证，能够自动从原始像素中学习到具有判别性的特征（如边缘、纹理、形状），非常适合用于区分“合格品”与“缺陷品”这类模式相对固定的任务。相比于传统基于规则的图像处理（如阈值分割、轮廓检测），CNN对于光照变化、产品轻微位置偏移等干扰具有更好的鲁棒性。

2.2 系统工作流程与模块化设计

整个系统可以清晰地划分为三个核心模块：感知模块、决策模块和控制模块，它们协同工作，形成一个完整的自动化流水线。

感知模块（眼睛与神经）：由树莓派相机和超声波传感器组成。超声波传感器充当“触发神经”，当检测到产品进入预设位置时，向树莓派发送信号。树莓派相机则作为“眼睛”，在接收到触发信号后，在稳定的光照和背景下拍摄产品的高清图像。这一步的关键在于获取高质量、一致的输入数据，这是后续所有分析的基础。
决策模块（大脑）：这是系统的智能核心，运行在树莓派上。它接收感知模块传来的图像，调用我们预先训练好的CNN模型进行推理。模型会输出一个概率，例如“该产品为合格品的概率是98%”或“存在缺陷的概率是95%”。树莓派根据预设的阈值（如概率>90%判为合格）做出最终判断。
控制模块（手脚）：根据决策模块的指令，系统通过树莓派的GPIO或通信接口（如串口、HTTP）控制外部执行机构。例如，控制传送带电机将合格品送往下一工位，或将缺陷品推入废品箱。在这个原型中，我们使用Arduino来专门管理电机，树莓派通过HTTP协议向其发送指令，这种架构能有效进行任务解耦，避免电机控制干扰树莓派的核心计算任务。

注意：将电机控制等实时性要求高的任务交给Arduino这类单片机，而让树莓派专注于图像处理和模型推理，是一种非常实用的架构设计。这利用了各自的特长：树莓派擅长复杂计算，Arduino擅长实时控制。

3. 硬件搭建与核心细节解析

3.1 硬件选型与连接要点

一份清晰的物料清单是成功的第一步。除了项目提到的树莓派5、相机模组、超声波传感器（HC-SR04）、传送带和步进电机（如28BYJ-48带ULN2003驱动板）外，还有一些细节需要考虑。

树莓派电源：务必使用官方推荐或能提供5V/3A以上稳定输出的电源适配器。供电不足会导致树莓派在高负载时降频甚至重启，严重影响系统稳定性。
相机选择：树莓派官方CSI接口的相机模组（如Camera Module 3）能提供最佳的兼容性和性能。如果使用USB摄像头，需确认其支持Linux UVC驱动，并在OpenCV中测试帧率和分辨率是否达标。
照明方案：这是影响图像质量最关键的因素之一，甚至比相机本身更重要。我们采用环形LED无影灯作为照明方案。它的优势在于能提供均匀、无阴影的正面光，最大限度地减少产品表面反光和阴影带来的干扰。应将灯带安装在相机周围，确保产品表面光照均匀。可以考虑添加一个柔光罩来进一步软化光线。

硬件连接示意图如下（以树莓派直接连接为例，若使用Arduino则信号线接至Arduino）：

树莓派 GPIO ├── 超声波传感器 Trig -> GPIO 23 ├── 超声波传感器 Echo -> GPIO 24 ├── 步进电机驱动板 IN1 -> GPIO 17 ├── 步进电机驱动板 IN2 -> GPIO 18 ├── 步进电机驱动板 IN3 -> GPIO 27 ├── 步进电机驱动板 IN4 -> GPIO 22 └── 相机模块 -> CSI接口

实操心得：在连接GPIO线时，最好使用颜色区分（如红色接5V，黑色接GND，其他颜色接信号线），并在代码开头用注释明确记录引脚定义。这能在后续调试和修改时节省大量排查时间。

3.2 环境搭建与软件配置

在硬件连接完毕后，我们需要为树莓派安装操作系统和必要的软件环境。

烧录系统：使用Raspberry Pi Imager工具将Raspberry Pi OS（64位Bullseye或Bookworm版本）烧录到MicroSD卡。建议在高级设置中预先开启SSH、设置Wi-Fi和国家选项，这样首次启动即可通过网络远程访问，无需连接键鼠显示器。
基础更新与设置：首次启动后，通过终端执行sudo apt update && sudo apt upgrade -y更新系统。然后使用sudo raspi-config工具，在Interface Options中启用 Camera 和 I2C/SPI（如果后续需要）。

安装核心软件包：

# 安装Python3虚拟环境工具和基础依赖 sudo apt install -y python3-venv python3-pip # 安装树莓派相机库 sudo apt install -y python3-picamera2 # 安装图像处理库 sudo apt install -y python3-opencv

创建虚拟环境：强烈建议为项目创建独立的Python虚拟环境，避免包版本冲突。

mkdir ~/defect_detection && cd ~/defect_detection python3 -m venv venv source venv/bin/activate # 激活虚拟环境 # 激活后，命令行提示符前会出现 (venv)

安装机器学习库：在虚拟环境中安装TensorFlow。对于树莓派，推荐使用针对ARM架构优化的tensorflow-lite或tflite-runtime进行最终部署，以提升速度。但为了训练模型的便利性，我们可以先安装完整版TensorFlow（注意：树莓派上安装完整版TensorFlow过程较慢且可能遇到兼容性问题，另一种更推荐的方式是在性能更强的PC上训练模型，然后将模型转换为TFLite格式再部署到树莓派）。
```
# 方式一：在树莓派上安装TensorFlow（耗时较长） pip install tensorflow # 方式二：仅安装TFLite解释器（用于推理） pip install tflite-runtime # 安装其他辅助库 pip install numpy pillow matplotlib
```

4. 数据采集与预处理实操要点

4.1 设计鲁棒的图像采集脚本

高质量的数据集是模型成功的基石。我们的采集脚本需要完成：等待传感器触发 -> 控制相机拍照 -> 根据人工判断保存到不同文件夹。

以下是使用picamera2库的增强版采集脚本capture_dataset.py：

import time import os from picamera2 import Picamera2 from gpiozero import DistanceSensor from signal import pause # 初始化 picam2 = Picamera2() # 配置相机：选择合适的分辨率和格式，平衡速度与质量 config = picam2.create_still_configuration(main={"size": (1640, 1232)}, display="main") picam2.configure(config) picam2.start() # 初始化超声波传感器 (Trig=GPIO23, Echo=GPIO24) sensor = DistanceSensor(echo=24, trigger=23) # 创建数据集目录 base_dir = "product_dataset" train_ok_dir = os.path.join(base_dir, "train", "ok") train_ng_dir = os.path.join(base_dir, "train", "ng") val_ok_dir = os.path.join(base_dir, "validation", "ok") val_ng_dir = os.path.join(base_dir, "validation", "ng") for d in [train_ok_dir, train_ng_dir, val_ok_dir, val_ng_dir]: os.makedirs(d, exist_ok=True) capture_count = 0 def capture_image(): global capture_count distance = sensor.distance * 100 # 转换为厘米 # 当物体进入特定距离范围时触发（例如5-15cm） if 5.0 < distance < 15.0: print(f"物体检测于 {distance:.1f} cm，准备拍摄...") time.sleep(0.5) # 等待物体稳定到相机正下方 timestamp = time.strftime("%Y%m%d_%H%M%S") # 临时保存图像 temp_path = f"/tmp/capture_{timestamp}.jpg" picam2.capture_file(temp_path) print(f"图像已捕获: {temp_path}") # 人工判断环节（在实际自动化中，此步骤由模型替代） # 这里模拟：通过命令行输入判断该图像是合格(ok)还是不合格(ng) while True: label = input(f"图像 #{capture_count}: 此产品合格吗？ (输入 'ok' 或 'ng'): ").strip().lower() if label in ['ok', 'ng']: break print("输入无效，请重新输入 'ok' 或 'ng'") # 决定放入训练集还是验证集（按比例，例如80%训练，20%验证） import random is_for_train = random.random() < 0.8 if label == 'ok': target_dir = train_ok_dir if is_for_train else val_ok_dir else: target_dir = train_ng_dir if is_for_train else val_ng_dir final_path = os.path.join(target_dir, f"img_{capture_count:04d}_{label}.jpg") os.rename(temp_path, final_path) print(f"已保存至: {final_path}\n") capture_count += 1 else: # 物体不在触发区域，可以控制传送带前进一小步，这里省略电机控制代码 # move_conveyor_a_bit() pass # 设置传感器检测间隔 sensor.when_in_range = capture_image sensor.threshold_distance = 0.15 # 15厘米 sensor.distance = 1.0 # 初始距离值 print("数据采集系统已就绪。当产品进入检测区域时，系统将自动拍摄并提示您分类。") pause()

注意事项：采集数据时，应尽可能模拟真实生产中的各种情况。包括：合格品在不同位置、角度下的图像；各种可能出现的缺陷类型（划痕、污渍、缺失部件等）；以及不同的光照条件（可在数据采集阶段轻微调整灯光亮度或角度，增加模型鲁棒性）。每个类别（ok/ng）的图像数量应尽量平衡，建议每类不少于200-300张。

4.2 数据预处理与增强

原始采集的图像不能直接扔给模型。我们需要进行预处理，并将其组织成模型需要的格式。通常我们会创建一个data_preprocess.py脚本：

import tensorflow as tf from tensorflow.keras.preprocessing.image import ImageDataGenerator # 定义图像尺寸，根据模型输入要求调整 IMG_HEIGHT, IMG_WIDTH = 180, 180 BATCH_SIZE = 32 # 使用ImageDataGenerator进行实时数据增强和标准化 # 数据增强仅应用于训练集，这是为了在不增加实际数据量的情况下，让模型看到更多样的数据变体，防止过拟合。 train_datagen = ImageDataGenerator( rescale=1./255, # 归一化像素值到[0,1] rotation_range=20, # 随机旋转20度以内 width_shift_range=0.1, # 随机水平平移 height_shift_range=0.1,# 随机垂直平移 shear_range=0.1, # 随机错切变换 zoom_range=0.1, # 随机缩放 horizontal_flip=True, # 随机水平翻转（如果产品对称性无关紧要） fill_mode='nearest' # 填充新像素的策略 ) # 验证集只需要归一化，不需要增强 validation_datagen = ImageDataGenerator(rescale=1./255) # 从目录生成数据流 train_dir = 'product_dataset/train' validation_dir = 'product_dataset/validation' train_generator = train_datagen.flow_from_directory( train_dir, target_size=(IMG_HEIGHT, IMG_WIDTH), batch_size=BATCH_SIZE, class_mode='binary' # 二分类问题 ) validation_generator = validation_datagen.flow_from_directory( validation_dir, target_size=(IMG_HEIGHT, IMG_WIDTH), batch_size=BATCH_SIZE, class_mode='binary' ) # 查看类别索引 print(f"检测到的类别: {train_generator.class_indices}")

这段代码利用了Keras的ImageDataGenerator，它能在模型训练时实时对图像进行增强和归一化，极大地提升了数据的利用效率和模型的泛化能力。

5. CNN模型构建、训练与优化策略

5.1 构建一个轻量化的CNN模型

在资源受限的树莓派上，模型需要兼顾准确率和推理速度。我们不会直接使用庞大的VGG或ResNet，而是从头构建一个结构紧凑的CNN。

from tensorflow.keras import layers, models def create_cnn_model(input_shape=(180, 180, 3)): model = models.Sequential([ # 第一卷积块：提取基础特征（如边缘、角点） layers.Conv2D(32, (3, 3), activation='relu', input_shape=input_shape), layers.MaxPooling2D((2, 2)), # 第二卷积块：提取更复杂的特征 layers.Conv2D(64, (3, 3), activation='relu'), layers.MaxPooling2D((2, 2)), # 第三卷积块：提取高级语义特征 layers.Conv2D(128, (3, 3), activation='relu'), layers.MaxPooling2D((2, 2)), # 将三维特征图展平为一维向量 layers.Flatten(), # 全连接层进行综合判断 layers.Dense(128, activation='relu'), # Dropout层随机丢弃一部分神经元，防止过拟合 layers.Dropout(0.5), # 输出层：二分类，使用sigmoid激活函数输出一个0-1之间的概率值 layers.Dense(1, activation='sigmoid') ]) # 编译模型：指定优化器、损失函数和评估指标 model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy']) return model # 创建模型 model = create_cnn_model() model.summary() # 打印模型结构，查看参数量

这个模型大约有几十万个参数，对于树莓派来说是可以接受的。Conv2D和MaxPooling的交替使用是CNN的经典模式，逐步扩大感受野并降低空间尺寸。最后的Dropout层是防止模型在训练集上表现太好（过拟合）而在新数据上表现差的关键技巧。

5.2 模型训练与回调函数使用

有了数据和模型，就可以开始训练了。我们使用之前准备好的数据生成器。

# 计算训练和验证的步数（每个epoch需要迭代多少个batch） STEP_SIZE_TRAIN = train_generator.n // train_generator.batch_size STEP_SIZE_VALID = validation_generator.n // validation_generator.batch_size # 设置回调函数，用于在训练过程中保存最佳模型和提前停止 from tensorflow.keras.callbacks import ModelCheckpoint, EarlyStopping callbacks_list = [ # 监控验证集准确率，只保存在该指标上表现最好的模型 ModelCheckpoint( filepath='best_model.h5', monitor='val_accuracy', save_best_only=True, mode='max', verbose=1 ), # 如果验证集损失在连续10个epoch内没有改善，则提前停止训练，避免无用计算 EarlyStopping( monitor='val_loss', patience=10, restore_best_weights=True, verbose=1 ) ] # 开始训练 history = model.fit( train_generator, steps_per_epoch=STEP_SIZE_TRAIN, epochs=50, # 训练轮数，可能被EarlyStopping提前终止 validation_data=validation_generator, validation_steps=STEP_SIZE_VALID, callbacks=callbacks_list, verbose=1 )

训练过程可能需要一段时间。完成后，我们可以绘制训练曲线，直观地观察模型的学习情况：

import matplotlib.pyplot as plt acc = history.history['accuracy'] val_acc = history.history['val_accuracy'] loss = history.history['loss'] val_loss = history.history['val_loss'] epochs_range = range(len(acc)) plt.figure(figsize=(12, 4)) plt.subplot(1, 2, 1) plt.plot(epochs_range, acc, label='Training Accuracy') plt.plot(epochs_range, val_acc, label='Validation Accuracy') plt.legend(loc='lower right') plt.title('Training and Validation Accuracy') plt.subplot(1, 2, 2) plt.plot(epochs_range, loss, label='Training Loss') plt.plot(epochs_range, val_loss, label='Validation Loss') plt.legend(loc='upper right') plt.title('Training and Validation Loss') plt.savefig('training_history.png') plt.show()

理想的曲线是训练和验证的准确率同步上升并最终收敛，损失同步下降。如果训练准确率远高于验证准确率，说明模型过拟合了，需要增加数据增强强度、添加更多Dropout或减少模型复杂度。

5.3 模型转换与优化（为树莓派部署做准备）

在PC上训练得到的.h5模型文件，可以直接在树莓派上使用完整版TensorFlow加载。但为了获得更快的推理速度和更小的内存占用，强烈建议将其转换为TensorFlow Lite格式。

# 转换模型为TFLite格式 converter = tf.lite.TFLiteConverter.from_keras_model(model) # 可选的优化：启用默认优化以减小模型大小并提升速度（可能会轻微影响精度） converter.optimizations = [tf.lite.Optimize.DEFAULT] tflite_model = converter.convert() # 保存TFLite模型 with open('defect_detection_model.tflite', 'wb') as f: f.write(tflite_model) print("TFLite模型已保存。")

这个.tflite文件就是我们将要部署到树莓派上的最终模型。它更小、更快，并且可以使用专门的tflite-runtime库进行推理，无需安装庞大的完整版TensorFlow。

6. 系统集成与实时推理部署

6.1 编写实时推理脚本

现在，我们将数据采集、模型推理和硬件控制整合到一个主循环中。以下是real_time_detection.py的核心部分：

import time import numpy as np from PIL import Image import tflite_runtime.interpreter as tflite from picamera2 import Picamera2 from gpiozero import DistanceSensor, OutputDevice import requests # 用于HTTP通信控制Arduino # 1. 初始化硬件 picam2 = Picamera2() config = picam2.create_still_configuration(main={"size": (1640, 1232)}) picam2.configure(config) picam2.start() sensor = DistanceSensor(echo=24, trigger=23) # 假设通过继电器控制一个气缸推杆，将缺陷品推出 reject_actuator = OutputDevice(25, active_high=False, initial_value=False) # 2. 加载TFLite模型 interpreter = tflite.Interpreter(model_path="defect_detection_model.tflite") interpreter.allocate_tensors() input_details = interpreter.get_input_details() output_details = interpreter.get_output_details() input_shape = input_details[0]['shape'] # 应为 [1, 180, 180, 3] # 3. 图像预处理函数 def preprocess_image(image_path): img = Image.open(image_path).convert('RGB') img = img.resize((input_shape[2], input_shape[1])) # 调整到模型输入尺寸 img_array = np.array(img, dtype=np.float32) / 255.0 # 归一化 img_array = np.expand_dims(img_array, axis=0) # 增加批次维度 [H,W,C] -> [1,H,W,C] return img_array # 4. 主循环 ARDUINO_URL = "http://192.168.1.100/trigger" # Arduino的IP和端点 DETECTION_THRESHOLD = 0.5 # 判断阈值，大于此为合格品 print("自动化缺陷检测系统已启动...") try: while True: if sensor.distance * 100 < 15.0: # 检测到物体 print("产品到达，停止传送带...") # 发送HTTP请求给Arduino，停止传送带 try: requests.post(ARDUINO_URL, json={"action": "stop"}, timeout=1) except: print("无法连接Arduino，请检查网络。") time.sleep(0.5) # 等待稳定 # 捕获图像 image_path = "/tmp/current_product.jpg" picam2.capture_file(image_path) print("图像捕获成功，开始分析...") # 预处理与推理 input_data = preprocess_image(image_path) interpreter.set_tensor(input_details[0]['index'], input_data) interpreter.invoke() output_data = interpreter.get_tensor(output_details[0]['index']) prediction_prob = output_data[0][0] # 合格品概率 # 判断并执行动作 is_ok = prediction_prob > DETECTION_THRESHOLD status = "OK" if is_ok else "DEFECT" print(f"检测结果: {status} (置信度: {prediction_prob:.2%})") if not is_ok: print("发现缺陷品！启动剔除机构...") reject_actuator.on() time.sleep(1) # 剔除动作持续时间 reject_actuator.off() # 无论是否合格，通知Arduino继续运行传送带 try: requests.post(ARDUINO_URL, json={"action": "start"}, timeout=1) except: pass print("等待下一个产品...\n") time.sleep(2) # 防止连续误触发 time.sleep(0.1) # 主循环延迟 except KeyboardInterrupt: print("\n系统被用户中断。") finally: picam2.stop() print("相机已关闭。")

6.2 Arduino端控制代码

树莓派通过HTTP协议与Arduino通信，实现了软硬件解耦。以下是Arduino（以ESP8266为例，因其内置Wi-Fi）的简易代码arduino_controller.ino：

#include <ESP8266WiFi.h> #include <ESP8266WebServer.h> #include <Stepper.h> const char* ssid = "你的Wi-Fi名称"; const char* password = "你的Wi-Fi密码"; ESP8266WebServer server(80); const int stepsPerRevolution = 2048; // 28BYJ-48电机步数 Stepper myStepper(stepsPerRevolution, D1, D3, D2, D4); // 连接引脚 bool conveyorRunning = true; void handleTrigger() { if (server.hasArg("plain")) { String body = server.arg("plain"); if (body.indexOf("\"action\":\"stop\"") != -1) { conveyorRunning = false; Serial.println("收到停止指令"); } else if (body.indexOf("\"action\":\"start\"") != -1) { conveyorRunning = true; Serial.println("收到启动指令"); } } server.send(200, "application/json", "{\"status\":\"ok\"}"); } void setup() { Serial.begin(115200); myStepper.setSpeed(10); // 设置电机转速 WiFi.begin(ssid, password); while (WiFi.status() != WL_CONNECTED) { delay(500); Serial.print("."); } Serial.println(""); Serial.print("已连接，IP地址: "); Serial.println(WiFi.localIP()); server.on("/trigger", HTTP_POST, handleTrigger); server.begin(); Serial.println("HTTP服务器已启动"); } void loop() { server.handleClient(); if (conveyorRunning) { myStepper.step(1); // 持续缓慢转动传送带 delay(10); } // 当 conveyorRunning 为 false 时，电机停止 }

这个架构允许树莓派专注于计算密集型的图像识别，而Arduino则可靠地处理实时电机控制，两者通过Wi-Fi通信，布线也更为灵活。

7. 性能优化、调试与常见问题排查

7.1 提升系统性能的实战技巧

在树莓派上运行AI模型，性能是关键。以下是一些行之有效的优化手段：

模型轻量化：我们已经使用了TFLite。可以进一步尝试模型量化。使用converter.optimizations = [tf.lite.Optimize.DEFAULT]是默认的量化，它会将权重从32位浮点数转换为8位整数，模型大小可减少约75%，推理速度提升2-3倍，对精度影响通常很小。

converter = tf.lite.TFLiteConverter.from_keras_model(model) converter.optimizations = [tf.lite.Optimize.DEFAULT] # 如果需要完全整数量化（输入输出也是int8），需要提供代表性数据集 # def representative_dataset(): # for _ in range(100): # data = np.random.rand(1, 180, 180, 3).astype(np.float32) # yield [data] # converter.representative_dataset = representative_dataset # converter.target_spec.supported_ops = [tf.lite.OpsSet.TFLITE_BUILTINS_INT8] # converter.inference_input_type = tf.uint8 # converter.inference_output_type = tf.uint8 tflite_quant_model = converter.convert()

使用硬件加速：树莓派4/5的GPU（VideoCore VI/VII）可以通过支持OpenCL的驱动来加速部分TensorFlow Lite操作。确保系统已更新，并尝试安装支持OpenCL的TFLite Runtime。此外，树莓派5的NPU（神经处理单元）是未来的巨大潜力点，待社区驱动和框架支持完善后，性能将有飞跃。
代码层面优化：
- 预热：在正式循环前，先对模型进行一次虚拟推理，加载所有运行时库。
- 减少不必要的操作：例如，如果相机支持，直接捕获为numpy数组，避免先保存为文件再读取。
- 异步处理：考虑使用Python的threading模块，将图像捕获、推理、控制逻辑放在不同线程，避免因推理耗时导致传感器漏检。但要注意线程安全。

7.2 常见问题与解决方案速查表

在实际部署中，你几乎一定会遇到下面这些问题。这里是我的排查笔记：

问题现象	可能原因	排查步骤与解决方案
相机无法初始化或报错	1. CSI排线未插紧。 2. 相机接口未在`raspi-config`中启用。 3. 系统内核版本与`picamera2`不兼容。	1. 重新插拔CSI排线，确保锁扣扣紧。 2. 运行`sudo raspi-config`>`Interface Options`>`Legacy Camera`或`Camera`启用。 3. 更新系统：`sudo apt update && sudo apt full-upgrade`，并重新安装`python3-picamera2`。
模型推理速度极慢（>5秒）	1. 使用了未优化的`.h5`模型。 2. 树莓派电源不足导致CPU降频。 3. 系统内存交换频繁。	1.务必使用`.tflite`格式模型并启用量化。 2. 检查电源是否为5V/3A，运行`vcgencmd get_throttled`查看是否发生欠压 throttling（返回值非0表示有问题）。 3. 使用`htop`命令查看内存使用，考虑增加`swap`空间或关闭不必要的后台进程。
检测准确率低	1. 训练数据量不足或质量差。 2. 现场光照与训练时差异大。 3. 产品位置、角度变化超出训练集范围。 4. 模型过拟合或欠拟合。	1.增加数据：收集更多样化的缺陷样本。使用数据增强。 2.固定光照：确保现场照明稳定，与训练环境一致。考虑使用光度立体光或偏振光消除反光。 3.机械定位：使用导向机构或定位夹具，确保产品每次出现在相机视野的同一位置。 4.调整模型：查看训练曲线。过拟合则增加Dropout、数据增强；欠拟合则增加模型复杂度或训练轮数。
超声波传感器误触发或漏触发	1. 检测距离阈值设置不合理。 2. 传感器前方有干扰物或振动。 3. 产品表面材质对超声波反射不佳。	1. 使用串口打印实时距离值，观察产品通过时的典型距离，据此调整触发阈值。 2. 加装物理遮光罩/隔离罩，减少环境干扰。确保传感器安装牢固。 3. 对于吸音材料（如泡沫、布料），考虑改用光电传感器或接近开关。
树莓派与Arduino通信失败	1. IP地址错误或网络不通。 2. Arduino Web服务器未启动或端口被占用。 3. HTTP请求格式错误。	1. 在树莓派上`ping`Arduino的IP地址。检查两者是否在同一局域网。 2. 查看Arduino串口监视器，确认Wi-Fi连接和服务器启动信息。 3. 使用Postman或`curl`命令测试HTTP接口：`curl -X POST http://<arduino_ip>/trigger -H "Content-Type: application/json" -d '{"action":"stop"}'`。
系统运行一段时间后卡死	1. 内存泄漏（尤其在连续运行多日时）。 2. CPU过热导致降频或死机。 3. SD卡读写错误。	1. 为推理脚本设置看门狗，或使用`systemd`服务在崩溃后自动重启。 2. 为树莓派加装散热风扇和散热片，确保通风良好。 3. 使用高品质、高耐用度的工业级SD卡，或考虑将系统迁移至USB SSD，可靠性大幅提升。

7.3 从原型到产线：可靠性加固建议

要让这个系统真正在产线上稳定运行，还需要考虑以下几点：

电源与看门狗：为整个系统配备UPS或稳压电源。为树莓派配置硬件或软件看门狗，在程序死锁时自动重启。
异常处理与日志：在主循环中增加完善的try-except块，捕获所有异常并记录到日志文件，而不是让整个程序崩溃。这有助于后期远程诊断。
状态监控与UI：可以开发一个简单的Web界面（使用Flask），实时显示检测结果统计、系统状态（CPU温度、内存使用率）、最新捕获的图像等，方便现场人员监控。
定期维护：模型不是一劳永逸的。当产品设计变更、新材料引入或出现新的缺陷类型时，需要定期用新数据重新训练和更新模型。

这个基于树莓派和机器学习的缺陷检测系统，其价值在于提供了一个完整、低成本、可高度定化的自动化解决方案原型。它清晰地展示了从数据采集、模型训练到软硬件集成的全流程。在实际应用中，你可能需要根据具体的检测对象（如PCB板、瓶盖、纺织品）来调整相机分辨率、照明方式、模型结构和触发传感器。但万变不离其宗，掌握了这个框架，你就拥有了将AI视觉落地到物理世界的核心能力。

查看全文

http://www.rkmt.cn/news/1423052.html