当前位置: 首页 > news >正文

DAY27 pipeline管道

一、知识回顾:

1、转化器和估计器的概念

(1)转换器

转化器通俗的来说就是对数据进行预处理的工具,转换器的特点是无状态的,即它们不会存储任何关于数据的状态信息(指的是不存储内参),根据输入数据学习转换规则(比如函数规律、外参),并将其应用于新的数据。

代码示例:

from sklearn.preprocessing import StandardScaler # 初始化转换器 scaler = StandardScaler() # 1. 学习训练数据的缩放规则(计算均值和标准差),本身不存储数据 scaler.fit(X_train) # 2. 应用规则到训练数据和测试数据 X_train_scaled = scaler.transform(X_train)

(2)估计器

估计器是实现机器学习算法的对象或类。估计器的主要方法是fit和predict。fit方法用于根据输入数据,学习模型的参数和规律,而predict方法用于对新的未标记样本进行预测。估计器的特点是有状态的,它们在训练过程中存储了关于数据的状态信息,以便在预测阶段使用。

参考代码:

from sklearn.linear_model import LinearRegression # 创建一个回归器 model = LinearRegression() # 在训练集上训练模型 model.fit(X_train_scaled, y_train) # 对测试集进行预测 y_pred = model.predict(X_test_scaled)

2、管道工程

机器学习的管道机制通过将多个转换器和估计器按顺序连接在一起,可以构建一个完整的数据处理和模型训练流程。具体而言,在管道机制中,可以使用Pipeline类来组织和连接不同的转换器和估计器。Pipeline类提供了一种简单的方式来定义和管理机器学习任务的流程。

二、pipeline管道架构的搭建

1、导入基础库、 Pipeline 和相关预处理工具、机器学习模型和评估工具,并加载原始数据。

2、分离特征和标签,划分数据集

3、定义预处理步骤

(1)识别原始的 object 列

非数值型->离散变量:

(2)构建处理有序特征的 Pipeline:先填充缺失值,再进行有序编码

(3)构建处理标称特征的 Pipeline:先填充缺失值,再进行独热编码

连续性数值

(4)直接从所有列中排除已知的有序和标称特征,构建处理连续特征的 Pipeline: 先填充缺失值,再进行标准化。

(5)基于以上形成的三种Pipeline构建 ColumnTransformer,将不同的预处理应用于不同的列子集,构造一个完备的转化器。

(6)构建完整的 Pipeline,将预处理器和模型串联起来(加入估计器

(7)使用 Pipeline 对模型进行训练和评估。

@浙大疏锦行

http://www.rkmt.cn/news/117733.html

相关文章:

  • springboot框架对接物联网,配置TCP协议依赖,与设备通信,让TCP变的如此简单
  • 软件测试环境搭建全流程指南
  • 中国储能第一股赴美IPO,但工厂也得搬过去
  • Model Context Protocol(MCP)简介以及简单示例代码测试(.net8)
  • GitLab讲解
  • 用长短期记忆网络融合注意力机制做时间序列预测,效果惊人
  • 在Linux系统上一键配置DoH,解决DNS解析被污染
  • 12.17学习例题(1)
  • 提示词工程完全指南(超详细)从零基础到精通,一篇就够,建议收藏!
  • C2000,28335Matlab/Simulink代码生成技术,处理器在环,里面有电力电子常...
  • const是什么
  • 大模型新手必看:入门经验分享,助你快速成长,少走三年弯路!
  • 一款实用的Windows自动更新管理器--WAU 管理器,v3.8.3.0新版本,中文便携版~
  • YC创业名录:精准对接高潜力初创公司
  • ManySpeech —— 使用 C# 开发人工智能语音应用
  • 基于大数据的社交网络隐私保护及舆情分析可视化系统开题报告
  • Vue3利用ResizeObserver监听Textarea的尺寸动态调整表格tbody的maxHeight
  • 论文文献引用格式最新规范流出,毕业季限时必看!
  • SpringBoot使用设计模式一装饰器模式
  • 从零构建AI镜像,缓存命中率提升至95%的3个核心技巧
  • Java 大视界 -- Java 大数据在智能家居能源管理与节能优化中的深度应用
  • 基于java的SpringBoot/SSM+Vue+uniapp的仓储管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
  • 基于大数据的热点话题分析系统的设计与实开题报告 (1)
  • 如何解决 pip install 网络报错 ERROR: No matching distribution found for requests
  • FreeIPA能建立用户组,并将域组带入到加域的客户端
  • 基于大数据的热点话题分析系统的设计与实开题报告
  • 【值得收藏】RAG技术全解析:大模型检索增强生成的挑战、范式与优化策略
  • 超越规范:测试标准如何成为你的效率引擎,而非发展枷锁?
  • 你不知道的Q#调试黑科技:如何让Python端实时捕获量子状态异常
  • Windwos 内存被占用,但是任务管理器没有占用这么多,