基于零代码平台的自媒体运营数据清洗与预处理-尧图网站建设

📅 发布时间：2026/7/3 3:12:13

#助睿数智 #商业数据分析 #数据集成 #自媒体运营分析 #数据清洗

一、实验背景

1.1 实验目的

本次实验基于全班同学在多平台发布的作品互动数据，使用助睿ETL完成数据清洗与预处理，输出两张核心数据表，为后续特征工程与可视化分析奠定基础。

通过本实验，学生应掌握以下技能：

理解数据清洗在数据分析流程中的基础性与必要性

使用助睿ETL完成多源数据的过滤、填充、聚合等预处理操作

掌握"分支处理"的设计思路：全平台概况统计与重点平台深度分析分流

输出两张规范数据表，支撑仪表盘不同模块的数据需求

熟悉排序记录、分组、过滤记录、替换NULL值、字段选择、表输出等常用组件的配置方法

1.2 实验环境

零代码在线平台：助睿数智（Uniplore），一站式数据科学平台，覆盖数据接入、ETL处理、机器学习建模到可视化展示的全链路功能。官网为 https://www.uniplore.com/ ，本次实验实训地址为 https://lab.guilian.cn/ 。

数据处理工具：助睿ETL（数据集成平台），其核心优势包括：

全元数据驱动架构：平台内所有对象类型均通过元数据标准化定义，覆盖数据读取、处理、写入的全流程

零代码拖拽式操作：通过可视化方式完成数据的抽取（Extract）、转换（Transform）、加载（Load），无需编写复杂代码

丰富的预处理组件：内置筛选、填充、聚合、连接、字段选择等多种转换节点，灵活应对各类数据清洗场景

Pipeline（转换流）机制：面向数据流通处理的核心功能单元，由多个不同功能的Transform步骤组合构成，聚焦数据本身的加工转换操作

数据源：助睿ETL公共空间的自媒体作品数据明细.csv，采集了全班同学在6月8日-6月15日前提交的作品互动数据。该数据集仅覆盖采集时间节点前已发布且未被删除的作品。

1.3 业务场景

自媒体运营分析中，采集到的原始数据往往不能直接用于分析，需要先做清洗。观察自媒体作品数据明细.csv 这份数据，可以发现几个问题：

平台冗余：数据包含了B站、CSDN、微信、知乎、小红书等多个平台，但微信、知乎等平台的浏览数量几乎全是0，虽然记录存在，但缺乏核心浏览数据，无法支撑有意义的分析

无效记录：部分作品的浏览数量、点赞数量、收藏数量全部为0，这些记录可能是采集失败，也可能是作品无人问津，但对分析没有贡献

字段缺失：点赞、收藏、分享等字段中存在空值，如果不处理，后续计算会报错

本次实验的任务就是通过助睿ETL零代码平台，借助拖拽式组件逐一解决以上数据质量问题，为后续的特征工程和可视化分析提供干净、规范的数据基础。

1.4 数据加工流程

本次实验有一个特殊之处：后续可视化仪表盘需要同时展示两类信息——"全平台概况"和"重点平台深度分析"。两类信息对数据的要求不同，因此在ETL中需要做分支处理：

分支一（全平台概况统计）：对所有平台的原始数据按日期和平台进行排序、分组聚合，统计各平台的作品数量、总浏览数、总点赞数等汇总指标，输出 summary_all_platforms 表，用于仪表盘顶部的全平台概况指标卡

分支二（重点平台深度分析）：筛选B站和CSDN的有效记录（浏览数量>0），填充缺失值，选择关键字段，输出 content_analysis 表，作为后续实验（实验7-2）的输入

整体数据处理流程如下：

【分支一】CSV文件输入 ── 排序记录 ── 分组（按日期+平台聚合） ── summary_all_platforms 表输出

【分支二】CSV文件输入 ── 过滤记录（B站/CSDN + 浏览>0）── 替换NULL值 ── 字段选择 ── content_analysis 表输出

二、实验步骤

2.1 登录实验平台

在课程学习页面点击对应的实验入口，进入实验指引后点击"大数据实训平台"跳转至 https://lab.guilian.cn/ 。从课程平台自动登录，成功进入助睿实验平台首页。

添加图片注释，不超过 140 字（可选）

2.2 创建团队（可选，个人实验略过）

进入平台后，选择"数据集成/ETL"模块。为方便管理，可先创建团队并添加组员。队长创建团队后，通过手机号邀请成员加入。个人实验可直接使用默认项目，此步略过。

2.3 创建实验项目

在数据集成页面，新建项目，选择所属团队（个人实验则选个人空间），输入项目名称如"自媒体运营数据清洗"，确认后即在列表中显示新项目。

添加图片注释，不超过 140 字（可选）

2.4 同步数据源与导入原始数据

打开新建的项目，进入"元数据"菜单，右键"根关系数据库"，选择"同步数据源"，稍等片刻即可看到元数据中的数据库列表。本次实验数据来源于助睿ETL公共空间的自媒体作品数据明细.csv，需要先将该文件从公共空间复制到自己的文件库中，作为转换流的数据源输入。

在资源库中找到自媒体作品数据明细.csv 文件，确认其包含日期、作者昵称、作品标题、平台、点赞数、收藏数、分享数、投币数（B站特有）、浏览数量、作品链接等字段。需要说明的是，该数据集仅覆盖采集时间节点（6月8日-6月15日）前已发布且未被删除的作品，之后新提交或已删除的作品不在此次分析范围内。

添加图片注释，不超过 140 字（可选）

2.5 新建转换流

切换到"资源库"菜单，右键根目录选择"新建转换流"，输入名称"自媒体运营数据清洗与预处理"，创建后进入转换流设计页面。画布默认锁定，需点击解锁后方可编辑。

添加图片注释，不超过 140 字（可选）

2.6 步骤一：创建目标表

在助睿ETL的资源库中，右键目标文件夹，选择新建表，分别创建两张目标表。

第一张是全平台概况表（summary_all_platforms），用于存放所有平台的汇总数据。该表不做任何过滤，保留所有平台的原始数据，各平台特色指标（B站的投币、微信的推荐、知乎的喜欢/赞同）单独保留列，不合并到通用指标中。字段设计如下：

字段	类型	说明
crawl_date	DATE	采集日期
platform	VARCHAR(20)	平台名称
content_count	INT	作品数量
total_views	INT	总浏览数
total_likes	INT	总点赞数
total_favorites	INT	总收藏数
total_shares	INT	总分享数
total_coins	INT	总投币数（仅B站）
total_recommend	INT	总推荐数（仅微信）
total_likes_zhihu	INT	总喜欢数（仅知乎）
total_approvals	INT	总赞同数（仅知乎）

添加图片注释，不超过 140 字（可选）

第二张是内容分析表（content_analysis），作为实验7-2的输入。字段与原始数据基本一致，但只包含B站和CSDN的有效记录。其中 interaction_rate、has_best、has_lowcode、has_practice、has_tutorial、has_pit 字段的数据加工将在下一个实验中完成。字段设计如下：

字段	类型	说明
date	DATE	采集日期
author_name	VARCHAR(100)	作者昵称
title	VARCHAR(500)	作品标题
platform	VARCHAR(20)	B站 / CSDN
likes	INT	点赞数
favorites	INT	收藏数
shares	INT	分享数
coins	INT	投币数（仅B站）
views	INT	播放量/阅读量
url	VARCHAR(500)	作品链接
total_interaction	INT	互动总数
has_best	TINYINT(1)	是否含"保姆级"
has_lowcode	TINYINT(1)	是否含"零代码"
has_practice	TINYINT(1)	是否含"实战"
has_tutorial	TINYINT(1)	是否含"教程/指南"
has_pit	TINYINT(1)	是否含"踩坑"

添加图片注释，不超过 140 字（可选）

2.7 步骤二：添加组件并建立连接

按照数据处理逻辑，依次从组件库拖拽组件到画布，为两条分支分别建立节点连接线。

添加CSV文件输入组件搜索"CSV文件输入"，将其拖入画布。该组件作为两条分支的公共数据源。双击编辑组件，步骤名称修改为"自媒体作品数据CSV输入"。
分支一：添加排序记录组件搜索"排序记录"，拖入画布。从CSV输入组件拖出连接线到排序记录组件，选择"主输出步骤"。该组件用于在聚合前按采集日期和平台进行排序，确保数据有序排列。
分支一：添加分组组件（全平台聚合统计）搜索"分组"，拖入画布，命名为"全平台聚合统计"。从排序记录组件拖出连接线到该组件。配置时按 crawl_date（采集日期）和 platform（平台名称）进行分组，其余数值字段（浏览数量、点赞数量、收藏数量、分享数量、投币数量、推荐数量、喜欢数量、赞同数量等）全部取求和（SUM）。这样可以得到每个平台每天的作品数量与互动总数汇总。
分支一：添加表输出组件搜索"表输出"，拖入画布，命名为"全平台概况表输出"。从分组组件拖出连接线到该组件。后续配置为输出到 summary_all_platforms 表。
分支二：添加过滤记录组件搜索"过滤记录"，拖入画布。从CSV输入组件拖出另一条连接线到过滤记录组件（选择"主输出步骤"）。该组件实现双重过滤：只保留B站和CSDN两个平台，且浏览数量大于0的有效记录。过滤条件表达式为： (平台 = 'B站' AND 浏览数量 > 0) OR (平台 = 'CSDN' AND 浏览数量 > 0) 逻辑说明：括号内的条件组合确保"平台"与"有效记录判定"同时满足，一个组件完成双重过滤。助睿ETL的过滤记录组件支持通过 AND、OR 灵活组合多条件，一步到位完成精细化数据筛选。
分支二：添加替换NULL值组件搜索"替换NULL值"，拖入画布，命名为"填充缺失值"。从过滤记录组件的"True输出"连接线拖入此组件。由于数值字段（点赞、收藏、分享等）在过滤后已经没有空值，但作者名称（author_name）和作品标题（title）可能存在空值，统一填充为"未知"，避免后续使用时出现异常。
分支二：添加字段选择组件搜索"字段选择"，拖入画布，命名为"字段选择"。从替换NULL值组件拖出连接线到此组件。原始数据中的 source_file 是采集批次标记，分析阶段用不到，需要剔除。投币数量（coins）保留，作为B站特有的互动指标。通过"获取字段"自动载入所有字段后，只保留以下10个字段： date, author_name, title, platform, likes, favorites, shares, coins, views, url
分支二：添加表输出组件

搜索"表输出"，拖入画布，命名为"内容分析表输出"。从字段选择组件拖出连接线到该组件。后续配置为输出到 content_analysis 表。

整体连接完成后，画布上形成两条清晰的分支链路。一条是从CSV输入经过排序、分组到全平台概况表输出；另一条是从CSV输入经过过滤记录、替换NULL值、字段选择到内容分析表输出。

添加图片注释，不超过 140 字（可选）

2.8 步骤三：配置组件参数

2.8.1 CSV文件输入组件配置

双击"自媒体作品数据CSV输入"组件，进入配置窗口。在"文件"标签中，点击浏览按钮，从自己的文件库中选择自媒体作品数据明细.csv。在"内容"标签中可选择预览数据，确认列名和数据样例。在"字段"标签中会自动解析CSV的列结构，可调整字段类型。

添加图片注释，不超过 140 字（可选）

2.8.2 排序记录组件配置

双击排序记录组件，在配置窗口中选择排序字段。依次添加 crawl_date（升序）和 platform（升序）作为排序依据，确保后续分组操作基于有序数据进行。

添加图片注释，不超过 140 字（可选）

2.8.3 分组组件配置（全平台聚合统计）

双击"全平台聚合统计"组件，进入分组配置窗口。在"分组字段"标签中，添加 crawl_date 和 platform 作为分组维度。在"聚合字段"标签中，对浏览数量、点赞数量、收藏数量、分享数量、投币数量、推荐数量、喜欢数量、赞同数量等数值字段全部选择 SUM 聚合函数。组件会自动为每个日期和平台的组合生成一条汇总记录。

添加图片注释，不超过 140 字（可选）

2.8.4 过滤记录组件配置

双击过滤记录组件，进入过滤条件配置。选择"高级"模式，输入组合条件表达式：

(平台 = 'B站' AND 浏览数量 > 0) OR (平台 = 'CSDN' AND 浏览数量 > 0)

此表达式将数据流分为两条支路：满足条件的数据通过True输出（有效记录），不满足条件的数据通过False输出（被过滤掉的数据）。False输出可选择丢弃或连接到一个空操作组件。

添加图片注释，不超过 140 字（可选）

2.8.5 替换NULL值组件配置

双击"填充缺失值"组件，进入配置窗口。在"字段"列表中选择 author_name，替换值填写"未知"。再选择 title，替换值同样填写"未知"。数值字段由于过滤后已无空值，无需配置。

添加图片注释，不超过 140 字（可选）

2.8.6 字段选择组件配置

双击"字段选择"组件，进入字段选择界面。点击"获取字段"自动载入上游所有字段，然后逐一选择需要保留的10个字段（date、author_name、title、platform、likes、favorites、shares、coins、views、url），将其移动到保留列表中，其余字段（如 source_file、推荐数量、喜欢数量、赞同数量等）自动被剔除。

添加图片注释，不超过 140 字（可选）

2.8.7 表输出组件配置

双击"全平台概况表输出"组件，在"数据库连接"中选择对应的数据库连接，在"目标表"中选择 summary_all_platforms。切换到"数据库字段"标签，右键空白处选择"获取字段"，自动匹配上游字段与表字段的对应关系。同样方法配置"内容分析表输出"组件，目标表选择 content_analysis。

添加图片注释，不超过 140 字（可选）

2.9 步骤四：保存并执行转换流

所有组件配置完成后，点击画布上方的"保存"按钮。确认保存成功后，点击"执行"按钮（绿色播放图标），启动转换流。观察下方执行日志窗口，可以看到：

CSV文件输入：读取到 XXX 条原始记录

排序记录：数据按日期和平台完成排序

分组聚合统计：生成 XXX 条全平台汇总记录

过滤记录：B站/CSDN有效记录 XXX 条，滤除 XXXX 条

替换NULL值：填充 X 处空值

字段选择：保留10个字段，去除 X 个冗余字段

表输出：summary_all_platforms 写入 XXX 条，content_analysis 写入 XXX 条

所有组件的输入输出行数正常流转，直到出现"转换完成"提示，表示执行成功。

添加图片注释，不超过 140 字（可选）

三、实验结果

转换流执行成功后，在数据库中可以查看两张目标表的数据。

3.1 全平台概况表（summary_all_platforms）

该表包含了所有平台（B站、CSDN、微信、知乎、小红书）按日期聚合的汇总数据。数据预览中可以看到：

crawl_date：采集日期，显示为6月8日至6月15日范围内的多个日期

platform：包含B站、CSDN、微信、知乎、小红书等平台

content_count：每个平台每天的作品数量

total_views / total_likes / total_favorites / total_shares：各平台的通用互动指标汇总

total_coins / total_recommend / total_likes_zhihu / total_approvals：各平台特有的互动指标，B站有投币数、微信有推荐数、知乎有喜欢数和赞同数，这些指标互不合并，各自独立展示

共生成 XXX 条汇总记录（具体行数取决于数据中出现的日期与平台组合数）。该表不做任何过滤，完整保留了所有平台的原始数据汇总。

添加图片注释，不超过 140 字（可选）

3.2 内容分析表（content_analysis）

该表只包含B站和CSDN两个平台中浏览数量大于0的有效记录。数据预览中可以看到：

platform：只有"B站"和"CSDN"两个值

views：所有记录的浏览数量均大于0

author_name 和 title：缺失值已填充为"未知"

字段列表：仅包含 date、author_name、title、platform、likes、favorites、shares、coins、views、url 共10个字段

has_best、has_lowcode 等标签字段当前为空（将在实验7-2中加工填充）

共生成 XXX 条有效记录。该表作为中间结果，将交由下一个实验（实验7-2：特征工程）继续加工处理。

添加图片注释，不超过 140 字（可选）

3.3 结果验证

对清洗结果进行以下验证：

全平台概况表中，每个日期和平台的组合仅出现一次，不存在重复记录

全平台概况表中的作品数总和等于原始CSV的总记录数（数据无丢失）

内容分析表中的所有记录，platform 字段只能为"B站"或"CSDN"，views 字段全部大于0

内容分析表中的 author_name 和 title 字段无空值（均已替换为"未知"）

内容分析表中不存在 source_file 等冗余字段，字段数严格为10个

以上验证全部通过，说明数据清洗与预处理结果正确。

四、问题与解决

问题一：过滤记录组件条件表达式配置报错

现象：在过滤记录组件中输入 (平台 = 'B站' AND 浏览数量 > 0) OR (平台 = 'CSDN' AND 浏览数量 > 0) 后，点击确定时提示"条件表达式语法错误"。

原因：检查发现表达式中的字段名写错了。"平台"字段在CSV中的实际列名为 platform（英文字段名），而非"平台"（中文别名）。过滤记录组件引用的是原始字段名，需要与CSV中的列名完全一致。

解决方法：将过滤条件表达式修改为：

(platform = 'B站' AND views > 0) OR (platform = 'CSDN' AND views > 0)

修改后，点击确定，表达式校验通过，不再报错。

问题二：字段选择后表输出时字段匹配报错

现象：配置"内容分析表输出"组件时，点击"获取字段"后，数据库字段与上游字段无法自动匹配，部分字段显示红色未匹配状态。

原因：content_analysis 表中定义了16个字段（包括 total_interaction、has_best 等将在后续实验加工的字段），但字段选择组件只保留了10个字段。数据库表中多出的字段在上游数据流中不存在，导致匹配失败。

解决方法：手动调整字段映射关系。对于上游有对应字段的（如 date、author_name、title 等），手动选择对应关系；对于上游不存在的字段（如 total_interaction、has_best 等），保持为空，这些字段在数据库中已有默认值或允许为空。重新保存后执行转换，不再报错。

五、实验总结

5.1 收获

通过本次实验，我对数据清洗在数据分析流程中的基础性和必要性有了更深入的理解。原始数据往往存在平台冗余、无效记录、字段缺失等问题，这些"脏数据"不能直接用于分析，必须经过系统的清洗和预处理。

在使用助睿ETL平台的过程中，我掌握了以下核心技能：

多条件过滤：使用 AND/OR 组合平台过滤与有效记录判定，一个组件完成双重过滤，高效实现精细化数据筛选

分支处理设计：理解全平台概况统计与重点平台深度分析的分流思路，在同一转换流中通过并行分支同时处理两类数据需求

缺失值处理：使用替换NULL值组件，统一填充默认值（如"未知"），避免后续计算异常

字段选择与聚合：使用字段选择组件精简数据、剔除冗余字段；使用分组组件按多维度聚合统计，灵活提取汇总指标

Pipeline组合思维：将多个Transform步骤组合成一个完整的转换流，从CSV文件输入到最终目标表输出，形成端到端的数据加工链路

这次实验让我体会到，零代码ETL并非只是"拖拖拽拽"那么简单，它背后蕴含着对数据质量和业务需求的深层理解。只有当清洗策略与下游分析目标紧密结合时，才能输出真正有价值的干净数据。

5.2 对平台的整体评价

助睿数智（Uniplore）作为一站式数据科学平台，本次使用的ETL模块展现出以下优势：

拖拽式操作直观：组件库丰富，从CSV输入、过滤、填充、字段选择到表输出，覆盖了常见数据清洗场景的各类需求，无需编写代码即可完成复杂的数据加工任务

Pipeline机制设计清晰：每个转换流可以包含多条分支，支持复杂的并行处理逻辑（如本实验中的双分支设计），非常适合有明确数据处理流程的场景

过滤记录组件功能强大：支持 AND/OR 组合条件表达式，一个组件即可完成多重过滤，配置简洁且灵活性高

元数据驱动与自动字段匹配：数据库表与ETL组件之间的字段映射可通过"获取字段"一键完成，减少手动配置工作量

不足之处在于：

错误提示可读性有待提升：过滤条件表达式的语法错误提示信息比较简略，初学者可能需要多次尝试才能定位问题

中文字段名与英文列名映射需额外注意：CSV中的英文列名与UI中显示的中文别名容易混淆，配置条件表达式中需要引用原始英文列名

整体上，助睿ETL平台非常适合零基础的数据分析教学场景和中小规模数据处理任务，能够帮助非技术背景的分析人员快速上手数据清洗工作。

附录：平台相关信息

平台全称：助睿数智（Uniplore）

平台定位：一站式数据科学平台，覆盖数据接入 → ETL处理 → 机器学习建模 → 可视化展示全链路

官网：https://www.uniplore.com/

实验实训平台地址：https://lab.guilian.cn/

ETL模块名称：助睿ETL（数据集成平台）

核心机制：全元数据驱动架构 + Pipeline（转换流）+ 零代码拖拽式操作