当前位置: 首页 > news >正文

Spark专题-第三部分:性能监控与实战优化(1)-认识spark ui - 指南

Spark专题-第三部分:性能监控与实战优化(1)-spark ui

Spark UI 概述

Spark UI 是 Spark 提供的 Web 监控界面,用于实时查看应用程序的执行状态、性能指标和资源配置。

各模块详细解析

1. Jobs 页面

在这里插入图片描述

核心信息区域
**User:** inno                    # 提交作业的用户
**Total Uptime:** 34 min         # 应用总运行时间
**Scheduling Mode:** FIFO        # 调度模式(FIFO/FAIR)
**Completed Jobs:** 48           # 已完成的作业数量
主要功能区域
  • Event Timeline:作业执行时间线可视化
  • Completed Jobs:已完成作业列表,显示执行详情

2. SQL/DataFrame 页面

在这里插入图片描述

表格字段说明
-- 各列含义解析
ID *           : SQL查询的唯一标识符
Description    : 查询描述(通常显示触发查询的代码位置)
Submitted      : 查询提交时间
Duration       : 查询执行耗时
Job IDs        : 关联的Spark Job ID列表
性能分析要点
  • 查询38:执行仅10ms,属于高效查询
  • 查询37:耗时4.5分钟,可能存在性能瓶颈
  • 查询34:关联多个Job([39][48][41][42]),涉及复杂计算

3. Environment 页面

在这里插入图片描述

配置分类
Spark Properties    : Spark核心配置参数
Runtime Information : 运行时环境信息
关键配置参数
# 内存相关配置
spark.buffer.pageSize     = 65536      # 内存页大小
spark.broadcast.blockSize = 65536      # 广播变量块大小
# 动态分配配置
spark.dynamicAllocation.enabled = true  # 启用动态资源分配
# 序列化配置
spark.serializer = ...                 # 序列化器设置

实际SQL执行案例解析

案例:用户行为分析查询

-- 实际执行的Spark SQL
SELECT
user_id,
COUNT(*) as action_count,
AVG(duration) as avg_duration
FROM user_actions
WHERE event_date = '2025-09-04'
AND action_type IN ('click', 'view')
GROUP BY user_id
HAVING COUNT(*) > 10
ORDER BY action_count DESC
LIMIT 100;

在Spark UI中的对应显示

SQL提交
SQL/DataFrame页面-记录查询信息
生成执行计划-拆分为多个Jobs
Jobs页面-显示Job执行详情
Stage页面-显示任务阶段划分
Storage页面-显示数据缓存情况
Environment页面-显示配置参数

性能优化洞察

  1. 查询37耗时分析

  2. 配置优化建议

    # 针对大数据集的优化配置
    spark.conf.set("spark.sql.adaptive.enabled", "true")           # 启用自适应查询
    spark.conf.set("spark.sql.adaptive.coalescePartitions.enabled", "true")  # 自动合并分区
    spark.conf.set("spark.sql.adaptive.skew.enabled", "true")      # 处理数据倾斜

这一篇主要是对spark ui的界面熟悉一下,后面会举出实际的案例进行性能优化

http://www.rkmt.cn/news/14983.html

相关文章:

  • 2025 年等离子清洗机厂家 TOP 企业品牌推荐排行榜,大气,真空,宽幅,微波,自动化,常压,低温,大腔体,射频,DBD,介质阻挡放电等离子清洗机公司推荐!
  • 完整教程:如何优雅的布局,height: 100% 的使用和 flex-grow: 1 的 min-height 陷阱
  • 2025担保合同律师事务所推荐,专业团队高效解决法律难题!
  • 2025年筒袋磁力泵实力厂家推荐榜:高效耐用与创新技术深度解
  • Android项目实现自动获取手机号一键登录功能
  • Qt编程: 正则表达式分析 - 实践
  • Manim实现渐变填充特效
  • Spring Boot 集成 Redis 全方位详解 - 指南
  • 十月牛气冲天计数题没做
  • datadome 隐私模式 ck设置
  • CPU温度查看(Core Temp)
  • 深入解析:python学智能算法(三十九)|使用PyTorch模块的normal()函数绘制正态分布函数图
  • 2025污水处理设备厂家 TOP 企业品牌推荐排行榜,一体化,生活,工业,养殖,医疗,农村,学校,餐厨,隧洞,高速污水处理设备公司推荐!
  • 详细介绍:告别“下次注意”,用这套结构化事故复盘方案就对了
  • 关于树状数组的一些东西
  • [问题记录] vmagent 增加 aggregation 表达式后,CPU 上升 2.43 倍, 内存上升 3.82 倍
  • CF1081F Tricky Interactor
  • JAVA SE 基础语法 —— A / 初识 - 指南
  • 2025机械加工供货厂家权威口碑排行:实力与服务深度解析!
  • 2025七水硫酸锌厂家权威推荐榜:优质供应与专业定制首选
  • CustomKD论文阅读 - 实践
  • 2025 年水质测定仪厂家 TOP 企业品牌推荐排行榜,多参数,便携式,cod 快速,台式,污水,自来水,养殖,便携式总磷总氮,余氯总氯,废水水质测定仪公司推荐
  • AI+Decodo:构建智能电商价格监控系统的完整实战指南 - 实践
  • 2025公考培训机构权威推荐榜:实力师资与高效备考口碑之选
  • Mapper.xml中SQL语句的用法示例
  • MX-J24 题解(T1 - T4) - 指南
  • 2025球墨铸铁管厂家TOP企业品牌推荐排行榜,k9球墨铸铁管,c25球墨铸铁管,c30球墨铸铁管,c级国标离心球墨铸铁管,c级供水球墨铸铁管,dn900球墨铸铁管公司推荐!
  • 10/2
  • 使用 VictoriaLogs 存储和查询服务器日志
  • 详细介绍:Git 基础 - 查看提交历史