当前位置: 首页 > news >正文

Spark计算引擎

Spark是一个基于MapReduce思想的分布式通用计算框架,相对于MapReduce,它的升华主要体现在处理结果驻留在了内存中(RDD,即分布式内存的概念,也是将数据进行切片,计算的中间结果驻留在内存中,可以设置切片数,也可以采用默认值),可以直接与客户端交互,而不是像mapReduce那样,将结果存于hdfs,然后客户端再与hdfs交互,这样可以大大减少磁盘IO的消耗,更适用与数据挖掘和机器学习任务。

Spark支持检查点,会对任务的执行链进行记录,一旦某个任务执行失败,会对其进行重新执行,而不是对整个链路进行执行,大大提升了任务的执行效率

Spark支持Java,Python等多种语言开发,并提供了很多高级操作符,方便了不同语言之间的交互

Spark主要分为四块:

Spark Sql:类似传统的sql查询,可以直接查询hive中的数据

Spark Streaming:批处理的流式计算框架,map和reduce的各种算子就集中在这里,这是一个具体处理业务逻辑的地方

Spark GraphX:分布式的图处理框架,提供了很多图计算和图挖掘的接口

Spark MLIib:可拓展的机器学习库,包括很多常用算法,例如分类回归,聚类协同,决策树,朴素贝叶斯等

Spark的工作流程:

任务控制节点向集群管理器申请资源,启动执行器,执行器将任务分解并执行,执行结果返回控制节点

在Spark中一个应用由一个任务控制器和多个作业组成,同时作业可以切分成多个阶段,阶段可以再次切分成多个任务,这个任务就是Spark的最小逻辑执行单元了,可以利用多线程进行并行执行

http://www.rkmt.cn/news/30759.html

相关文章:

  • 173天隧道技术篇防火墙组策略ICMPDNSSMB协议出网判断C2上线解决方案
  • 实用指南:3DGS 如何理解它?
  • 面试总被追问k8s调度器工作原理, 收藏 == 学废
  • 题解:十二重计数法
  • 2025 年 10 月厨房排烟、厨房排烟罩、厨房排烟系统厂家最新推荐,资质、案例、售后三维测评与选购指南
  • # Ubuntu 根目录空间扩展操作手册(基于 RAID 关联磁盘 /dev/sdb2)
  • Perplexity Comet AI浏览器「等待网络链接」解决方案
  • 新地球
  • 实用指南:Android 常见界面布局详解
  • 2025 年 10 月食堂厨房设备厂家最新推荐,聚焦资质、案例、售后的食堂场景深度解读
  • 基于深度学习神经网络协同过滤模型(NCF)的视频推荐体系
  • 给安卓设置背景色的时候保持默认按钮样式(关于使用setBackgroundColor导致丢失默认按钮样式的问题)
  • 分片上传与断点续传实现详解
  • Kanass入门到实战(6) - 如何进行缺陷管理 - 指南
  • 数据处理方法汇总
  • 2025 年 10 月展示柜厂家最新推荐,技术实力与市场口碑深度解析!
  • 2025年10月益生菌品牌推荐榜:全维度对比与榜单解读
  • 2025年10月美容仪品牌推荐:无创无痛对比评测榜
  • 2025年10月中国遗产继承律师推荐榜:五强对比全解析
  • php特性
  • 2025年10月深圳近视手术医生推荐榜:五强对比与口碑评价
  • php_sha1函数特性
  • php非法参数
  • php原生类的使用
  • 2025 年 10 月仿石漆厂家最新推荐,精准检测与稳定性能深度解析
  • 下午选歌
  • 分治算法在查找第k小元素中的应用与分析
  • 2025年10月中国装饰公司对比榜:十家口碑与实力排行
  • 2025年10月电竞显示器品牌评价榜:五强对比与选购要点
  • 2025年10月食品展会推荐榜:NHNE领衔五大展会对比评测