博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark Streaming揭秘 Day19 架构设计和运行机制
阅读量:7226 次
发布时间:2019-06-29

本文共 743 字,大约阅读时间需要 2 分钟。

Spark Streaming揭秘 Day19

架构设计和运行机制

今天主要讨论一些SparkStreaming设计的关键点,也算做个小结。

DStream设计

首先我们可以进行一个简单的理解:DStream就是加上时间维度的RDD。RDD的模板是DStream,DAG的模板是DStreamGraph,RDD的依赖关系就是DStream的依赖关系。

但是,从DStream的设计来看,我们会发现,DStream的操作和RDD并不是一一对应的,DStream并不直接支持join、orderBy等操作,并增加了window和state等特定操作。

从设计角度出发,DStream只是对RDD的一个封装,DStream和DStreamGraph只是这个时间的BatchDuration产生RDD功能的一部分,在时间维度下方便我们管理整个RDD生命周期的方方面面,只是方便而已。

Timer设计

整个SparkStreaming的设计理念是时间驱动,其驱动力就是定时器Timer。JobScheduler说到底,主要用途就是用来封装定时器。

其核心是两个定时器,分别位于和BlockGenerator和JobGenerator中:

blockIntervalTimer不断产生数据。

Snip20160603_2

timer则是不断产生作业。

Snip20160603_3

并且,我们发现定时器是一个死循环逻辑,也就是说整个集群无时不刻在运行。

Snip20160603_4

我们可以认为,SparkStreaming从整体来说,就是由Timer触发周而复始的接收数据和产生Job处理。

欲知后事如何,且听下回分解

DT大数据每天晚上20:00YY频道现场授课频道68917580

转载于:https://www.cnblogs.com/dt-zhw/p/5557814.html

你可能感兴趣的文章
分享阿里云服务器系列之弹性裸金属服务器
查看>>
Merge k Sorted Lists@LeetCode
查看>>
Hibernate-ORM:15.Hibernate中的Criteria查询
查看>>
Flask從入門到入土(五)——Flask与数据库
查看>>
手动删除木马程序
查看>>
Ebistrategy亦策软件提升天天果园管理效率
查看>>
33个优秀的 jQuery 图片展示插件分享
查看>>
使用Identity Server 4建立Authorization Server (4)
查看>>
Docker
查看>>
精通SpringBoot——第四篇:Spring事件 Application Event
查看>>
ThreadPoolExecutor详解
查看>>
真能“穿墙识人”,MIT人体姿态估计系统创历史最高精度!
查看>>
今日科技联播:阿里“文案妹”逗比搞怪样样在行,每秒可撰20000广告文案
查看>>
小米涉足银行业 联合新希望集团成立民营银行
查看>>
用私服修复Maven仓库依赖引用(加载)不下来的问题
查看>>
中国四大银行IT基础架构去IOE问题思考和探讨
查看>>
Spark RDDRelation
查看>>
解决ssh登录后闲置时间过长而断开连接
查看>>
ADB server didn't ACK 解决方法
查看>>
奥迪与Alta达成合作,将为电动汽车打造太阳能天窗
查看>>