Spark Streaming概述详解

Spark Streaming概述

首先,我们来看几个概念

1、离线和实时概念

数据处理的延迟
1)离线计算
  就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是Hadoop的MapReduce方式。
2)实时计算
  输入数据是可以以序列化的方式一个个输入并进行处理的,也就是说在开始的时候并不需要知道所有的输入数据。与离线计算相比,运行时间短,计算量级相对较小。强调计算过程的时间要短,即所查当下给出结果。

2、批量和流式概念

  数据处理的方式
:处理离线数据,冷数据。单个处理数据量大,处理速度比流慢。
:在线,实时产生的数据。单次处理的数据量小,但处理速度更快。
  近年来,在Web应用、网络监控、传感监测等领域,兴起了一种新的数据密集型应用——流数据,即数据以大量、快速、时变的流形式持续到达。实例:PM2.5检测、电子商务网站用户点击流。
  流数据具有如下特征:
    数据快速持续到达,潜在大小也许是无穷无尽的
    数据来源众多,格式复杂
    数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃,要么被归档存储
    注重数据的整体价值,不过分关注个别数据

3、Spark Streaming是什么

Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象算子如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。

  在Spark Streaming中,处理数据的单位是一批而不是单条,而数据采集却是逐条进行的,因此Spark Streaming系统需要设置间隔使得数据汇总到一定的量后再一并操作,这个间隔就是批处理间隔。批处理间隔是Spark Streaming的核心概念和关键参数,它决定了Spark Streaming提交作业的频率和数据处理的延迟,同时也影响着数据处理的吞吐量和性能。

  和Spark基于RDD的概念很相似,Spark Streaming使用了一个高级抽象离散化流(discretized stream),叫作DStreams。DStreams是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为RDD存在,而DStreams是由这些RDD所组成的序列(因此得名“离散化”)。DStreams可以由来自数据源的输入数据流来创建, 也可以通过在其他的 DStreams上应用一些高阶操作来得到。

4、Spark Streaming特点

优点
1)易用
  Spark Streaming支持Java、Python、Scala等编程语言,可以像编写批处理作业一样编写流式作业。
2)容错性
  Spark Streaming在没有额外代码和配置的情况下,可以恢复丢失的数据。对于实时计算来说,容错性至关重要。首先要明确一下Spak中RDD的容错机制,即每一个RDD都是个不可变的分布式可重算的数据集,它记录着确定性的操作继承关系(lineage),所以只要输入数据是可容错的,那么任意一个RDD的分区(Partition)出错或不可用,都可以使用原始输入数据经过转换操作重新计算得到。
3)易整合性
  Spark Streaming可以在Spark上运行,并且还允许重复使用相同的代码进行批处理。也就是说,实时处理可以与离线处理相结合,实现交互式的查询操作。
缺点
  Spark Streaming是一种“微量批处理”架构, 和其他基于“一次处理一条记录”架构的系统相比, 它的延迟会相对高一些。

5、Spark Streaming架构

1)架构图

(1)Spark Streaming架构图

(2)整体架构图

2)背压机制

  Spark 1.5以前版本,用户如果要限制Receiver的数据接收速率,可以通过设置静态配制参数“spark.streaming.receiver.maxRate”的值来实现,此举虽然可以通过限制接收速率,来适配当前的处理能力,防止内存溢出,但也会引入其它问题。比如:producer数据生产高于maxRate,当前集群处理能力也高于maxRate,这就会造成资源利用率下降等问题。
  为了更好的协调数据接收速率与资源处理能力,1.5版本开始Spark Streaming可以动态控制数据接收速率来适配集群数据处理能力。背压机制(即Spark Streaming Backpressure): 根据JobScheduler反馈作业的执行信息来动态调整Receiver数据接收率
  通过属性“spark.streaming.backpressure.enabled”来控制是否启用backpressure机制,默认值false,即不启用。

教程来源于Github,感谢旧时光大数据大佬的无私奉献,致敬!

技术教程推荐

硅谷产品实战36讲 -〔曲晓音〕

趣谈Linux操作系统 -〔刘超〕

TensorFlow 2项目进阶实战 -〔彭靖田〕

恋爱必修课 -〔李一帆〕

Redis源码剖析与实战 -〔蒋德钧〕

AI大模型之美 -〔徐文浩〕

B端产品经理入门课 -〔董小圣〕

AI大模型企业应用实战 -〔蔡超〕

Rust 语言从入门到实战 -〔唐刚〕