大数据实时处理--架构分析

2024-02-24 11:43:40

架构图
1）日志采集：自定义一个日志服务
2）数据收集交换：使用Flume将日志服务数据收集过来，落在Kafka上
3）实时处理：基于Spark Streaming（SS）、Structured Streaming（SSS）来对接Kafka的数据
4）数据存储：第3）步处理后的数据，Spark Streaming处理的数据存储至HBase中，Structured Streaming处理的数据存储至Redis
5）查询API：页面的请求通过API，即使用Spring Boot、Spring Data来查询HBase和Redis里的数据，并把数据放置可视化里。在可视化里是通过Echarts来展示。也会使用到React来封装Echarts。
6）整个项目的运行环境：产商云主机、物理机、虚拟机

Spark和Kafka对接的offsets管理维护
1）首先，在Kafka集群里，做分区。
2）Kafka分区后，与Spark Streaming做对接
3）基于DStream，Spark Streaming可以进行一些处理，处理后将结果存储下来。
4）处理的批次对应的offset是哪些呢？需要通过commit offsets存储到HBase/Kafka/ZK/MySQL
5）如果作业挂掉/出现异常，机器重启，在DStream处理时，应该从已经存储过的offsets的HBase/Kafka/ZK/MySQL，往后进行操作，这样才能保证数据是准确的。

项目架构V1版本
1）用户---（问题1/2）---->LogServer----(source)--->Flume----(sink)--->Kafka Clauster (Topic)(实时)（问题3）------->Spark------->DB------->API------->UI
2）V1版本存在的问题1：实际上LogServer是由很多机器构成，这些机器有着不同的IP地址。不同用户的操作数据，上报到LogServer中不同的机器上，还需要去关注LogServer中不同机器的IP地址吗？当然不应再去关注LogServer相关信息。
3）V1版本存在的问题2：每一个用户的操作数据和LogServer中的机器，不可能一一对应，所以这里缺少负载均衡。所以用户的操作数据通过负载均衡，让数据比较均衡的落在LogServer中每个机器上。
4）V1版本存在的问题3：离线处理及实时处理的数据源都是一样的。Kafka是实时处理，当然也可以放入HDFS中进行离线处理。单层的Flume是存在隐患的，它没有任何负载均衡和容错性可言，一旦sink出问题，会影响整个流程的运转。

项目架构V2版本
1）用户------->Nginx Cluster------->LogServer----(source)--->Flume 1----(sink)--->Flume 2------->Kafka Clauster (Topic)(实时)------->Spark------->DB------->API------->UI
2）Nginx Cluster来完成负载均衡
3）Flume 2 进行聚合操作，相当于是容错机制。如果第一套sink出问题了，采用第二套sink。做一个高可用的配置，使得第一个sink出问题，也能保障整个流程运转正常。

码农公寓