余老师带你学习大数据框架全栈第十三章Hudi第一节Hudi介绍

为什么会产生数据湖

余老师带你学习大数据框架全栈第十三章Hudi第一节Hudi介绍

数据量比较大,越来越不满足处理结构化的数据,比如说数仓,数仓就是处理结构化数据。什么是结构化数据,就是数据成数据库来的,传统型的数据库有:MySQL数据库、Oracle、SQLserver,从这些库里面过来的数据都是结构化数据。日志、json、xml是属于半结构化数据,结构化数据和半结构化数据就是当前数仓所做的功能。数据湖的产生就是为了解决非结构化数据和二进制数据,主要就是处理非结构化数据,非结构化数据主要是:图片、视频、音频。

数据湖的性能特点

余老师带你学习大数据框架全栈第十三章Hudi第一节Hudi介绍
余老师带你学习大数据框架全栈第十三章Hudi第一节Hudi介绍

1、新增支持特别快的新增和删除的功能
2、要有表的结构信息
3、本身就有小文件管理合并
4、保证语义等

Hudi介绍

Hudi将带来流式处理大数据,提供新数据集,同时比传统批处理效率高一个数据量级。
余老师带你学习大数据框架全栈第十三章Hudi第一节Hudi介绍

Hudi特性

1、快速upsert,可插入索引
2、以原子方式操作数据并具有回滚功能
3、写入器之间的快照隔离
4、savepoint用户数据恢复的保存点
5、管理文件大小,使用统计数据布局
6、数据行的异步压缩和柱状数据
7、时间数据跟踪血统

上一篇:基于Flink+Hudi构建企业万亿级云上实时数据湖视频教程(2021新课)


下一篇:基于Flink+Hudi构建企业万亿级云上实时数据湖视频教程(2021新课)