还不会使用大数据ETL工具Kettle,你就真的out了!

写在前面: 博主是一名大数据初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/
尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。我希望在最美的年华,做最好的自己!

        最近在做一个数仓项目,其中就用到了Kettle。对于像我这样的小白来说,自然也是第一次使用。但好在熟能生巧,在快速掌握了如何使用之后,便打算单独拿一期来好好为大家科普一下什么是Kettle,以及如何简单入门~

还不会使用大数据ETL工具Kettle,你就真的out了!

文章目录


可视化ETL工具

        ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load) 至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库

Kettle介绍

        对于企业或行业应用来说,经常会遇到各种数据的处理,转换,迁移,掌握一种etl工具的使用,必不可少,这里要学习的ETL工具是——Kettle,现在已经更名为PDI

        Kettle的主要特点如下:

  • Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装
  • Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出
  • Kettle允许管理来自不同数据库的数据,提供一个图形化的用户环境来描述想做什么,无需关心怎么做

        既然Kettle这么重要,那接下来让我们看看在大数据岗位中对于Kettle的掌握要求。

大数据岗位需求

还不会使用大数据ETL工具Kettle,你就真的out了!


还不会使用大数据ETL工具Kettle,你就真的out了!


还不会使用大数据ETL工具Kettle,你就真的out了!


还不会使用大数据ETL工具Kettle,你就真的out了!


        通过对上面大数据岗位的职位需求信息可以发现,越来越多的企业要求程序员掌握Kettle这门技术

        那此时看到这里的你若跟博主最初一样,心里想着我不会使用Kettle怎么办啊…别急,停止焦虑,继续认真往下看????

还不会使用大数据ETL工具Kettle,你就真的out了!

Kettle安装,配置

环境要求:

  • 安装、配置好JDK

1.下载Kettle(体贴的博主已经为大家准备好了)

链接:https://pan.baidu.com/s/1MxwhWmXWCUthOhhZ53HQ-Q 
提取码:eupb

2.解压Kettle

我们打开data-integration目录,双击Spoon.bat即可成功打开Kettle
还不会使用大数据ETL工具Kettle,你就真的out了!
然后就会看到类似这样的界面
还不会使用大数据ETL工具Kettle,你就真的out了!
当成功打开之后,就可以看到
还不会使用大数据ETL工具Kettle,你就真的out了!
既然都打开了,咱不能闲着,赶紧跟着本菌的步伐,上手下面罗列出的入门案例。

入门案例

提前声明:以下案例所需要的数据源博主均已备好并与压缩包放置网盘,需要的朋友请自取????。

Test1 csv - excel

需求:

  • 把数据从CSV文件(ketttle测试数据\用户数据源\user.csv)抽取到Excel文件

具体步骤:

1.新建一个转换
还不会使用大数据ETL工具Kettle,你就真的out了!
2.拖拽一个CSV输入组件、一个Excel输出组件、并按住Shift拖动鼠标连接两个组件
还不会使用大数据ETL工具Kettle,你就真的out了!
还不会使用大数据ETL工具Kettle,你就真的out了!
拖拽完成后,使用Ctrl+Alt 将两个组件连接起来
还不会使用大数据ETL工具Kettle,你就真的out了!
3.配置CSV输入组件
还不会使用大数据ETL工具Kettle,你就真的out了!
点击预览数据
就可以看到数据输入的内容
还不会使用大数据ETL工具Kettle,你就真的out了!

4.配置Excel输出组件
还不会使用大数据ETL工具Kettle,你就真的out了!
还不会使用大数据ETL工具Kettle,你就真的out了!
5.配置完毕,点击运行,保存操作记录文件,然后就可以下面的结果
还不会使用大数据ETL工具Kettle,你就真的out了!
6.观察输出文件
还不会使用大数据ETL工具Kettle,你就真的out了!
若看到上面的结果,说明大家操作成功了~

Test2 json-excel

需求:

  • 将资料\kettle测试数据\用户数据源\user.json数据文件,通过Kettle,抽取到Excel中

user.json文件中就是类似这样的数据
还不会使用大数据ETL工具Kettle,你就真的out了!
因为有了第一题的基础,所以下面为了节约大家的阅读时间,所以博主将只讲重点的地方

1.拖拽出一个Json 输入组件和 Excel输出组件并连接
还不会使用大数据ETL工具Kettle,你就真的out了!
2.配置Json输入组件
还不会使用大数据ETL工具Kettle,你就真的out了!
注意:这里只有选择了输入的字段,下面预览数据才能看到数据
还不会使用大数据ETL工具Kettle,你就真的out了!
还不会使用大数据ETL工具Kettle,你就真的out了!
预览数据
还不会使用大数据ETL工具Kettle,你就真的out了!
3.配置Excel输出组件
还不会使用大数据ETL工具Kettle,你就真的out了!

4.运行

还不会使用大数据ETL工具Kettle,你就真的out了!
看到转换完成的日志结果,我们打开文件查看

还不会使用大数据ETL工具Kettle,你就真的out了!
很棒,为你们点赞(๑•̀ㅂ•́)و✧

Test3 mysql -excel

1.拖拽出一个表输入组件和Excel输出组件并连接

还不会使用大数据ETL工具Kettle,你就真的out了!
2.配置表输入

注意:无论连接的是本地还是集群上的Mysql,都需要先开启数据库服务。
还不会使用大数据ETL工具Kettle,你就真的out了!
在上面一步创建连接时指定的连接名称的数据库中选择需要作为输入的表
还不会使用大数据ETL工具Kettle,你就真的out了!
还不会使用大数据ETL工具Kettle,你就真的out了!
3.配置Excel输出组件
还不会使用大数据ETL工具Kettle,你就真的out了!
4.运行
还不会使用大数据ETL工具Kettle,你就真的out了!
看到转换完成的日志结果后,打开作为输出的Excel文件,nice,又成功了!
还不会使用大数据ETL工具Kettle,你就真的out了!


总结

        看到这里,相信大家还是意犹未尽(又在想peach…),但苦于篇幅有限,本菌也只能暂且为大家带来这么多。本篇只列出三个案例,简单带着没使用过的朋友入了下门。其实关于Kettle的更多复杂使用还没在这里细讲,至少在我所需要掌握的范围内,就多达几十个

        很佩服能坚持看到这里的各位朋友,为你们点个赞????

        放心,关于Kettle更多的操作,博主都会补给大家????

        谁让我有一批这么帅气的粉丝呢٩(๑❛ᴗ❛๑)۶

        如果对你有所帮助,记得点赞评论关注三连|ू・ω・` )

上一篇:ETL工程师必看!超实用的任务优化与断点执行方案


下一篇:手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark