Spark读取HBase

2024-03-18 10:22:52

背景：公司有些业务需求是存储在HBase上的，总是有业务人员找我要各种数据，所以想直接用Spark( shell) 加载到RDD进行计算

摘要：

　　1.相关环境

　　2.代码例子

内容

1.相关环境

　　Spark 版本：2.0.0

　　Hadoop 版本：2.4.0

　　HBase 版本：0.98.6

　　注：使用CDH5搭建集群

　　编写提交脚本

export SPARK2_HOME=/var/lib/hadoop-hdfs/spark-2.0.0-bin-hadoop2.4

export HBASE_LIB_HOME=/opt/cloudera/parcels/CDH/lib/hbase
$SPARK2_HOME/bin/spark-shell \
--jars $HBASE_LIB_HOME/hbase-common-0.98.6-cdh5.3.2.jar,$HBASE_LIB_HOME/hbase-client-0.98.6-cdh5.3.2.jar,$HBASE_LIB_HOME/hbase-protocol-0.98.6-cdh5.3.2.jar,\
$HBASE_LIB_HOME/hbase-server-0.98.6-cdh5.3.2.jar,$HBASE_LIB_HOME/lib/htrace-core-2.04.jar

2.代码例子

pom添加HBase依赖：https://github.com/Tongzhenguo/my_scala_code/blob/master/pom.xml

编写Spark Driver Application 类:https://github.com/Tongzhenguo/my_scala_code/blob/master/src/main/scala/utils/HBaseSparkReadUtils.scala

码农公寓

相关文章