纵有疾风起
人生不言弃

利用java向hbase添加数据

利用java向hbase添加数据

2020-04-21 23:41
来源:分享电脑学习

原标题:利用java向hbase添加数据

承接上一篇文档《日志信息和浏览器信息获取及数据过滤》

上一个文档最好做个本地测试

利用java向hbase添加数据插图

将map方法改为public,做一个测试看是否有错误代码,代码和之前的MainProcess基本一样

利用java向hbase添加数据插图1

之前完成了数据的过滤、补全,大致思路总结如下:

补全

1. IP地址的补全 ==> IP地址转换为地域信息 –>国家、省份、城市

(1) 直接使用第三方提供的rest api进行ip地址解析,比如淘宝

利用java向hbase添加数据插图2

(2)使用第三方提供的IP解析库(解析文件) ==> 纯真IP数据库

(3)使用公司内部的IP库

表结构:start_ip、end_ip、country、province、city

start_ip和end_ip其实就是ip转换为long型之后的值

在获取数据的时候:

1. 将IP转换为long型

2. 查数据库看该值对应的地域是什么

2. 服务器时间转换 1532762408.139 -> 153276240839

将服务器时间转换为毫米级的时间戳

3. 浏览器UserAgent数据的解析补全

作用:获取浏览器和操作系统相关数据

方式: UASparser.jar

针对不同的平台、不同的事件进行数据过滤判断

完成了数据的过滤、补全,接下来完成清洗的内容。

先明白下面的选择:

为什么选择HBase作为数据存储?

1.数据收集的各个事件字段不固定,导致etl之后的数据的结构不是固定的,使用Hive表要求结构必须是固定的,所以这里采用HBase,hbase中的列可多可少

2.因为我们的数据分析的时候不是获取所有事件的数据,使用HBASE存储,可以将数据的过滤操作放到RegionServer中进行处理,降低数据的网络传输量

3.对比日志的格式发现日志的内容都可以解析成一个个key-value对的形式

HBase表结构的设计

1. 按天分表:一天的数据放一张表,做一个定时任务,30天以前的数据归档到一张历史表中

2. rowkey设计:随机的值(uuid+serverTime+clientInfo)

通过crc32生成一个唯一的值

提取每条日志数据中特征字段信息,然后通过crc32工具根据一定的算法生成一个唯一的值

3. 列簇:采用单列簇

4. 其他相关参数的设置,比如是否缓存

开始代码编写

首先编写一个Map和Runner

Map使用之前的AnalysisDataMapper,我们进一步完善

添加继承类和属性

利用java向hbase添加数据插图3

Setup方法

利用java向hbase添加数据插图4

Map方法更改

利用java向hbase添加数据插图5

添加结果输出

利用java向hbase添加数据插图6

完成generateHBasePut方法

利用java向hbase添加数据插图7

完成generateRowKey方法

利用java向hbase添加数据插图8

创建Runner

利用java向hbase添加数据插图9

完成代码,继承Tool

利用java向hbase添加数据插图10

添加配置属性

利用java向hbase添加数据插图11

完成运行方法

利用java向hbase添加数据插图12

设置配置

利用java向hbase添加数据插图13

重载运行方法

利用java向hbase添加数据插图14

开始创建job

利用java向hbase添加数据插图15

设置参数信息

利用java向hbase添加数据插图16

完成processArgs方法

利用java向hbase添加数据插图17

完成setJobInputPaths方法

利用java向hbase添加数据插图18

利用java向hbase添加数据插图19

完成setHBaseOutputConfig方法

构建表名称

利用java向hbase添加数据插图20

本地配置启动部分

利用java向hbase添加数据插图21

HbaseAdmin的创建,注意这里有个Hbase版本的选择,根据自己机器的环境

利用java向hbase添加数据插图22

Info列镞

利用java向hbase添加数据插图23

创建表

利用java向hbase添加数据插图24

主方法

利用java向hbase添加数据插图25

完成之后开始运行(集群上环境都已经启动)

本地

默认是路径上有日志数据,读取的是昨天的,如果没有需要指定时间

利用java向hbase添加数据插图26

添加参数

利用java向hbase添加数据插图27

利用java向hbase添加数据插图28

利用java向hbase添加数据插图29

利用java向hbase添加数据插图30

然后打包运行到集群中

这里添加了一个配置文件

利用java向hbase添加数据插图31

里面要更改一个路径,这里是你的工作空间

利用java向hbase添加数据插图32

然后执行maven的install命令,打包成jar

上传到linux

执行

Yarn jar 你的jar com.xlgl.wzy.mr.etl.AnalysisDataRunner(runner的全包类)

利用java向hbase添加数据插图33

利用java向hbase添加数据插图34

去HBASE看有没有表和数据

利用java向hbase添加数据插图35返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()

未经允许不得转载:起风网 » 利用java向hbase添加数据
分享到: 生成海报

评论 抢沙发

评论前必须登录!

立即登录