纵有疾风起
人生不言弃

hadoop

Hadoop学习笔记—17.Hive框架学习-起风网

Hadoop学习笔记—17.Hive框架学习

vicky阅读(321)评论(0)

一、Hive:一个牛逼的数据仓库 1.1 神马是Hive?   Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的...

Hadoop学习笔记—7.计数器与自定义计数器-起风网

Hadoop学习笔记—7.计数器与自定义计数器

acacia阅读(267)评论(0)

一、Hadoop中的计数器 计数器:计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器,用来记录数据或者进度的变化情况,它比日志更便利进行分析。   例如,我们有一个文件,其中包含如下内...

Hadoop学习笔记—16.Pig框架学习-起风网

Hadoop学习笔记—16.Pig框架学习

男闺蜜尚淼阅读(301)评论(0)

一、关于Pig:别以为猪不能干活 1.1 Pig的简介   Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapRedu...

Hadoop学习笔记—6.Hadoop Eclipse插件的使用-起风网

Hadoop学习笔记—6.Hadoop Eclipse插件的使用

chorme阅读(295)评论(0)

开篇:Hadoop是一个强大的并行软件开发框架,它可以让任务在分布式集群上并行处理,从而提高执行效率。但是,它也有一些缺点,如编码、调试Hadoop程序的难度较大,这样的缺点直接导致开发人员入门门槛高,开发难度大。因此,Hadop的开发者为...

Hadoop学习笔记—5.自定义类型处理手机上网日志-起风网

Hadoop学习笔记—5.自定义类型处理手机上网日志

晁然然然然阅读(508)评论(0)

一、测试数据:手机上网日志 1.1 关于这个日志   假设我们如下一个日志文件,这个文件的内容是来自某个电信运营商的手机上网日志,文件的内容已经经过了优化,格式比较规整,便于学习研究。   该文件的内容如下(这里我只截取了三行): 1363...