起风了

“路海长 青夜旷 越过群山追斜阳”

MapReduce学习笔记

MapReduce学习笔记缩略图
一、MapReduce概述 MapReduce 是 Hadoop 的核心组成, 是专用于进行数据计算的,是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MapReduce由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key、valu...

MapReduce学习笔记(二)

MapReduce学习笔记(二)缩略图
一、MapReduce老API的写法 package OldAPI; import java.io.IOException; import java.net.URI; import java.util.Iterator; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import ...

Hadoop常见异常处理

Datanode无法启动 java.io.IOException: Incompatible clusterIDs in /home/hadoop/tmp/dfs/data: namenode clusterID = CID-19f887ba-2e8d-4c7e-ae01-e38a30581693; datanode clusterID = CID-14aac0b3-3c32-45db-adb8-b5fc494eaa3d 从日志上说明了问题 datanode的clusterID 和 namenode的clusterID 不...

Hive调优(语法与参数层面优化)

Hive调优(语法与参数层面优化)缩略图
一、简介 作为企业Hadoop应用的核心产品,Hive承载着FaceBook、淘宝等大佬 95%以上的离线统计,很多企业里的离线统计甚至全由Hive完成,如我所在的电商。Hive在企业云计算平台发挥的作用和影响愈来愈大,如何优化提速已经显得至关重要。 好的架构胜过任何优化,好的Hql同样会效率大增,修改Hive参数,有时也...

Pig学习笔记

Pig学习笔记缩略图
一、Pig简介 Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。 相比 Java 的 MapReduce API ,Pig为大型数据集的处理提供了更高层次的抽象,与MapReduce相比,Pig提供了更丰富的数据结构,一般都是多值和嵌套的数据...

解决Hadoop namenode无法启动以及修改hdfs的存放位置

解决Hadoop namenode无法启动以及修改hdfs的存放位置缩略图
重启计算机之后,遇到了一个问题,执行start-all.sh之后,执行JPS命令,发现namenode没有启动。 每次开机都得重新格式化一下namenode才可以。 原因: hadoop.tmp.dir是hadoop文件系统依赖的基础配置,很多路径都依赖它。它默认的位置是在/tmp/{$user}下面,但是在/tmp路径下的存储是不安全的,默认的/tmp文...

Flume学习笔记

Flume学习笔记缩略图
Flume概述 Flume是一个分布式的数据收集系统,具有高可靠、高可用、事务管理、失败重启等功能。数据处理速度快,完全可以用于生产环境。 Flume的核心是agent。agent是一个java进程,运行在日志收集端,通过agent**接收日志,然后暂存起来,再发送到目的地**。 核心组件 agent里面包含3个核心组件:source、cha...

HDFS学习笔记

一、分布式文件系统与HDFS 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。 这是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文...

Hive学习笔记

Hive学习笔记缩略图
一、什么是Hive Hive 是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类SQL查询语言,称为 HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉 MapReduce ...