起风了

“路海长青夜旷越过群山追斜阳”

MapReduce学习笔记

2020/09/19 | 博客 | 评论(0) | 阅读(81)

MapReduce学习笔记缩略图

一、MapReduce概述 MapReduce 是 Hadoop 的核心组成, 是专用于进行数据计算的，是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题. MapReduce由两个阶段组成：Map和Reduce，用户只需要实现map()和reduce()两个函数，即可实现分布式计算，非常简单。这两个函数的形参是key、valu...

MapReduce学习笔记（二）

2020/09/19 | 博客 | 评论(0) | 阅读(50)

MapReduce学习笔记（二）缩略图

一、MapReduce老API的写法 package OldAPI; import java.io.IOException; import java.net.URI; import java.util.Iterator; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import ...

一道Hadoop面试题MapReduce编程，oh no，用了一下午来源码实现

2020/09/19 | 博客 | 评论(0) | 阅读(64)

一道Hadoop面试题MapReduce编程，oh no，用了一下午来源码实现缩略图

自定义 MR 实现如下逻辑 product_no lac_id moment start_time user_id county_id staytime city_id 13429100031 22554 8 2013-03-11 08:55:19.151754088 571 571 282 571 13429100082 22540 8 2013-03-11 08:58:20.152622488 571 571 270 571 13429100082 22691 8 2013-03-11 08:56:37.149593624 571 571 103...

Hadoop常见异常处理

2020/09/19 | 博客 | 评论(0) | 阅读(62)

Datanode无法启动 java.io.IOException: Incompatible clusterIDs in /home/hadoop/tmp/dfs/data: namenode clusterID = CID-19f887ba-2e8d-4c7e-ae01-e38a30581693; datanode clusterID = CID-14aac0b3-3c32-45db-adb8-b5fc494eaa3d 从日志上说明了问题 datanode的clusterID 和 namenode的clusterID 不...

Hive调优（语法与参数层面优化）

2020/09/19 | 博客 | 评论(0) | 阅读(55)

Hive调优（语法与参数层面优化）缩略图

一、简介作为企业Hadoop应用的核心产品，Hive承载着FaceBook、淘宝等大佬 95%以上的离线统计，很多企业里的离线统计甚至全由Hive完成，如我所在的电商。Hive在企业云计算平台发挥的作用和影响愈来愈大，如何优化提速已经显得至关重要。好的架构胜过任何优化，好的Hql同样会效率大增，修改Hive参数，有时也...

Pig学习笔记

2020/09/19 | 博客 | 评论(0) | 阅读(66)

Pig学习笔记缩略图

一、Pig简介 Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的，Pig有一套自己的数据处理语言，Pig的数据处理过程要转化为MR来运行。相比 Java 的 MapReduce API ，Pig为大型数据集的处理提供了更高层次的抽象，与MapReduce相比，Pig提供了更丰富的数据结构，一般都是多值和嵌套的数据...

解决Hadoop namenode无法启动以及修改hdfs的存放位置

2020/09/19 | 博客 | 评论(0) | 阅读(104)

重启计算机之后，遇到了一个问题，执行start-all.sh之后，执行JPS命令，发现namenode没有启动。每次开机都得重新格式化一下namenode才可以。原因： hadoop.tmp.dir是hadoop文件系统依赖的基础配置，很多路径都依赖它。它默认的位置是在/tmp/{$user}下面，但是在/tmp路径下的存储是不安全的，默认的/tmp文...

Flume学习笔记

2020/09/19 | 博客 | 评论(0) | 阅读(80)

Flume学习笔记缩略图

Flume概述 Flume是一个分布式的数据收集系统，具有高可靠、高可用、事务管理、失败重启等功能。数据处理速度快，完全可以用于生产环境。 Flume的核心是agent。agent是一个java进程，运行在日志收集端，通过agent**接收日志，然后暂存起来，再发送到目的地**。核心组件 agent里面包含3个核心组件：source、cha...

HDFS学习笔记

2020/09/18 | 博客 | 评论(0) | 阅读(72)

一、分布式文件系统与HDFS 数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。这是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文...

Hive学习笔记

2020/09/18 | 博客 | 评论(0) | 阅读(50)

Hive学习笔记缩略图

一、什么是Hive Hive 是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL ），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类SQL查询语言，称为 HQL，它允许熟悉SQL的用户查询数据。同时，这个语言也允许熟悉 MapReduce ...

点击加载更多