纵有疾风起
人生不言弃

Hadoop简介

一、Hadoop是什么?
适合大数据的分布式存储与计算平台

二、版本
Apache
官方版本(2.6.0)
Cloudera
使用下载最多的版本,稳定,有商业支持,在Apache的基础上打上了一些patch。推荐使用。
Yahoo
Yahoo内部使用的版本,发布过两次,已有的版本都放到了Apache上,后续不在继续发布,而是集中在Apache的版本上。

三、Hadoop核心项目
HDFS: Hadoop Distributed File System 分布式文件系统
MapReduce:并行计算框架

1、HDFS的架构
主从结构
主节点,只有一个: namenode
从节点,有很多个: datanodes

namenode负责:
接收用户操作请求
维护文件系统的目录结构
管理文件与block之间关系,block与datanode之间关系

datanode负责:
存储文件
文件被分成block存储在磁盘上
为保证数据安全,文件会有多个副本

2、MapReduce的架构
主从结构
主节点,只有一个: JobTracker
从节点,有很多个: TaskTrackers
JobTracker负责:
接收客户提交的计算任务
把计算任务分给TaskTrackers执行
监控TaskTracker的执行情况
TaskTrackers负责:
执行JobTracker分配的计算任务

四、Hadoop的特点
扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。

成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。

可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。

五、Hadoop集群的物理分布

Hadoop简介插图

六、单节点物理结构
Hadoop简介插图1

七、Hadoop部署方式
本地模式
伪分布模式
集群模式

八、Hadoop体系结构(Hadoop1存在的问题以及Hadoop2相应的改进)

HDFS+MapReduce。共同点都是分布式的,主从关系结构。
HDFS是包括主节点NameNode,只有一个;还有从节点DataNode,有很多个。
NameNode含有我们用户存储的文件的元数据信息。把这些数据存放在硬盘上,但是在运行时是加载在内存中的。
缺点:
(1)当我们的NameNode无法在内存中加载全部元数据信息的时候,集群的寿命到头了。
(2)权限设计是不够彻底的(因为只有一个NameNode)。
(3)大量小文件的存储的话,会造成NameNode的内存压力骤增。(block默认64MB)
改进:
(1)2个NameNode一起共存,组成hdfs federation(联邦)。
Hadoop简介插图2

(2)HA 自动、手工
Hadoop简介插图3

MapReduce包括主节点JobTracker,只有一个;还有从节点TaskTracker,有很多个。
JobTracker主要的工作是管理用户提交的作业和分配资源。
缺点:
(1)对于实时性作业和批处理作业,需要搭建不同的集群环境,每个集群的资源利用率是不高的。
(2)MapReduce职责过多,需要分解。
Hadoop简介插图4

新增:
Yarn是一个平台,用于处理资源分配和运行任务的。
Hadoop简介插图5

Hadoop简介插图6
把Yarn看做淘宝平台,淘宝上面有很多的卖不同产品的商家。这些商家就是Storm、Spark、MapReduce。

原文链接:https://blog.csdn.net/scgaliguodong123_/article/details/44535999

本站声明:网站内容来源于网络,如有侵权,请联系我们,我们将及时处理。

未经允许不得转载:起风网 » Hadoop简介
分享到: 生成海报

评论 抢沙发

评论前必须登录!

立即登录