【hadoop笔记】hadoop_基础概念(1)

Page content

这篇文章整理了hadoop相关的基础概念。

1.Hadoop概述

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
主要解决,海量数据的存储海量数据的分析计算问题。
广义上来说,Hadoop通常是指一个更广泛的概念(Hadoop生态圈)。

官网地址: http://hadoop.apache.org

2.HDFS, MapReduce, YARN

Hadoop 主要包含 HDFS, MapReduce, YARN 三大组件。

  • HDFS(数据存储)
  • MapReduce(计算)
  • YARN(资源调度)

2.1 HDFS

Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。
HDFS 的存储单位是块(Block),一个文件可能会被分为多个块储存在物理存储器中。
因此 HDFS 往往会按照设定者的要求把数据块复制n份并存储在不同的数据节点(储存数据的服务器)上
如果一个数据节点发生故障数据也不会丢失。

HDFS适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭 之后就不需要改变。

命名节点NameNode(nn):

存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。 是用于储存这些映射信息并提供映射服务的计算机,在整个HDFS系统中扮演"管理员"的角色,因此一个HDFS集群中只有一个命名节点。

数据节点DataNode(dn):

在本地文件系统存储文件块数据,以及块数据的校验和。是HDFS存储的基本单位。

副命名节点Secondary NameNode(2nn):

副命名节点 (Secondary NameNode) 别名"次命名节点",是命名节点的"秘书"。
它主要负责分摊命名节点的压力、备份命名节点的状态并执行一些管理工作,如果命名节点要求它这样做的话。
如果命名节点坏掉了,它也可以提供备份数据以恢复命名节点。副命名节点可以有多个。

2.2 MapReduce

MapReduce 的含义就像它的名字一样浅显:Map 和 Reduce (映射和规约) 。
MapReduce 将计算过程分为两个阶段:

  • Map 阶段并行处理输入数据
  • Reduce 阶段对 Map 结果进行汇总

2.3 YARN

Yet Another Resource Negotiator简称YARN,另一种资源协调者,是Hadoop的资源管理器。

1)ResourceManager(RM):管理整个集群资源(内存、CPU等)
2)NodeManager(NM):管理单个节点服务器资源
3)ApplicationMaster(AM):管理单个任务运行
4)Container:容器,相当一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等。


欢迎大家的意见和交流

email: li_mingxie@163.com