概念

Hadoop是什么

Apache基金会开发的分布式系统基础架构.

主要解决海量数据的存储和海量数据的分析计算问题.

Hadoop发展历史

在Lucene框架基础上进行优化升级.

Hadoop的三大发行版本

Apache版本—最原始(最基础)的版本
cloudera内部集成了很多大数据框架, 对应产品CDH;
Hortonworks文档较好, 对应产品HDP. 现在已经被Cloudera公司收购, 推出新的品牌CDP.

Hadoop的优势

高可靠性: Hadoop底层维护多个数据副本, 所以即使Hadoop某个计算元素或存储出现故障, 也不会导致数据的丢失.
高拓展性: 在集群间分配任务数据, 可方便的拓展数以千计的节点.
高效性: 在MapReduce的思想下, Hadoop是并行工作的, 以加快任务处理速度.
高容错性: 能够自动将失败的任务重新分配.

Hadoop的组成

Hadoop1.X组成

Common(辅助工具)
HDFS(数据存储)
MapReduce(计算+ 资源调度)

Hadoop2.X组成

Common(辅助工具)
HDFS(数据存储)
MapReduce(计算)
Yarn(资源调度)

Hadoop3.X

在组成上和Hadoop2.X没有区别

HDFS架构概述

分布式文件系统

NameNode: 数据存储在什么位置
nn: 存储文件的元数据, 如文件名, 文件目录结构, 文件属性(生成时间, 副本数, 文件权限), 以及每个文件的块列表和块所在的DataNode等.
DataNode: 具体存储数据
在本地文件系统存储文件块数据, 以及块数据的校验和.
2NN: 秘书
SecondNameNode: 每隔一段时间对NameNode元数据备份.

Yarn架构概述

ResourceManager(RM): 整个集群资源(内存, CPU等)的老大
NodeManager(NM): 单个节点服务器资源老大
ApplicationMaster(AM): 单个任务运行的老大
Container:容器, 相当于一台独立的服务器, 里面封装了任务所需要的资源, 如内存, CPU, 磁盘, 网络等.

说明1: 客户端可以有多个
说明2: 集群上可以运行多个ApplicationMaster
说明3: 每个NodeManager上可以有多个Container

MapReduce架构概述

将计算过程分为两个阶段: Map和Reduce

Map阶段并行处理数据
Reduce阶段对Map结果进行汇总

三者之间关系

大数据技术生态体系

环境准备

模板虚拟机的准备

配置ip地址:

vmware

克隆

安装JDK和Hadoop

Hadoop生产集群搭建

本地模式

完全分布式集群—开发和面试的重点

常见错误的解决方案

本文由 liyunfei 创作，采用知识共享署名4.0 国际许可协议进行许可
本站文章除注明转载/出处外，均为本站原创或翻译，转载前请务必署名
最后编辑时间为: Jun 24,2022

Hadoop入门

概念