Hadoop入门
in Hadoop with 0 comment

Hadoop入门

in Hadoop with 0 comment

概念

Hadoop是什么

Apache基金会开发的分布式系统基础架构.

主要解决海量数据的存储和海量数据的分析计算问题.

Hadoop发展历史

在Lucene框架基础上进行优化升级.

Hadoop的三大发行版本

Hadoop的优势

Hadoop的组成

Hadoop1.X组成

  1. Common(辅助工具)
  2. HDFS(数据存储)
  3. MapReduce(计算+ 资源调度)

Hadoop2.X组成

  1. Common(辅助工具)
  2. HDFS(数据存储)
  3. MapReduce(计算)
  4. Yarn(资源调度)

Hadoop3.X

在组成上和Hadoop2.X没有区别

HDFS架构概述

分布式文件系统

Yarn架构概述

image-1655959269568

  1. ResourceManager(RM): 整个集群资源(内存, CPU等)的老大

  2. NodeManager(NM): 单个节点服务器资源老大

  3. ApplicationMaster(AM): 单个任务运行的老大

  4. Container:容器, 相当于一台独立的服务器, 里面封装了任务所需要的资源, 如内存, CPU, 磁盘, 网络等.

说明1: 客户端可以有多个
说明2: 集群上可以运行多个ApplicationMaster
说明3: 每个NodeManager上可以有多个Container

MapReduce架构概述

image-1655959586085

将计算过程分为两个阶段: Map和Reduce

  1. Map阶段并行处理数据
  2. Reduce阶段对Map结果进行汇总

三者之间关系

image-1655959691865

大数据技术生态体系

image-1655959795915

环境准备

模板虚拟机的准备

配置ip地址:

  1. vmware

克隆

安装JDK和Hadoop

Hadoop生产集群搭建

本地模式

完全分布式集群—开发和面试的重点

常见错误的解决方案