当前位置：首页 > news >正文

分布式计算机1

news 2026/6/17 6:13:56

1.1

b bit 最小信息单元0或1
B Byte 字节 1B等于8bit 汉字
KB 千字节 1KB等于1024B 小段文字
MB 兆字节 1MB等于1024KB 一首歌3-5mb
GB 吉字节 1024MB 一部电影
TB 太字节 1024GB 数据库（25万张高清图片）
PB 拍字节 1024TB 公司数据中心，云服务提供商
EB 艾字节 1024PB 全球级别全球天气观测数据
ZB 泽字节全球数量总数40zb
YB 尧字节

E-R图

大数据的4v特征
1.大量化 10TB
2.多样化

来源多
格式多：

结构化 Excel表，关系型数据库my sql
半结构化具有一定的层次结构，介于结构化和非结构化之间 xml文件，JSON文件，电子邮件（标题，正文，附件）
非结构化没有固定格式文本文件，图片，音乐
3.快速化
4.价值密度低

大数据技术要面对的基本问题，也是最核心的问题:
就是是海量数据如何可靠存储和高效计算。

1.2Google的“三架马车”

2003 GFS:The google file system 分布式文件系统

存在问题:

(1)硬盘不够大?

>>多几块硬盘

(2) 数据不够可靠，怕丢?>>数据冗余

>>文件分割成数据块

>>数据块冗余度默认:3

2004 MapReduce

2006 BigTable

GFS Master节点管理所有文件系统元数据，包括命名空间，访问控制信息，文件和块当映射信息以及当前块的位置信息

GFS存储的文件被分割成固定大小的块，每个块都会被复制到多个块服务器上（可靠性）。块的冗余度默认为3.

GFS Master还管理着系统范围内的活动，比如块服务器之间的数据迁移等。

GFS Master与每个块服务器通信（发送心跳包），发送指令，获取状态

副本位置选择的策略：要满足两大目标：最大化数据可靠性和可用性。

MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个子节点共同完成，然后整合各个子节点的中间结果，得到最终的结算结果。简而言之，MapReduce 就是"分散任务，汇总结果"。

Map的输出是Reduce的输入

1.3Hadoop的概述

1.Hadoop是什么？

（1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构

（2）主要解决，海量数据的存储和海量数据的分析计算问题。

（3）广义上来说，Hadoop通常是一个更广泛的概念--Hadoop生态圈

2.Hadoop根据是Google三篇论文实现

HDFS—GFS

MapReduce——MapReduce

HBase——BigTable

3.HDFS

HDFS:是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础

1.4 Hasoop的优势

（1）高可靠性：

hadoop底层维护多个数据副本，所以即使hadoop某个计算元素或存储出现故障，也不会导致数据的丢失

（2）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点

（3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度

（4）高容错性：能够自动将失败的任务重新分配

适合场景：大数据分析，离线分析

不适合场景：少量数据，复杂数据，在线分析

第二周：

1.4.1hadoop生态圈

HDFS	分布式文件系统
YARN	资源管理和调度器
MapReduce	分布式并行编程模型
HBase	Hadoop上当非关系型的分布式数据库
Hive	Hadoop上的数据仓库
Pig	一个基于Hadoop的大规模数据分析平台，提供类似SQL的查询语言Pig Latin
Flume	一个高可用的，高可靠的，分布式的海量日志采集，聚合和传输系统
Sqoop	用于在Hadoop与传统数据库之间进行数据传递
Zookeeper	提供分布式协调一致性服务
Spark	类似于Hadoop MapReduce的通用并行框架
组件	功能

1.HDFS架构

（1）NameNode：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等

（2）DataNode：在本地文件系统存储文件块数据，以及块数据的校验和

（3）Secondary NameNode：每隔一段时间对NameNode元数据备份 (不是热备，实时备份）

2.YARN架构概述

ResourceManager(RM）整个集群资源（内存、cpu等）的老大一个
NodeManager(NM)：单个节点服务器资源老大多个
ApplicationMaster：单个任务运行的老大 1.负责数据的切分 2.为应用程序申请资源并且分配给内部任务 3.任务的监控与容错
Container：容器，相当于一台独立的服务器，里面封装了任务运行所需要的资源，如内存、cpu、磁盘、网络等。

说明：

1.客户端可以有多个

2.集群上可以运行多个ApplicationMaster

3.每个NodeManager上可以有多个Container

1.5.3 MapReduce架构概述

MapReduce将计算分为两个阶段:Map和reduce

Map阶段并进行处理输入数据

Reduce阶段对Map结果进行汇总

安装环境

1.用来将一个docker镜像从docker load < /cg/images/hadoop_node.tar.gz压缩包加载到本地docker环境中

docker run --name master --privileged --ulimit nofile=65535:65535 --hostname master --ip 172.18.0.2 --add-host=slave1:172.18.0.3 --add-host=slave2:172.18.0.4 --add-host=slave3:172.18.0.5 -itd -v /cgsrc:/cgsrc:ro -v /headless/course/:/course hadoop_node /service_start.sh docker run --name slave1 --privileged --ulimit nofile=65535:65535 --hostname slave1 --ip 172.18.0.3 --add-host=master:172.18.0.2 --add-host=slave2:172.18.0.4 --add-host=slave3:172.18.0.5 -itd -v /cgsrc:/cgsrc:ro hadoop_node /service_start.sh docker run --name slave2 --privileged --ulimit nofile=65535:65535 --hostname slave2 --ip 172.18.0.4 --add-host=master:172.18.0.2 --add-host=slave1:172.18.0.3 --add-host=slave3:172.18.0.5 -itd -v /cgsrc:/cgsrc:ro hadoop_node /service_start.sh docker run --name slave3 --privileged --ulimit nofile=65535:65535 --hostname slave3 --ip 172.18.0.5 --add-host=master:172.18.0.2 --add-host=slave1:172.18.0.3 --add-host=slave2:172.18.0.4 -itd -v /cgsrc:/cgsrc:ro hadoop_node /service_start.sh

name master：master容器的名字，

privileged：赋予容器特权模式，允许它访问主机上所有设备

-ulimit nofile==65535:65535 设置文件描述符的软限制和硬限制

ip 172.18.0.2 --add-host=slave1:172.18.0.3 --add-host=slave2:172.18.0.4 --add-host=slave3:172.18.0.5 - hostname容器的主机名为master：老大

2.查看启动

docker ps

docker ps-a查看所有容器

3.启动容器

docker start master docker start slave1 docker start slave2 docker start slave3

4.进入容器

docker exec -it --privileged master（name） /bin/bash

安装java环境

1.创建文件夹：

mkdir /usr/local/java

先打开其他文件，再复制

打开文件

cd /cgsrc

从资源文件夹/cgsrc中将JDK安装包复制到/usr/local/java目录下：

[root@master cgsrc]# cp /cgsrc/jdk-8u171-linux-x64.tar.gz /usr/local/java/

切换到/usr/local/java目录下，将安装包解压，并删除用过的tar文件。

tar -zxvf jdk-8u171-linux-x64.tar.gz

删除文件

配置环境

第三周

配置分布式模式

分布式文件存储hdfs :namenode（1个） DataNode（多个）secondaryNameNode（尽量不跟namenode放在同一个服务器上）

Yarn：ResourceManager（1个） NodeManager（多个）ResourceManager很消耗内存，尽量不要和NameNode，secondaryNameNode配置在同一台机器上

hadoop1

hadoop2

hadoop3

hadoop4

NameNode

DataNode

Second....

NodeManager

ResourceManager

NodeManager

ping ip地址：ICMP协议，测试两台电脑之间的连通性（OSI第三层协议）

SSH

Secure shell（安全外壳协议）

一台计算机----》》一台计算机一台计算机登录另外一台计算机（一般需要密码）

公钥（锁），私钥（钥匙）

b同学寄一个箱子给a同学，但是箱子比较私密，中途不想任何人打开

1.a造一把锁（公钥）和一把钥匙（私钥）。

2.他把锁给b同学（锁在谁那，谁就是服务器），（把锁给服务器）钥匙a同学藏好了

3.b同学拿到了这把锁，把箱子锁到了（用公钥加密）

4.中途没有人可以打开

5.只有有钥匙的人才能打开（a同学）有私钥，客户端

1.生成公钥和私钥的命令

ssh-keygen -t rsa

know_hosts	记录ssh访问过的计算机的公钥
id-rsa	生成的私钥
id-rsa.pub	生成的公钥
authorized-keys	存放授权过的无密码登录服务器的公钥

2.将公钥文件追加到另一个文件authorizd_keys中

cat ./id_rsa.pub >> ./authorized_keys

scp ~/.ssh/id_rsa.pub root@slave1:/root scp ~/.ssh/id_rsa.pub root@slave2:/root scp ~/.ssh/id_rsa.pub root@slave3:/root

把自己本机master把~/.ssh/id_rsa.pub路径下的文件复制root@salve1:/root(slave1这台机器上，用的登录的账户root，在slave1这台机器/root这个路径下）

安全拷贝

1.从hadoop102服务器上将本服务器的文件推给hadoop103

scp -r jdk.8.0_212/ lotus@hadoop103:/opt/module

2.在hadoop103服务器上操作，将hadoop102的文件拿过来

scp -r lotus@hadoop102:/opt/module/jdk.1.8.0_212/ ./

同理hadoop也可以这么操作

scp -r lotus@hadoop102:/opt/module/hadoop-3.1.3/ ./

3.在103服务器是，将102的文件拷贝到104

scp -r lotus@hadoop102:/opt/module/* lotus@hadoop104:/opt/module/

rsync远程同步工具

cat ~/id_rsa.pub >> ~/.ssh/authoried_keys

将~/.id_rsa.pub文件的内容追加到~/.ssh/authorized_keys这个文件的末尾

在slave1里面ssh master不需要密码

1.slave1需要生成私钥和公钥

ssh-keygen -t rsa

2.slave1公钥给master

scp ~/.ssh/id_rsa.pub root@slave1:/root

3给了master公钥放到slave1的~/.ssh/authorized_keys里面

cat ./id_rsa.pub >> ./authorized_keys

~/.ssh/authorized_keys

4.slave1里面使用ssh master（没有密码）

安装hadoop环境：

1.将hadoop安装包复制到/usr/local

cp /cgsrc/hadoop-3.4.0.tar.gz /usr/local

-zxvf

-z使用gzip解压

x 解压文件

v显示解压过程

f指定文件名

tar -zxvf hadoop-3.4.0.tar.gz

3.重命名

mv 原本的名字新的名字（如图）

4.配置环境变量

让环境变量生效，source ~/.bashrc

5.查看是否安装好hadoop

hadoop version

1.bin ：存放操作命令，具体包含如下图（hdfs，mapred，yarn）

2.etc：所有配置文件

3.include：头文件

4.lib：本地库（native库）压缩的动态链接库

5.libexec：拓展库

6.sbin：集群相关的命令

7.share：学习的资料，文档

配置集群环境

hadoop下面的etc配置文件

需要配置的文件有

worker

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

hadoop-env.sh

1.workers

里面写了谁可以DataNode，数据节点

master，slave1，slave2，slave3

<configuration> <!--默认文件系统的内部URI地址--> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <!--haoop的临时工作目录（默认一个月就会删掉）--> <property> <name>hadoop.tmp.dir</name> <value>file:/usr/local/hadoop/tmp</value> </property> </configuration>

<configuration> <!--secondary访问地址 --> <property> <name>dfs.namenode.secondary.http-address</name> <value>master:50090</value> </property> <!--hdfs设置数据存储份数 --> <property> <name>dfs.replication</name> <value>3</value> </property> <!--namenode实际存储地址 --> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/name</value> </property> <!--datanode的实际存储地址 --> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/data</value> </property> </configuration>

<configuration> <!-- mapreduce程序运行在yarn上 --> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <!-- 任务运行的历史的服务端地址（内部通讯端口） --> <property> <name>mapreduce.jobhistory.address</name> <value>master:10020</value> </property> <!-- 任务运行的历史的服务器web端地址--> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>master:19888</value> </property> </configuration>

<configuration> <!--Resource Manage的主机名--> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property> <property> <!--NodeManager提供的辅助服务，运行MapReduce必配--> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!--NodeManager监控本地磁盘的健康（磁盘空间使用率上限为98.5%）--> <property> <name>yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage</name> <value>98.5</value> </property> </configuration>

6.配置hadoop-env.sh

export JAVA_HOME=/usr/local/java/jdk1.8.0_171 export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

配置slave节点

-z 用gzip解压

-x 解压

-c是创建新的压缩包

tar -zcf +压缩文件的路径和名字原本将被压缩的文件

tar -zcf ~/hadoop.master.tar.gz ./hadoop

scp ：不同主机间安全传输文件

scp ./hadoop.master.tar.gz root@slave1:/root scp ./hadoop.master.tar.gz root@slave2:/root scp ./hadoop.master.tar.gz root@slave3:/root

start-dfs.sh

启动hdfs

start-dfs.sh

master上有namenode，secondary，namenode（datanode取决于workers）

slave123都有且只有datanode

启动yarn

start-yarn.sh

172.18.0.2：9870 8088

测试集群环境：

实验报告：测试hdfs上传文件

1.在一台机器上创建一个lotus.txt

2.创建一个hdfs的文件夹

3.将本地文件上传到hdfs系统

hadoop fs -put 本地文件地址和名字上传到hdfs的地址

4.查看文件上传成功

查看hdfs系统里面的文件内容

hadoop fs -cat 文件地址和文件名

引入：

逻辑地址 hdfs系统 /lInput/lizhiying.txt

物理地址:

hdfs-site.xml里面记录了实际的物理地址（datanode的实际存放地址/usr/local/hadoop/tmp）

QQ邮箱，登录到QQ邮箱网站，未读邮件，相应的文件逻辑地址

物理地址：开发需知道

注意：

hdfs里面默认存三份 salve1，slave2，slave3，master（分配机制只存储了3台）

怎么去看，存在哪几台机器上了

在availability下面有的机器上（例如上图：master）去执行步骤：

最后的地址：/usr/local/hadoop/tmp/dfs/data/current/BP-859686102-172.18.0.2-1774320614917 VERSION/current/finalized/subdir0/subdir0

通过实际的物理地址查看文件

测试上传大文件

1.在hdfs系统创建一个文件夹存放大文件

2.本地大文件上传到hdfs系统

3.需要知道大文件上传后怎么存放

所有文件都是按照块存储，大文件可能会分为多个块存储（例如上图，两个块）

hdfs系统里面的bigFiles/jdk/jdk-8u171-linux-x64.tar.gz 逻辑地址

物理地址真正存放的路径 /usr/local/hadoop/tmp/dfs/data

将两个块文件合并

cat blk_1073741826 >> tmp.tar.gz

cat blk_1073741827 >> tmp.tar.gz

测试wordcount

2.hadoop jar hadoop-mapreduce-examples-3.4.0.jar wordcount /lInput/lizhiying.txt /lOutput2

hadoop jar jar包的位置 jar里面那个方法 hdfs输入路径输出路径（逻辑地址）（一定是之前不存在的）

多了一个lOutput2这个文件夹

3.如下图：可以看到统计了单词出现的频率

第二章环境搭建重点

1.常用端口号

hadoop3.x

hdfs namenode内部通常端口	8020/9000/9820
hdfs namenode对用户的查询端口	9870
yarn查看任务运行情况的	8088
历史服务器	19888

hadoop2.x

hdfs namenode 内部通常端口	8020/9000
hdfs namenode 对用户的查询端口	50070
yarn查看任务运行情况的	8088
历史服务器	19888

2.常用的配置文件

3.x core-site.xml hdfs-site.xml yarn-site.xml mapred-sirte.xml workers /hadoop/etc/hadoop

2.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml salves

HDFS

1.1 HDFS产生的背景

随着数据量越来越大，在一个操作系统存不下所有的数据，那么及分配到更多的操作系统管理的磁盘中，但不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种

1.2HDFS的定义

HDFS（Hadoop Distributed File System），他是一个文件系统，用来存储文件，通过目录树来定位文件；其次，他是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

HDFS的使用场景：适合一次写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用。

1.3HDFS的优缺点：

优点：

（1）高容错性

数据自动保存多个副本，它通过增加副本的形式，提高容错率。

某个副本丢失以后，它可以自动恢复。

（2）适合处理大数据

数据规模：能够处理数据规模达到GB,TB,甚至PB级别的数据

文件规模：能够处理百万规模以上的文件数量，数量相当之大

（3）可构建在廉价机器上，通过多副本机制，提高可靠性

缺点：

（1）不适合低延时数据访问，比如毫秒级的存储数据，是做不到的

（2）无法高效的对大量小文件进行存储

存储大量小文件的话，他会占用NameNode大量的内存来存储文件目录和块信息，这样是不可取的，因为NameNode的内存总是有限的；（理解:书包含目录和具体内容）

小文件存储的寻址时间会超过读取时间，他违反了HDFS的设计目标。

（3）不支持写入，文件随机修改

一个文件只能有一个写，不允许多个线程同时写

仅支持数据append（追加），不支持文件的随机修改

Apache Hadoop

1.4架构

NameNode（nn）：就是Maste（老板），他就是一个主管，管理者。

1.管理HDFS的名称空间；

2.配置副本策略；

3.管理数据块（Block）映射信息；

4.处理客户端的读写请求。

DataNode就是Slave.NameNode下达命令，DataNode执行实际操作。

存储实际的数据块；

执行数据块的读/写操作

存两百兆200M的文件，block 128M

第一块128M ,第二块72M

Client：就是客户端。

1.文件切分。文件上传HDFS的时候，Client将文件切分成为一个一个的Block，然后进行上传；

2.跟NameNode交互，获取文件的位置信息。

3.与DataNode交互，读取或者写入数据；

存到Fsiamge1：

1.Client提供一些命令来管理HDFS，比如NameNode格式化

2.Cient可以通过一些命令来访问HDFS，比如对HDFS增删改查操作

Fsimage1+Edits1+Edits=fsimage2 同步到namenode

Secondary NameNode：并非NameNode的设备，当NameNode挂掉的时候，他不能马上替换NameNode并提供服务。

辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode

在紧急情况下，可辅助恢复NameNode

内存硬盘

Fsimage（硬盘）：文件系统镜像，为了防止断电，数据丢失

Edits：

1.5 HDFS文件块Block大小（面试重点）

HDFS中文件在物理上是分块存储（Block），块的大小可以通过配合参数（dfs.blocksize)来规定，默认大小在Hadoop2.x版本中128M，老版本是64M
block1 block2 block3 block4 block5 ...... block66

如果寻址时间约为10ms，即查找到目标block的时间约为10ms。

寻址时间为传输时间的1%时，则为最佳状态。因此，传输时间=10ms / 1% =1000ms = 1s

目前磁盘的输出速率普遍为100MB/s 块大小：100M/s * 1s = 100M 128M(接近的2的几次方)

普通机械硬盘 80M/s~90M/s 块大小：100M/s * 1s = 100M 80M~90M 64M,128M 固态硬盘 200M/s~300M/s 块大小：200M/s * 1s = 200M 200M~300M 256M

思考：为什么块的大小不能设置太小，也不能设置太大？

（1）HDFS的块设置太小，会增加寻址时间，程序一直在找块的开始位置。
（2）如果块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始新的位置所需要的时间（寻址时间）。导致程序在处理这些块数据时，会非常慢。

总结：HDFS块的大小设置主要取决于磁盘传输速率。
若出现两个DataNode，重启hdfs