hdfs数据恢复(HDFS分布式文件系统具有哪些优点？)

一、HDFS分布式文件系统具有哪些优点？

HDFS分布式文件系统具有以下优点:

1. 支持超大文件。HDFS分布式文件系统具有很大的数据集，可以存储TB或PB级别的超大数据文件，能够提供比较高的数据传输带宽与数据访问吞吐量，相应的，HDFS开放了一些POSIX的必须接口，容许流式访问文件系统的数据。

2. 高容错性能。HDFS面向的是成百上千的服务器集群，每台服务器上存储着文件系统的部分数据，在集群的环境中，硬件故障是常见的问题，这就意味着总是有一部分硬件因各种原因而无法工作，因此，错误检测和快速、自动的恢复是HDFS最核心的架构目标，因此，HDFS具有高度的容错性。

3. 高数据吞吐量。HDFS采用的是“一次性写，多次读”这种简单的数据一致性模型，在HDFS中，一个文件一旦经过创建、写入、关闭后，一般就不需要修改了，这样简单的一致性模型，有利于提高吞吐量。

4. 流式数据访问。HDFS的数据处理规模比较大，应用一次需要访问大量的数据，同时这些应用一般都是批量处理，而不是用户交互式处理，应用程序能以流的形式访问数据集。

二、hdfs工作原理？

Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。它能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。要理解HDFS的内部工作原理，首先要理解什么是分布式文件系统。

1、分布式文件系统

多台计算机联网协同工作(有时也称为一个集群)就像单台系统一样解决某种问题，这样的系统我们称之为分布式系统。

2、分离元数据和数据：NameNode和DataNode

存储到文件系统中的每个文件都有相关联的元数据。元数据包括了文件名、i节点(inode)数、数据块位置等，而数据则是文件的实际内容。

3、HDFS写过程

NameNode负责管理存储在HDFS上所有文件的元数据，它会确认客户端的请求，并记录下文件的名字和存储这个文件的DataNode集合。它把该信息存储在内存中的文件分配表里。

4、HDFS读过程

为了理解读的过程，可以认为一个文件是由存储在DataNode上的数据块组成的。

5、通过副本快速恢复硬件故障

当一切运行正常时，DataNode会周期性发送心跳信息给NameNode(默认是每3秒钟一次)。如果NameNode在预定的时间内没有收到心跳信息(默认是10分钟)，它会认为DataNode出问题了，把它从集群中移除，并且启动一个进程去恢复数据。DataNode可能因为多种原因脱离集群，如硬件故障、主板故障、电源老化和网络故障等。

三、hadoop2.0怎么解决hdfs局限性？

HDFS适用场景

海量数据存储： HDFS可横向扩展，其存储的文件可以支持PB级别或更高级别的数据存储。

高容错性：数据保存多个副本，副本丢失后自动恢复。可构建在廉价的机器上，实现线性扩展。当集群增加新节点之后，namenode也可以感知，进行负载均衡，将数据分发和备份数据均衡到新的节点上。

商用硬件：Hadoop并不需要运行在昂贵且高可靠的硬件上。它是设计运行在商用硬件（廉价商业硬件）的集群上的。

大文件存储：HDFS采用数据块的方式存储数据，将数据物理切分成多个小的数据块。所以再大的数据，切分后，大数据变成了很多小数据。用户读取时，重新将多个小数据块拼接起来。

一次写入多次读取。HDFS 是设计成适应一次写入，多次读出的场景，且不支持文件的修改。

正因为如此，HDFS 适合用来做大数据分析的底层存储服务，并不适合用来做.网盘等应用，因为，修改不方便，延迟大，网络开销大，成本太高。

HDFS不适用场景

不能做到低延迟数据访问：由于hadoop针对高数据吞吐量做了优化，牺牲了获取数据的延迟，所以对于低延迟访问数据的业务需求不适合HDFS。

不适合大量的小文件存储：由于namenode将文件系统的元数据存储在内存中，因此该文件系统所能存储的文件总数受限于namenode的内存容量。根据经验，每个文件、目录和数据块的存储信息大约占150字节。因此，如果有一百万个小文件，每个小文件都会占一个数据块，那至少需要300MB内存。如果是上亿级别的，就会超出当前硬件的能力。

修改文件：。HDFS适合一次写入，多次读取的场景。对于上传到HDFS上的文件，不支持修改文件。Hadoop2.0虽然支持了文件的追加功能，但不建议对HDFS上的文件进行修改。因为效率低下.

不支持用户的并行写：同一时间内，只能有一个用户执行写操作。

四、hdfs的实现原理与优缺点？

实现原理：Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。它能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

hdfs的优点

(1) 高容错性 1) 数据自动保存多个副本。它通过增加副本的形式,提高容错性。 2) 某一个副本丢失以后,它可以自动恢复,这是由 HDFS 内部机制实现的,我们不必关心。

(2) 适合批处理

1) 它是通过移动计算而不是移动数据。

2) 它会把数据位置暴露给计算框架。

(3) 适合大数据处理

1) 数据规模：能够处理数据规模达到 GB、TB、甚至PB级别的数据。

2) 文件规模：能够处理百万规模以上的文件数量，数量相当之大。

3) 节点规模：能够处理10K节点的规模。

(4) 流式数据访问

1) 一次写入，多次读取，不能修改，只能追加。

2) 它能保证数据的一致性。

(5) 可构建在廉价机器上

1) 它通过多副本机制，提高可靠性。

2) 它提供了容错和恢复机制。比如某一个副本丢失，可以通过其它副本来恢复。

2.hdfs的缺点

(1) 不适合低延时数据访问; 1) 比如毫秒级的来存储数据,这是不行的,它做不到。 2) 它适合高吞吐率的场景,就是在某一时间内写入大量的数据。但是它在低延时的情况下是不行的。

(2) 无法高效的对大量小文件进行存储。

1) 存储大量小文件的话，它会占用 NameNode大量的内存来存储文件、目录和块信息。这样是不可取的，因为NameNode的内存总量是有限的。

2) 小文件存储的寻道时间会超过读取时间，它违反了HDFS的设计目标。改进策略

(3) 并发写入、文件随机修改

1) 一个文件只能有一个写，不允许多个线程同时写。

2) 仅支持数据 append（追加），不支持文件的随机修改。

五、hdfs采用块概念的好处？

1.⾼容错性（硬件故障是常态）：数据⾃动保存多个副本，副本丢失后，会⾃动恢复

2. 适合⼤数据集： GB 、 TB 、甚⾄ PB 级数据、千万规模以上的⽂件数量， 1000 以上节点规模。

3. 数据访问：⼀次性写⼊，多次读取；保证数据⼀致性 , 安全性

4. 构建成本低：可以构建在廉价机器上。

5. 多种软硬件平台中的可移植性

6. ⾼效性： Hadoop 能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度⾮常快。

7. ⾼可靠性： Hadoop 的存储和处理数据的能⼒值得⼈们信赖 .

顶一下

(0)

踩一下

(0)

上一篇：返回栏目

下一篇：ms卡数据恢复(手机里的联系人复制到sim卡里,恢复出厂设置后怎么还原？)