实验目的

熟悉的HDFS的基本操作。

实验原理

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

实验步骤

一、启动HDFS

1.首先，您必须格式化配置的HDFS文件系统，打开namenode（HDFS服务器），然后执行以下命令。

$ hadoop namenode -format

2.格式化HDFS后，启动分布式文件系统。以下命令将启动namenode以及数据节点作为集群。

$ start-dfs.sh

二、在HDFS中列出文件

在服务器中加载信息后，我们可以在一个目录中找到文件列表，文件的状态，使用'ls'。下面给出了ls的语法，您可以将其传递到目录或文件名作为参数。

$ $HADOOP_HOME/bin/hadoop fs -ls <args>

三、将数据插入HDFS

假设我们在本地系统中的称为file.txt的文件中有数据，应该保存在hdfs文件系统中。按照以下步骤在Hadoop文件系统中插入所需的文件。

1.您必须创建一个输入目录。

$ $HADOOP_HOME/bin/# hadoop fs -mkdir /user/input

2.使用put命令将数据文件从本地系统传输并存储到Hadoop文件系统。

$ $HADOOP_HOME/bin/# hadoop fs -put /home/file.txt /user/input

3.您可以使用ls命令验证文件。

$ $HADOOP_HOME/bin/# hadoop fs -ls /user/input

四、从HDFS检索数据

假设我们在HDFS中有一个名为outfile的文件。下面给出的是从Hadoop文件系统中检索所需文件的简单示例。

1.最初，使用cat命令查看HDFS中的数据。

$ $HADOOP_HOME/bin/# hadoop fs -cat /user/output/outfile

2.使用get命令将文件从HDFS获取到本地文件系统。

$ $HADOOP_HOME/bin/# hadoop fs -get /user/output/ /home/hadoop_tp/

五、关闭HDFS

您可以使用以下命令关闭HDFS。

$ stop-dfs.sh

实验二：HDFS基本操作实验