一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。
参考资料:http://baike.baidu.com/view/908354.htm
hadoop集群环境搭建
1 hadoop集群规划
1.1 共有A、B、C 三台机器;
1.2 A 作为master,B作为slave1,C作为slave2;
1.3 IP A :192.168.1.103;B:192.168.1.104;C:192.168.1.101;
1.4 OS:centos6.2(64bit)
2 hadoop集群搭建步骤
2.1 创建 hadoop用户,并使该用户拥有root权限(在master机器上进行)
#创建hadoop用户
useradd hadoop
#给用户hadoop添加密码
passwd hadoop
#付给hadoop用户root权限
vi /etc/passwd 将hadoop用户的用户ID 、组ID 都改为0,如hadoop:x:0:0::/home/hadoop:/bin/bash(记得先切换到root用户哦,其他用户估计对该文件没有权限)
2.2 切换到hadoop用户,进入hadoop用户主目录(在master机器上进行)
#切换到hadoop用户
su hadoop
根据提示输入密码(如果从普通用户切换到hadoop,需要密码;如果从root用户切换到hadoop,不许要输入密码,也就没有这一步了)
#进入hadoop的主目录
cd /home/hadoop
2.3 安装JDK环境(hadoop是JAVA编写的一个工具,需要使用JDK)(在master机器上进行)
yum install openjdk*(yum 是centos上的一个安装软件的工具,可以查找软件、删除软件、更新软件等)
2.4 安装openssh(hadoop节点间通信需要使用到它,并且相对ssh而言,这个是免费的)(在master机器上进行)
#安装openssh
yum install openssh*
#生存ssh密钥
ssh-keygen -t rsa -P ”
#进入.ssh文件夹
cd /root/.ssh
#将公钥加到认证的公钥文件中
cat id_rsa.pub>>authorized_keys
2.5 下载hadoop安装包并进行相应的配置(在master机器上进行)
#下载hadoop-1.0.4.tar.gz
#解压hadoop-1.0.4.tar.gz到/home/hadoop
#hadoop-1.0.4文件夹中的conf文件夹中是我们需要配置的文件(详情见地址)
http://download.csdn.net/detail/lovemelovemycode/5634581
2.6 配置hosts和hostname(在master上进行)
#下载这个文件
http://download.csdn.net/detail/lovemelovemycode/5634599
2.7 在slave1和slave2上重复2.1、2.2、2.3的步骤
2.8 将master上相应的文件copy到slave1\slave2上(在master上进行)
scp -r .ssh hadoop@slave1:/root
scp -r .ssh hadoop@slave2:/root
scp -r /home/hadoop/hadoop-1.0.4 hadoop@slave1:/home/hadoop
scp -r /home/hadoop/hadoop-1.0.4 hadoop@slave2:/home/hadoop
scp -r /etc/hosts hadoop@slave1:/etc
scp -r /etc/hostname hadoop@slave2:/etc
2.9 关闭 master、slave1、slave2的防火墙
#暂时关闭防火墙
/etc/init.d/iptables stop
#永久关闭防火墙
chkconfig –level 35 iptables off
2.10 对namenode\datanode进行格式化(在master上进行)
bin/hadoop namenode -format
bin/hadoop datanode -format
2.11 启动hadoop(在master上进行)
# 进入hadoop-1.0.4
bin/start-all.sh
3 hadoop集群搭建成功的验证方法
3.1 通过java 的jps命令验证
http://download.csdn.net/detail/lovemelovemycode/5634649
3.2 通过http://master:50070 和http://master:50030验证
近期评论