大数据学习 Day3

1.检查ip：

1.每天关机之后，再次开机后，首先检查ip地址有没有发生改变（因用的动态IP）

master，slave0，slave1：
ifconfig

如果ip变了，修改对应三台机器的hosts文件中的IP映射

2.安装JDK：

Master：
cd /opt/

借助ssh Secure Shell工具上传jdk-8u101-linux-x64.tar.gz到master的opt目录下

ls

解压缩jdk压缩包
tar -zxvf jdk-8u101-linux-x64.tar.gz

配置jdk环境变量
sudo vi ~/.bashrc i
在文件末尾追加：

1 2	export JAVA_HOME=/opt/jdk1.8.0_101 export PATH=$PATH:$JAVA_HOME/bin

esc
:wq!

让bashrc配置文件生效
source ~/.bashrc

测试环境是否配置成功：
java -version
出现版本号说明成功

slave1，slave0安装JDK

master:

远程传输命令将整个文件夹传输到slave0电脑的root用户opt目录下（-r 递归传输）

scp -r jdk1.8.0_101/ root@slave0:/opt/ scp -r jdk1.8.0_101/ root@slave1:/opt/ scp ~/.bashrc root@slave0:~/.bashrc scp ~/.bashrc root@slave1:~/.bashrc

slave0,slave1:
source ~/.bashrc java -version

3.安装hadoop：

master：借助工具上传hadoop压缩包到指定opt目录下

cd /opt

ls

tar -zxvf hadoop-2.6.4.tar.gz

cd /opt/hadoop-2.6.4/bin

测试hadoop能不能使用
./hadoop version
出现版本号说明可以使用

配置环境变量：
vi ~/.bashrc

文件末尾追加：

1 2	export HADOOP_HOME=/opt/hadoop-2.6.4 export PATH=$PATH:$HADOOP_HOME/bin

生效配置文件

source ~/.bashrc

测试hadoop命令是否变为全局命令hadoop version

配置slave0，slave1：

Master：

cd /opt
ls
scp -r hadoop-2.6.4 root@slave0:/opt/
scp -r hadoop-2.6.4 root@slave1:/opt/
scp ~/.bashrc root@slave0:~/.bashrc
scp ~/.bashrc root@slave1:~/.bashrc

slave0,slave1:

1 2	source ~/.bashrc hadoop version

4.伪分布式搭建：

4.1：

cd /opt/hadoop-2.6.4/etc/hadoop/

4.2：

vi core-site.xml

在configuration标签中间加入：


              fs.defaultFS
              hdfs://master:9000

4.3：

vi hdfs-site.xml

在configuration标签中间加入：


              dfs.replication
              1

4.4:格式化分布式文件系统

hdfs namenode -format

查看是否出错：status=0 说明没错，如果status=1说明出错了，出错看上面的关键词：***Exception

vi命令常用命令：

1
2
3

:set number   显示行数

:22    跳转到22行

4.5：启动伪分布集群

1 2	cd /opt/hadoop-2.6.4/sbin/ ./start-dfs.sh

jps
出现以下三个代表伪分布式集群启动成功

NameNode

DataNode

SecondaryNameNode

测试：

在浏览器中输入：
192.168.31.128:50070

查看dataNodes下是否有一个叫master的奴隶

注意事项：

启动伪分布式集群之前一定保证：

1.防火墙处于关闭状态

2.检查ping 自己能否ping通（ping master）

3.无密登录登陆OK

4.Java -version

5.hadoop version

失败常用解决方案：

暴力点方案

/opt/hadoop-2.6.4/sbin/stop-dfs.sh

jps
（如果出了jps进程还有其他进程，
用【kill -9 进程号】强制杀死多余的进程）

cd /tmp/hadoop-root/dfs
ls
rm -rf *
hdfs namenode -format
/opt/hadoop-2.6.4/sbin/start-dfs.sh
jps

三个进程DataNode，NameNode，SecondaryNameNode
都有，说明启动成功，缺少任何一个说明失败。

手动修改集群ID（clusterID）

cd /tmp/hadoop-root/dfs/name/current
cat VERSION
cd /tmp/hadoop-root/dfs/data/current/
cat VERSION

匹配下两个VERSION下的clusterID是否一致，不一致可以尝试手动修改一致再启动伪分布式文件系统测试

分布式文件系统常用命令：

过程	说明
hdfs dfs -mkdir /input	在分布式文件系统根目录下创建一个input目录
hdfs dfs -put /opt/input/test /input/	上传linux文件系统中的/opt/input/test文件到分布式文件系统的/input下
hdfs dfs -rm -R /output	删除分布式文件系统的/output目录
hdfs dfs -cat /output/pa*	查看分布式文件系统的/output下以pa开头的文件内容
hdfs dfs -get /jd* /opt/	下载分布式文件系统的根目录下的jd开头的压缩包文件到linux文件系统的/opt/目录下