Wesukilaye

Your choices please me, for now


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 搜索

大数据学习 Day3

发表于 2019-08-01 更新于 2019-08-06 分类于 大数据
本文字数: 2.8k 阅读时长 ≈ 3 分钟
1.检查ip:

1.每天关机之后,再次开机后,首先检查ip地址有没有发生改变(因用的动态IP)

master,slave0,slave1:
ifconfig

如果ip变了,修改对应三台机器的hosts文件中的IP映射

2.安装JDK:

Master:
cd /opt/

借助ssh Secure Shell工具上传jdk-8u101-linux-x64.tar.gz到master的opt目录下

ls

解压缩jdk压缩包
tar -zxvf jdk-8u101-linux-x64.tar.gz

配置jdk环境变量
sudo vi ~/.bashrc i
在文件末尾追加:

1
2
export JAVA_HOME=/opt/jdk1.8.0_101
export PATH=$PATH:$JAVA_HOME/bin

esc
:wq!

让bashrc配置文件生效
source ~/.bashrc

测试环境是否配置成功:
java -version
出现版本号说明成功

slave1,slave0安装JDK

master:

远程传输命令将整个文件夹传输到slave0电脑的root用户opt目录下(-r 递归传输)

scp -r jdk1.8.0_101/ root@slave0:/opt/ scp -r jdk1.8.0_101/ root@slave1:/opt/ scp ~/.bashrc root@slave0:~/.bashrc scp ~/.bashrc root@slave1:~/.bashrc

slave0,slave1:
source ~/.bashrc java -version

3.安装hadoop:

master:借助工具上传hadoop压缩包到指定opt目录下

1
2
3
4
5
6
7
cd /opt

ls

tar -zxvf hadoop-2.6.4.tar.gz

cd /opt/hadoop-2.6.4/bin

测试hadoop能不能使用
./hadoop version
出现版本号说明可以使用

配置环境变量:
vi ~/.bashrc

文件末尾追加:

1
2
export HADOOP_HOME=/opt/hadoop-2.6.4
export PATH=$PATH:$HADOOP_HOME/bin

生效配置文件

source ~/.bashrc

测试hadoop命令是否变为全局命令hadoop version

配置slave0,slave1:

Master:

1
2
3
4
5
6
cd /opt
ls
scp -r hadoop-2.6.4 root@slave0:/opt/
scp -r hadoop-2.6.4 root@slave1:/opt/
scp ~/.bashrc root@slave0:~/.bashrc
scp ~/.bashrc root@slave1:~/.bashrc

slave0,slave1:

1
2
source ~/.bashrc
hadoop version
4.伪分布式搭建:
4.1:

cd /opt/hadoop-2.6.4/etc/hadoop/

4.2:

vi core-site.xml

在configuration标签中间加入:

1
2
3
4

fs.defaultFS
hdfs://master:9000

4.3:

vi hdfs-site.xml

在configuration标签中间加入:

1
2
3
4

dfs.replication
1

4.4:格式化分布式文件系统

hdfs namenode -format

查看是否出错:status=0 说明没错,如果status=1说明出错了,出错看上面的关键词:***Exception

vi命令常用命令:

1
2
3
:set number   显示行数

:22 跳转到22行
4.5:启动伪分布集群
1
2
cd /opt/hadoop-2.6.4/sbin/
./start-dfs.sh

jps
出现以下三个代表伪分布式集群启动成功

1
2
3
4
5
NameNode

DataNode

SecondaryNameNode

测试:

在浏览器中输入:
192.168.31.128:50070

查看dataNodes下是否有一个叫master的奴隶


注意事项:

启动伪分布式集群之前一定保证:

1.防火墙处于关闭状态

2.检查ping 自己能否ping通(ping master)

3.无密登录登陆OK

4.Java -version

5.hadoop version


失败常用解决方案:

  • 暴力点方案

/opt/hadoop-2.6.4/sbin/stop-dfs.sh

jps
(如果出了jps进程还有其他进程,
用【kill -9 进程号】 强制杀死多余的进程)

1
2
3
4
5
6
cd /tmp/hadoop-root/dfs
ls
rm -rf *
hdfs namenode -format
/opt/hadoop-2.6.4/sbin/start-dfs.sh
jps

三个进程DataNode,NameNode,SecondaryNameNode
都有,说明启动成功,缺少任何一个说明失败。

  • 手动修改集群ID(clusterID)
    1
    2
    3
    4
    cd /tmp/hadoop-root/dfs/name/current
    cat VERSION
    cd /tmp/hadoop-root/dfs/data/current/
    cat VERSION

匹配下两个VERSION下的clusterID是否一致,不一致可以尝试手动修改一致再启动伪分布式文件系统测试

分布式文件系统常用命令:
过程 说明
hdfs dfs -mkdir /input 在分布式文件系统根目录下创建一个input目录
hdfs dfs -put /opt/input/test /input/ 上传linux文件系统中的/opt/input/test文件到分布式文件系统的/input下
hdfs dfs -rm -R /output 删除分布式文件系统的/output目录
hdfs dfs -cat /output/pa* 查看分布式文件系统的/output下以pa开头的文件内容
hdfs dfs -get /jd* /opt/ 下载分布式文件系统的根目录下的jd开头的压缩包文件到linux文件系统的/opt/目录下
  • 本文作者: Mr.Zhao
  • 本文链接: https://wesukilayezcy.github.io/2019/08/01/大数据学习-Day3/
  • 版权声明: 本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
大数据
大数据学习 Day2
大数据学习 Day4
-------------本文结束感谢您的阅读-------------
  • 文章目录
  • 站点概览
Wesukilaye

Wesukilaye

熟练使用iOS Objective-c,Swift. 了解Python爬取网络数据,深入研究移动端开发,目前正在学习Flutter
23 日志
4 分类
16 标签
RSS
GitHub E-Mail bilibili
Links
  • Jacksu
  1. 1. 1.检查ip:
  2. 2. 2.安装JDK:
  3. 3. 3.安装hadoop:
  4. 4. 4.伪分布式搭建:
    1. 4.1. 4.1:
  5. 5. 4.2:
    1. 5.1. 4.3:
  6. 6. 4.4:格式化分布式文件系统
  7. 7. 4.5:启动伪分布集群
  8. 8. 分布式文件系统常用命令:
© 2019 Wesukilaye | 62k | 57 分钟
由 Hexo 强力驱动 v3.9.0
|
主题 – NexT.Pisces v7.3.0