大数据 | 实验零:安装 Hadoop 伪分布式系统

这篇具有很好参考价值的文章主要介绍了大数据 | 实验零:安装 Hadoop 伪分布式系统。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

👀 前言:本篇是个人配置环境的总结,基于指导书,补充了许多在配置过程中出现的问题的解决细节。希望能帮到你😄。

📚前期准备

🐇 实验环境

  • Vmware workstation pro 16
  • Ubuntu 20.04
  • JDK 1.8
  • Hadoop 3.2.2

🐇相关文件下载

下边资源是本篇博客会用到的相关文件(建议直接下载,相关代码直接对应的下述文件,下载完先不要动,放在桌面上就行)大数据 | 实验零:安装 Hadoop 伪分布式系统

⭐️前期准备① ⭐️前期准备②

📚正确安装Hadoop伪分布式系统

🐇安装VMware

  1. 点开exe文件,按照提示往下next安装就行

🐇安装Ubuntu

  1. 打开 VMware,创建新虚拟机
    大数据 | 实验零:安装 Hadoop 伪分布式系统

  2. 选择典型配置,然后下一步
    大数据 | 实验零:安装 Hadoop 伪分布式系统

  3. 选择下载完成的 Ubuntu iso 文件,下一步
    大数据 | 实验零:安装 Hadoop 伪分布式系统

  4. 输入系统名,用户名密码等,下一步。全名随意,把用户名设置为 hadoop。
    大数据 | 实验零:安装 Hadoop 伪分布式系统

  5. 选择安装虚拟机位置(根据自己的习惯设置),下一步
    大数据 | 实验零:安装 Hadoop 伪分布式系统

  6. 设置磁盘大小(40G)然后下一步
    大数据 | 实验零:安装 Hadoop 伪分布式系统

  7. 完成安装,在这里可以根据自己电脑配置自定义内存、处理器个数等(不过基本是不用动的),点击完成。
    大数据 | 实验零:安装 Hadoop 伪分布式系统

  8. 等待十分钟左右,完成安装,出现如下登录页面,输入密码登录即可。
    大数据 | 实验零:安装 Hadoop 伪分布式系统

🐇安装JDK

  1. 打开终端,创建 java 目录

    mkdir /usr/lib/jvm #创建jvm文件夹
    #如果显示“permission denied”,就用下边这句(之后都同理,就是在前边加sudo)
    sudo mkdir /usr/lib/jvm
    #如果需要在前边补充sudo,那会需要输密码,输密码时,按键盘在终端不会有显示,这时候不用管,把密码输完,回车就好
    
  2. 解压到目录下

    大数据 | 实验零:安装 Hadoop 伪分布式系统大数据 | 实验零:安装 Hadoop 伪分布式系统

    ⚠️先进行以上操作,然后把jdk压缩文件(别改命名)从桌面拖动到虚拟机文件夹里,压缩包位置可在其属性里查看
    大数据 | 实验零:安装 Hadoop 伪分布式系统

    sudo tar zxvf /home/hadoop/jdk-8u321-linux-x64.tar.gz -C /usr/lib/jvm #解压到/usr/lib/jvm目录下
    cd /usr/lib/jvm #进入该目录
    sudo mv jdk1.8.0_321 java #重命名为java文件名规范
    
  3. 配置 java 环境变量

    vim ~/.bashrc
    

    ⚠️如果出现这个
    大数据 | 实验零:安装 Hadoop 伪分布式系统
    输入sudo apt install vim后,再次输入vim ~/.bashrc

    ⚠️在~/.bashrc 最后添加下列代码并保存(按Insert键开始修改,最后按esc键,并输入:wq!保存并退出,别误删了原来代码fi😢)

    #Java Environment
    export JAVA_HOME=/usr/lib/jvm/java
    export JRE_HOME=${JAVA_HOME}/jre
    export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
    export PATH=${JAVA_HOME}/bin:$PATH
    
  4. 更新配置,并测试是否安装成功

    source ~/.bashrc #使新配置的环境变量生效
    java -version #检测是否安装成功,查看 java 版本
    

    成功如下图👇
    大数据 | 实验零:安装 Hadoop 伪分布式系统

🐇安装 ssh

  1. 安装 ssh

    sudo apt-get install openssh-server #安装 SSH server
    
  2. 登录本机测试

    ssh localhost #登陆 SSH,第一次登陆输入 yes
    

    ⚠️如下显示则成功
    大数据 | 实验零:安装 Hadoop 伪分布式系统

  3. 退出登录

    exit #退出登录的 ssh localhost
    

    大数据 | 实验零:安装 Hadoop 伪分布式系统

  4. 设置免密登录

    cd ~/.ssh/ #如果没法进入该目录,执行一次 ssh localhost
    ssh-keygen -t rsa
    

    在输入完 ssh-keygen -t rsa 命令时,需要连续敲击回车三次
    大数据 | 实验零:安装 Hadoop 伪分布式系统

    cat ./id_rsa.pub >> ./authorized_keys #加入授权
    
  5. 免密登录测试,再次输入ssh localhost
    大数据 | 实验零:安装 Hadoop 伪分布式系统

🐇安装单机 Hadoop

  1. 解压安装Hadoop

    大数据 | 实验零:安装 Hadoop 伪分布式系统

    sudo tar -zxvf /home/hadoop/hadoop-3.2.2.tar.gz -C /usr/local #解压到/usr/local 目录下
    cd /usr/local
    sudo mv hadoop-3.2.2 hadoop #重命名为 hadoop,可改可不改,如果修改下边的名字也要对应
    sudo chown -R hadoop ./hadoop #修改文件权限
    
  2. 配置环境变量

    vim ~/.bashrc
    

    在~/.bashrc 中添加如下代码并保存(方法同上)

    #Hadoop Environment
    export HADOOP_HOME=/usr/local/hadoop
    export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
    export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    
  3. 测试安装成功

    source ~/.bashrc #使新配置的环境变量生效
    hadoop version #测试是否安装成功
    

    大数据 | 实验零:安装 Hadoop 伪分布式系统

🐇伪分布式 Hadoop

  1. 在/usr/local/hadoop/etc/hadoop 目录 hadoop-env.sh 添加 Java 路径

    cd /usr/local/hadoop/etc/hadoop
    vim hadoop-env.sh
    

    ⚠️添加Java路径

    export JAVA_HOME=/usr/lib/jvm/java
    
  2. 修改配置文件 core-site.xml

    cd  /usr/local/hadoop/etc/hadoop
    vim core-site.xml
    

    ⚠️添加以下内容(添加前删除原先有的 <configuration></configuration>

    <configuration>
     	<property>
     		<name>hadoop.tmp.dir</name>
     		<value> file:/usr/local/hadoop/tmp</value>
     		<description>Abase for other temporary directories.</description>
     	</property>
    	<property>
     		<name>fs.defaultFS</name>
     		<value>hdfs://localhost:9000</value>
     	</property>
    </configuration>
    
  3. 修改配置文件 hdfs-site.xml

    cd  /usr/local/hadoop/etc/hadoop
    vim hdfs-site.xml
    

    ⚠️添加以下内容(添加前删除原先有的 <configuration></configuration>

    <configuration>
     	<property>
     		<name>dfs.replication</name>
     		<value>1</value>
     	</property>
     	<property>
     		<name>dfs.namenode.name.dir</name>
     		<value>file:/usr/local/hadoop/tmp/dfs/name</value>
     	</property>
     	<property>
     		<name>dfs.datanode.data.dir</name>
     		<value>file:/usr/local/hadoop/tmp/dfs/data</value>
     	</property>
    	<property>
     		<name>dfs.http.address</name>
     		<value>0.0.0.0:50070</value>
     	</property>
    </configuration>
    
  4. 格式化集群节点hdfs namenode -format

    最后如下图即成功
    大数据 | 实验零:安装 Hadoop 伪分布式系统

  5. 启动 hadoop start-dfs.sh

    大数据 | 实验零:安装 Hadoop 伪分布式系统
    ⚠️使用 jps 查看进程,出现DataNode,NameNode,SecondaryNameNode 即启动成功

  6. 在浏览器输入 localhost:50070 查看 hadoop 状态
    大数据 | 实验零:安装 Hadoop 伪分布式系统

  7. 关闭Hadoopstop-dfs.sh

🐇Eclipse 环境配置

  1. 配置时需要开启 Hadoopstart-dfs.sh

  2. 解压到指定文件夹

    大数据 | 实验零:安装 Hadoop 伪分布式系统

    sudo tar -zxvf /home/hadoop/eclipse-java-2020-03-R-linux-gtk-x86_64.tar.gz -C /usr/local/
    
  3. 创建eclipse桌面快捷图标

    cd /usr/share/applications
    sudo nano eclipse.desktop
    

    写入以下文件

    [Desktop Entry]
    Encoding=UTF-8
    Name=Eclipse
    Comment=Eclipse
    Exec=/usr/local/eclipse/eclipse
    Icon=/usr/local/eclipse-installer/icon.xpm
    Terminal=false
    StartupNotify=true
    Type=Application
    Categories=Application;Development;
    

    添加完后,先按ctrl x,再按Y(会有一个yes询问),最后按回车,即保存且退出

  4. 把Eclipse添加到主页侧栏——在左下角九个点那点开,找到Eclipse(我这边是透明的😢,但是不影响使用),Add to Favorites
    大数据 | 实验零:安装 Hadoop 伪分布式系统

  5. 这时候在桌面点开还是打不开的,会有如下报错,需要配置环境

    A Java Runtime Environment (JRE) or Java Development Kit (JDK) must be available in order to run Eclipse. No Java virtual machine was found after searching the following locations: /usr/local/eclipse/jre/bin/java java in your current PATH

    sudo gedit /etc/profile
    

    添加环境

    export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
    export JRE_HOME=${JAVA_HOME}/jre
    export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
    export PATH=${JAVA_HOME}/:$PATH
    
  6. 检查jdk是否安装成功

     source /etc/profile
     java -version
    
  7. 然后添加软连接

    sudo ln -s /usr/lib/jvm/java/bin /usr/local/eclipse/jre
    
  8. 安装eclipse对Hadoop的插件,把hadoop-eclipse-kepler-plugin-2.6.0.jar 复制到/usr/local/eclipse/plugins 目录下,重启 eclipse

    终端建立的文件夹,在文件夹Other Locations里的Computer里找
    大数据 | 实验零:安装 Hadoop 伪分布式系统
    大数据 | 实验零:安装 Hadoop 伪分布式系统

    如果能直接拖入就直接拖入,不行就先把hadoop-eclipse-kepler-plugin-2.6.0.jar拖入home(就之前拖入压缩包的地方),然后终端输入

    sudo mv  /home/hadoop/hadoop-eclipse-kepler-plugin-2.6.0.jar /usr/local/eclipse/plugins
    
  9. 重启后从 eclipse 的 Windows 菜单栏中找到 preference,看到左边有 Hadoop map/reduce 选项,然后找到 hadoop 的目录(/usr/local/hadoop),点击应用。
    大数据 | 实验零:安装 Hadoop 伪分布式系统

  10. 从 windows 菜单栏中选择 perspective->open perspective->other,会看到map/reduce 选项,点击确定切换
    大数据 | 实验零:安装 Hadoop 伪分布式系统

  11. 点击 Eclipse软件右下角的 Map/ReduceLocations 面板,在面板中单击右键,选择 New Hadoop Location。大数据 | 实验零:安装 Hadoop 伪分布式系统

  12. 在 general 面板中,配置与本机 hadoop 相关配置相同
    大数据 | 实验零:安装 Hadoop 伪分布式系统

  13. 配置成功后 eclipse 左上角会出现 Hadoop 可视化目录
    大数据 | 实验零:安装 Hadoop 伪分布式系统文章来源地址https://www.toymoban.com/news/detail-416383.html

🐇建立项目

  1. 在 eclipse 中新建 mapreduce 项目:file->new->project->mapreduce project,其他新建包和新建类与 java 项目相同
    大数据 | 实验零:安装 Hadoop 伪分布式系统
  2. 在运行 mapreduce 程序之前,需要将/usr/local/hadoop/etc/hadoop 中将有修改过的配置文件(如伪分布式需要 core-site.xml 和 hdfs-site.xml),以及log4j.properties 复制到新建项目下的 src 文件夹中,在 eclipse 中刷新。
    大数据 | 实验零:安装 Hadoop 伪分布式系统

到了这里,关于大数据 | 实验零:安装 Hadoop 伪分布式系统的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据-安装 Hadoop3.1.3 详细教程-伪分布式配置(Centos7)

    **相关资源:**https://musetransfer.com/s/q43oznf6f(有效期至2023年3月16日)|【Muse】你有一份文件待查收,请点击链接获取文件 1.检查是否安装ssh (CentOS 7 即使是最小化安装也已附带openssh 可跳过本步骤) 若已安装进行下一步骤 若未安装 请自行百度 本教程不做过多讲解 2.配置ss

    2023年04月08日
    浏览(31)
  • 头歌Educoder云计算与大数据——实验三 分布式文件系统HDFS

    本关任务:使用Hadoop命令来操作分布式文件系统。 为了完成本关任务你需要了解的知识有:1.HDFS的设计,2.HDFS常用命令。 HDFS的设计 点点点…题目省略,懒得写了,下同 分布式文件系统 NameNode与DataNode HDFS的常用命令 在右侧命令行中启动Hadoop,进行如下操作。 在HDFS中创建

    2024年02月13日
    浏览(32)
  • 【大数据】Hadoop-3.3.4完全分布式安装(包含VMware16和Ubuntu22的下载安装及配置)、搭建、配置教程,以及Hadoop基础简介

    注:本篇文章主要涉及到: HDFS (分布式文件系统)、 YARN (资源管理和调度框架)、以及 MapReduce (离线计算)。 以下就是本篇文章所采用的的架构 。 (1)HDFS架构简述 HDFS架构图 注:上述的master、slave1、slave2均是主机名(结点名),可以和本篇文章不一致,但下面所有涉

    2023年04月17日
    浏览(83)
  • Hadoop分布式安装

    首先准备好三台服务器或者虚拟机,我本机安装了三个虚拟机,安装虚拟机的步骤参考我之前的一篇 virtualBox虚拟机安装多个+主机访问虚拟机+虚拟机访问外网配置-CSDN博客 jdk安装 参考文档:Linux 环境下安装JDK1.8并配置环境变量_linux安装jdk1.8并配置环境变量_Xi-Yuan的博客-CSDN博

    2024年02月08日
    浏览(41)
  • Hadoop分布式安装部署

    VMware Workstation Pro17 CentOS7 Hadoop-3.3.6 jdk1.8.0_391 事先需要在本地电脑安装VMware,再创建虚拟机,并且克隆该虚拟机,使用多台机器配合完成完全的分布式文件系统。本文使用三台虚拟机搭建Hadoop。 Hadoop在安装部署之前,需要对虚拟机进行网络配置,将虚拟机的网络状态由动态修

    2024年01月23日
    浏览(42)
  • Hadoop分布式集群安装

            上一篇大数据文章讲解了在单机上搭建Hadoop-Yarn 伪分布式集群的安装方法,方便大家学习,真实环境不可能只有一台机器,肯定是多节点的集群,大单位还会建设很多Hadoop集群,比如各个大部门有自己的集群,或者按热、温、冷来划分建立集群,反正都是很多台服

    2024年01月19日
    浏览(39)
  • hadoop伪分布式安装部署

    首先jdk安装完毕 jdk安装文档参考: Linux 环境下安装JDK1.8并配置环境变量_linux安装jdk1.8并配置环境变量_Xi-Yuan的博客-CSDN博客 准备好hadoop的安装包 我的下载地址如下: We Transfer Gratuit. Envoi sécurisé de gros fichiers. 将hadoop包上传到随便一个目录,但是解压缩到/opt/ 目录下 tar -zvxf

    2024年02月08日
    浏览(33)
  • Hadoop伪分布式安装配置

    1、添加用户组 [root@hadoop00 ~]# groupadd hadoop 2、添加用户并分配用户组 [root@hadoop00 ~]# useradd -g hadoop hadoop 3、修改hadoop用户密码 [root@hadoop00 ~]# passwd hadoop 1、上传系统安装镜像到虚拟机服务器的/root目录 2、新建挂载点目录 [root@hadoop00 ~]# mkdir /mnt/centos 3、挂载镜像        [root@h

    2024年01月24日
    浏览(35)
  • Hadoop分布式文件系统(三)

    目录 一、Hadoop 1、MapReduce 1.1、理解MapReduce思想 1.2、分布式计算概念 1.3、MapReduce介绍 1.4、MapReduce特点 1.5、MapReduce局限性 1.6、MapReduce实例进程 1.7、MapReduce阶段组成 1.8、MapReduce数据类型 1.9、MapReduce官方示例 1.9.1、示例说明--圆周率PI评估 1.9.2、官方示例--WordCount单词统计 1.10、

    2024年01月16日
    浏览(31)
  • 【Hadoop】安装部署-完全分布式搭建

    Hadoop是一个适合大数据的分布式存储和计算平台。狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态圈,包括很多软件框架。而我们的完全分布式,指的是在真实环境下,使⽤多台机器,共同配合,来构建⼀个完整的分布式文件系统。在真实环境中,

    2024年02月07日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包