Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程

这篇具有很好参考价值的文章主要介绍了Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

步骤一:

目标:*安装虚拟机,在自己虚拟机上完成hadoop的伪分布式安装。(安装完成后要检查)*

1)前期环境准备:(虚拟机、jdk、ssh)

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

2)SSH相关配置

安装SSH Server服务器:apt-get install openssh-server

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

更改默认的SSH密钥

cd /etc/ssh

mkdir ssh_key_backup

mv ssh_host_* ssh_key_backup

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

创建新密钥:dpkg-reconfigure openssh-server

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

允许 SSH Root 访问,修改SSH 配置文件 /etc/ssh/sshd_config :vim /etc/ssh/sshd_config

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

重启SSH:service ssh restart

查看是否安装成功:ssh -V

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

SSH登录本机:ssh localhost

若是登陆失败提示权限不足:

sudo passwd root 注意此处的root为当前登录本机所在的用户名,不一定是root

sudo service ssh restart

ssh localhost

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

SSH无密登录:

退出刚才的ssh localhost:exit

cd ~/.ssh/

ssh-keygen -t rsa 这里一直回车就行

cat ~/.ssh/id_rsa.pub >> ./authorized_keys

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

最后,SSH授权完成,再次ssh localhost 则不再需要密码了,也不再影响伪分布hadoop启动。

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

3)安装Hadoop

首先在官网上下载压缩包(版本3.2.2)。然后将压缩包拖进自己喜欢的目录(个人是/home/jay17)。

1、之后创建一个空的文件夹,用来解压hadoop

mkdir /home/Hadoop

2、解压,-C 指定解压路径到创建的文件夹路径。

tar zxvf hadoop-3.2.2.tar.gz -C /home/jay17/Hadoop/

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

3、授权,使文件夹具有读写文件的权利,否则直接影响其他相关操作,必须要执行!!

chown -R root /home/jay17/Hadoop/hadoop-3.2.2/

4、检测Hadoop是否解压安装正确:

cd /home/jay17/Hadoop/hadoop-3.2.2/

./bin/hadoop version

遇到报错说java环境变量不存在。

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

5、解决方法如下:

切换目录: cd etc/hadoop

执行:vim hadoop-env.sh

修改java_home路径和hadoop_conf_dir路径为具体的安装路径,例如:

export JAVA_HOME=/usr/local/jdk1.8.0_212

export HADOOP_CONF_DIR=/home/jay17/Hadoop/hadoop-3.2.2/etc/hadoop

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

重新加载使修改生效:source hadoop-env.sh

6、回去检测Hadoop,已经解压安装!

cd /home/jay17/Hadoop/hadoop-3.2.2/

./bin/hadoop version

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

4)配置Hadoop环境变量

与java环境变量的配置类似,用编辑器打开.bashrc文件(vim /root/.bashrc),保存修改后,执行source /root/.bashrc命令使其生效:

export HADOOP_HOME=/home/jay17/Hadoop/hadoop-3.2.2

export CLASSPATH= C L A S S P A T H : CLASSPATH: CLASSPATH:HADOOP_HOME/lib

export PATH= P A T H : PATH: PATH:HADOOP_HOME/bin:$HADOOP_HOME/sbin

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

保存并生效后,便可在任何路径下使用hadoop命令了,使用hadoop version命令验证。出现此前执行./bin/hadoop version命令时所出现的信息,则证明环境变量修改无误。

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

一定要确定写对后再执行生效,避免不必要的麻烦,如果操作不当,导致命令几乎失效的话,请执行该命令恢复:

export PATH=/sbin:/bin:/usr/sbin:/usr/bin:/usr/local/bin

5)伪分布模式配置

Hadoop的伪分布运行是指,同一个节点既是名称节点(Name Node),也是数据节点(Data Node),读取分布式文件系统HDFS的文件。安装不同模式Hadoop,就是修改其配置文件符合模式要求。

Hadoop有俩配置文件,一个是core-site.xml文件,另一个是hdfs-site.xml,其相对路径是在 hadoop-3.2.2/etc/hadoop/ 下。

首先,修改core-site.xml配置文件

vim /home/jay17/Hadoop/hadoop-3.2.2/etc/hadoop/core-site.xml

修改添加的内容:

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/home/jay17/Hadoop/hadoop-3.2.2/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

参数fs.defaultFS为默认文件系统名称,其值为Hadoop的Name Node地址和端口号,如hdfs://localhost:9000,即表示Name Node是本机,端口9000是HDFS的RPC端口,是HDFS的默认端口。

参数hadoop.tmp.dir用于确定Hadoop文件系统的原信息与数据保存在哪个目录下,是Hadoop文件系统依赖的基础配置,很多路径都依赖,如果hdfs-site.xml文件中不配置Name Node和Data Node的存放位置,默认放在此路径中。

参数dfs.permissions的值如果是true则检查权限,否则不检查权限(每个人都可以存取文件),该参数NameNode上设定。

其次,修改hdfs-site.xml配置文件

vim /home/jay17/Hadoop/hadoop-3.2.2/etc/hadoop/hdfs-site.xml

修改添加的内容:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/jay17/Hadoop/hadoop-3.2.2/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/jay17/Hadoop/hadoop-3.2.2/tmp/dfs/data</value>
    </property>
</configuration>

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

参数dfs.replication指明设置hdfs副本数,因为是伪分布模式,所以设置为“1”,默认备份3个副本。

参数dfs.namenode.name.dir 对应的value是存放名称节点的路径,参数dfs.datanode.data.dir 对应的value是存放数据节点的路径。这俩路径也可自行设置,但最好与临时文件路径一致,在初期实验时,遇到问题可以一并处理。

Hadoop的运行方式是由配置文件决定的,因为运行Hadoop时会读取配置文件,如果需要切换模式,只需要重新增加,删除或者修改core-site.xml和hdfs-site.xml文件中的配置项。

6)Name Node的格式化和hadoop启动关闭

配置完成,执行Name Node的格式化:(由于,hadoop生效了环境变量,所以在任何路径下均可执行。)

hdfs namenode -format

出现"successfully formatted"和"Exiting with status 0"的字样,则证明格式化成功!

start-dfs.sh只启动Name Node和Data Node,启动命令如下:

cd /home/jay17/Hadoop/hadoop-3.2.2

./sbin/start-dfs.sh

遇到以下报错请参考以下文章:

hadoop启动报错:Attempting to operate on hdfs namenode as root_hzp666的博客-CSDN博客

Hadoop单点安装FAQ-CSDN博客

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

WARNING: HADOOP_SECURE_DN_USER has been replaced by HDFS_DATANODE_SECURE_USER.-CSDN博客

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

查看进程命令:jps

起来四个进程如303108 DataNode 303012 NameNode 303453 Jps 303274 SecondaryNameNode就是正常的。

停止命令如下:

./sbin/stop-dfs.sh

所有命令连贯展示:

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

如果NameNode一直起不来,看看是不是端口冲突了,hadoop配置文件里面我们改的是9000端口,我的portainer(docker管理平台)也是9000端口,导致我因为NameNode起不来卡了好几天。。。。

步骤二:

1)在hdp家目录下新建lab2目录,在lab2目录中新建word.txt,并在其中录入若干单词。

mkdir /home/lab2

echo jsj >> /home/lab2/word.txt

echo jsj >> /home/lab2/word.txt

echo jay17 >> /home/lab2/word.txt

echo jsj >> /home/lab2/word.txt

echo jay17 >> /home/lab2/word.txt

echo jsj >> /home/lab2/word.txt

echo jsj >> /home/lab2/word.txt

echo jay17 >> /home/lab2/word.txt

echo jsj >> /home/lab2/word.txt

echo jsj >> /home/lab2/word.txt

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

2)在HDFS的根目录下新建hdp用户目录/user/hdp目录,并在用户目录下新建input目录,将本地文件系统中的lab2目录中的word.txt文件上传到HDFS的input目录中。

hadoop fs -mkdir /user

hadoop fs -mkdir /user/hdp

hadoop fs -mkdir /user/hdp/input

hadoop fs -copyFromLocal /home/lab2/word.txt /user/hdp/input/

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

3)调用wordcount示例程序统计word.txt中的单词出现次数,将结果写入用户目录的output中,查看统计结果。

hadoop jar /home/jay17/Hadoop/hadoop-3.2.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.2.jar wordcount /user/hdp/input /user/output

Hadoop: 是$HADOOP_HOME/bin下的shell脚本名。

jar:hadoop脚本需要的command参数。

/home/jay17/Hadoop/hadoop-3.2.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.2.jar :要执行的jar包在本地文件系统中的完整路径,参递给RunJar类。

wordcount :main方法所在的类,参递给RunJar类。

/user/hdp/input:传递给WordCount类,作为DFS文件系统的路径,指示输入数据来源。

/user/output:传递给WordCount类,作为DFS文件系统的路径,指示输出数据路径。

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali

hadoop fs -ls /user/output

hadoop fs -cat /user/output/part-r-00000

Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程,日报专栏,linux,hadoop,运维,大数据,kali文章来源地址https://www.toymoban.com/news/detail-757952.html

到了这里,关于Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • Hadoop集群WordCount详解

    Hadoop集群WordCount详解

    MapReduce理论介绍 MapReduce处理过程 MapReduce代码 1.1 MapReduce编程模型 MapReduce采用”分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是”任务的分解与结果的

    2023年04月19日
    浏览(7)
  • Hadoop 实战 | 词频统计WordCount

    通过分析大量文本数据中的词频,可以识别常见词汇和短语,从而抽取文本的关键信息和概要,有助于识别文本中频繁出现的,这对于理解文本内容和主题非常关键。同时,通过分析词在文本中的相对频率,可以帮助理解词在不同上下文中的含义和语境。 \\\"纽约时报\\\"评

    2024年02月02日
    浏览(10)
  • 大数据技术栈-Hadoop3.3.4-完全分布式集群搭建部署-centos7(完全超详细-小白注释版)虚拟机安装+平台部署

    目录 环境条件: 1、安装虚拟机(已安装好虚拟机的可跳转至  二、安装JDK与Hadoop) (1)直接新建一台虚拟机 (2)首次启用虚拟机,进行安装 一、集群前置环境搭建(三台机器分别设置hostname、网卡(ip)配置、ssh免密登录) 1、查看一下本机与虚拟机的网卡和ip信息 (1)

    2024年02月06日
    浏览(11)
  • 数据挖掘实验:使用 Hadoop 实现 WordCount 应用

    数据挖掘实验:使用 Hadoop 实现 WordCount 应用

    使用 Hadoop 实现WordCount 应用。 WordCount 是一个最简单的分布式应用实例,主要功能是统计输入目录中所有单词出现的总次数,如文本文件中有如下内容: Hello world 则统计结果应为: Hello 1 world 1 WordCount 可以使用多种方式实现,本次实验内容选择使用 Hadoop 实现 WordCount 程序,并

    2023年04月17日
    浏览(10)
  • 虚拟机+Hadoop下MapReduce的Wordcount案例

    虚拟机+Hadoop下MapReduce的Wordcount案例

    环境:ubuntu18.04 前提:Hadoop已经搭建好 抄作业记得改标题 输入内容(可以自定义,抄作业别写一样的) yarn-site.xml 内容如下,注意第一个property要改: ·输入hadoop classpath(任意路径下均可),将返回的内容复制在第一个property的value中 *修改配置文件之后要重启hadoop(关了又

    2024年02月07日
    浏览(5)
  • Hadoop之——WordCount案例与执行本地jar包

    Hadoop之——WordCount案例与执行本地jar包

    目录 一、WordCount代码 (一)WordCount简介 1.wordcount.txt (二)WordCount的java代码 1.WordCountMapper 2.WordCountReduce 3.WordCountDriver (三)IDEA运行结果 (四)Hadoop运行wordcount 1.在HDFS上新建一个文件目录 2.新建一个文件,并上传至该目录下 3.执行wordcount命令 4.查看运行结果 5.第二次提交报错原因 6.进

    2024年02月08日
    浏览(13)
  • hadoop平台完全分布式搭建

    安装前准备 一、设置ssh免密登录 1.编辑hosts文件,添加主机名映射内容 vim  /etc/hosts 添加内容: 172.17.0.2      master 172.17.0.3      slave1 172.17.0.4      slave2 2.生成公钥和私钥 ssh-keygen –t rsa 然后按三次回车 3.复制公钥到其他容器(包括自己) ssh-copy-id master ssh-copy-id slav

    2024年03月17日
    浏览(10)
  • 【云计算平台】Hadoop单机模式环境搭建

    【云计算平台】Hadoop单机模式环境搭建

    接上一篇博客 点我跳转到虚拟机搭建,配置好虚拟机环境后进行hadoop单机模式的部署,我的云计算课程中只要求了简单的单机模式部署,如果有精力的话,应该会把伪分布式部署也简单地记录一下 Apache Hadoop 项目为可靠,可扩展的分布式计算开发开源软件;Hadoop软件库是一个

    2024年02月02日
    浏览(5)
  • Hadoop大数据平台搭建(超详细步骤)

    Hadoop大数据平台搭建(超详细步骤)

    相关软件下载链接: Xshell:家庭/学校免费 - NetSarang Website Xftp:家庭/学校免费 - NetSarang Website Xshell与Xftp官网:XSHELL - NetSarang Website Jdk:百度网盘 请输入提取码  提取码:jdhp Hadoop:百度网盘 请输入提取码   提取码:jdhp 需要配置好的虚拟机与相关环境的,可以点击我的这篇

    2023年04月12日
    浏览(6)
  • 大数据平台搭建——hadoop集群(基于CentOS-7)的搭建

    大数据平台搭建——hadoop集群(基于CentOS-7)的搭建

    目录 总序 一、下载相关软件的压缩包 二、配置虚拟机上主节点相关设置 1、修改主机用户名 2、进行ip地址映射 3、配置虚拟机网络设置   三、解压并配置java、hadoop环境 1、解压jdk、hadoop压缩文件  2、配置jdk、hadoop环境 3、修改hadoop中的相关配置文件信息(最重要) 四、克隆

    2024年02月06日
    浏览(19)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包