大数据实战平台环境搭建

这篇具有很好参考价值的文章主要介绍了大数据实战平台环境搭建。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、创建 Hadoop 用户

1、创建 Hadoop 用户,输入最开始的密码
搭建大数据平台步骤,虚拟机,hadoop,java

图1:创建 Hadoop 用户

打开Ubuntu终端Terminal运行sudo useradd -m hadoop -s /bin/bash用于创建用户,系统需要等待我们输入密码(注意的是Ubuntu终端输入密码是不会显示的)。输入完密码后重新弹出nuyoah@nuyoah-VirtualBox:-$这个才算创建成功。

2、设置Hadoop账户密码
搭建大数据平台步骤,虚拟机,hadoop,java

图2:设置Hadoop账户密码

在Ubuntu终端输入sudo passwd hadoop为Hadoop账号设置账号密码,通过输入和确认密码完成对于Hadoop账号密码的设置。

3、赋权
搭建大数据平台步骤,虚拟机,hadoop,java

图3:为Hadoop用户赋权

在Ubuntu终端输入sudo adduser hadoop sudo为Hadoop用户赋权

二、更新apt和安装Vim编辑器

1、切换Hadoop用户,并输入密码
搭建大数据平台步骤,虚拟机,hadoop,java

图4:切换Hadoop用户,并输入密码

在Ubuntu终端输入su hadoop切换成hadoop用户。
(必须切换到hadoop用户,不然后面会有问题。)

2、更新 apt
搭建大数据平台步骤,虚拟机,hadoop,java

图5:更新apt

首先要确认已经切换到了hadoop用户,接着在终端输入sudo apt-get update使得hadoop用户更新apt,为接下来下载vim做准备。

3、安装 vim 编辑器
搭建大数据平台步骤,虚拟机,hadoop,java

图6:安装vim编译器

在终端输入sudo apt-get install vim下载vim编译器。(vim编译器的作用:创建、维护或修改文本文件,维护Linux系统中的各种配置文件。)
当出现Do you want to continue?的时候需要我们输入y进行确认。(这里大小写都可以。)

搭建大数据平台步骤,虚拟机,hadoop,java

图7:vim编译器安装完成

三、安装 SSH 和配置 SSH 无密码登录

1、安装 SSH 服务端
搭建大数据平台步骤,虚拟机,hadoop,java

图8:安装 SSH 服务端

在终端输入sudo apt-get install openssh-server安装openssh。(OpenSSH 是 SSH (Secure SHell) 协议的免费开源实现OpenSSH提供了服务端后台程序和客户端工具,用来加密远程控制和文件传输过程中的数据,并由此来代替原来的类似服务。)
当出现Do you want to continue?的时候需要我们输入y进行确认。(这里大小写都可以。)

搭建大数据平台步骤,虚拟机,hadoop,java

图9: SSH 服务端安装完成

2、登录本机
搭建大数据平台步骤,虚拟机,hadoop,java

图10:登录本机

在终端输入ssh localhost请求登录本机。注意这里的确认要填的是yes。

搭建大数据平台步骤,虚拟机,hadoop,java

图11:输入hadoop用户密码

搭建大数据平台步骤,虚拟机,hadoop,java

图12:成功登录本机

3、配置无密码登录
搭建大数据平台步骤,虚拟机,hadoop,java

图13:退出openssh并进去ssh文件夹

在终端输入exit退出openssh,当出现Connection to localhost closed.表示成功退出openssh。接着在终端输入cd ~/.ssh/进入ssh文件夹内。

搭建大数据平台步骤,虚拟机,hadoop,java

图14:生成密钥并保存

在终端输入ssh-keygen -t rsa生成密钥,接着要等相关指令出来后按enter回车键(一共三次)。完成后我们能看到密钥和公钥都保存在了/home/hadoop/.ssh/里面。

搭建大数据平台步骤,虚拟机,hadoop,java

图15:查看/.ssh下的文件

在终端输入ll查看/.ssh下的所有文件,确保密钥和公钥都保存在了这里。

4、确认配置成功
搭建大数据平台步骤,虚拟机,hadoop,java

图16:确认配置成功

在终端输入cat ./id_rsa.pub >> ./authorized_kays加入授权,接着输入ssh localhost测试无密码登录ssh,最后输入exit退出ssh。

四、安装 Java

1、拖拽安装包到 downloads
搭建大数据平台步骤,虚拟机,hadoop,java

图17:将下载好的安装包拖拽到 Downloads

搭建大数据平台步骤,虚拟机,hadoop,java

图18:成功拖拽安装包到 Downloads

2、Hadoop用户下进入Downloads文件夹
搭建大数据平台步骤,虚拟机,hadoop,java

图19:查看Downloads文件夹位置

注意要在Hadoop用户下进入Downloads。(在Ubuntu终端输入su hadoop切换成hadoop用户。)
我这里是将安装包保存在nuyoah/Downloads下。(注意nuyoah是我最开始设置的用户名)通过终端输入ll查看downloads文件夹位置。

搭建大数据平台步骤,虚拟机,hadoop,java

图20:进入Downloads文件夹

进入Downloads文件夹后,在终端输入ll确认Downloads文件夹有刚刚拖进来的安装包。

3、创建jvm文件夹
搭建大数据平台步骤,虚拟机,hadoop,java

图21:创建jvm文件夹

在终端输入sudo mkdir /usr/lib/jvm创建jvm文件夹。(出现Permission denied错误表示要在指令前加“sudo”。)

4、将:JDK安装包复制到 jvm 文件夹下
搭建大数据平台步骤,虚拟机,hadoop,java

图22:将:JDK安装包复制到 jvm 文件夹

在终端输入sudo cp jdk-8u211-linux-x64.gz /uer/lib/jvm复制JDK安装包到 jvm 文件夹,其中sudo是给权限,cp是复制,jdk-8u211-linux-x64.gz是要复制的文件名,/uer/lib/jvm是要复制到的路径。在终端输入cd /uer/lib/jvm以及ll到目标文件夹下查看是否完成复制。

5、解压
搭建大数据平台步骤,虚拟机,hadoop,java

图23:解压jdk

在终端输入sudo tar -zxvf ./jdk-8u211-linux-x64.gz -C /uer/lib/jvm解压指令对jdk文件解压。(-zxvf :z代表gzip的压缩包;x代表解压;v代表显示过程信息;f代表后面接的是文件)
需要记住jdk1.8.0_211/这个文件夹,后面环境配置时需要。

搭建大数据平台步骤,虚拟机,hadoop,java

图24:解压完成

搭建大数据平台步骤,虚拟机,hadoop,java

图25:确认解压是否成功

在终端输入cd jdk1.8.0_211/进入该文件夹确认解压是否成功,如果该文件夹为空则前面某一步有问题导致解压不成功,反之则为解压成功。
6、配置环境变量
搭建大数据平台步骤,虚拟机,hadoop,java

图26:进入环境变量配置

在终端输入cd …返回上一级文件夹,再输入vim ~/.bashrc进入环境变量配置。

搭建大数据平台步骤,虚拟机,hadoop,java

图27:进入环境变量

进入环境变量,此时补课编辑,只可查看。需要按“i”进入 insert 模式。

搭建大数据平台步骤,虚拟机,hadoop,java

图28:配置环境变量

搭建大数据平台步骤,虚拟机,hadoop,java

图29:按 ESC 保存,然后 shift+:wq

按 ESC 保存,然后 shift+:wq退出环境配置。

搭建大数据平台步骤,虚拟机,hadoop,java

图30:确认jdk安装成功

在终端输入source ~/.bashrc激活刚刚配置的环境变量,接着在终端输入java -version查看java版本,确认jdk安装成功。

五、安装单机 Hadoop

1、确认文件及文件夹
搭建大数据平台步骤,虚拟机,hadoop,java

图31:确认文件及文件夹

在终端进入Downloads文件夹确认hadoop的安装包在该文件夹内。

2、解压安装包到/usr/local下
搭建大数据平台步骤,虚拟机,hadoop,java

图32:解压安装包到/usr/local

在终端输入sudo tar -zxvf hadoop-3.1.3.tar.gz -C /uer/local解压指令对hadoop文件解压。(-zxvf :z代表gzip的压缩包;x代表解压;v代表显示过程信息;f代表后面接的是文件)

搭建大数据平台步骤,虚拟机,hadoop,java

图33:解压完成

Hadoop安装包解压完成,其中hadoop-3.1.3/是解压后的文件夹的名称。

3、修改目录名及目录权限
搭建大数据平台步骤,虚拟机,hadoop,java

图34:修改目录名及目录权限

在终端输入cd /uer/local进入local文件夹,通过ll查看改文件夹内的文件。为了方便,通过输入sudo mv ./hadoop-3.1.3/ ./hadoop将文件夹hadoop-3.1.3的名字改成了hadoop。通过输入sudo chown -R hadoop ./hadoop修改权限。

4、查看版本信息
搭建大数据平台步骤,虚拟机,hadoop,java

图35:查看版本信息

在终端输入cd hadoop/进入hadoop文件夹,再输入./bin/hadoop version查看版本信息。

5、测试
搭建大数据平台步骤,虚拟机,hadoop,java

图36:复制文件到新建文件夹input内

在终端输入mkdir input新建文件夹input,接着输入cp ./etc/hadoop/.xml ./input(其中.xml代表所有的.xml文件),此行目的是将uer/local/hadoop/etc/hadoop下的所有的.xml文件复制到input文件夹内。
通过cd input进入input文件夹我们确认了复制成功。

搭建大数据平台步骤,虚拟机,hadoop,java

图37:测试

在终端输入./bin/hadoop jar /usr/loacl/hadoop/share/hadoop/mapreduce/
hadoop-mapreduce-examples-3.1.3.jar grep ./input ./output 'dfs[a-z.]+'测试指令进行测试。

搭建大数据平台步骤,虚拟机,hadoop,java

图38:测试完成

测试完成,在终端输入cat ./output/*查看输出数据。

六、Hadoop 伪分布式安装

1、修改配置文件(在etc/hadoop下)
搭建大数据平台步骤,虚拟机,hadoop,java

图39:查看要修改的配置文件

通过终端cd etc/hadoop进入etc/hadoop查看要修改的配置文件。通过查看得知需要配置core-site.xml和hdfs-site.xml两个文件夹。
在终端输入vim core-site.xml使用vim编辑器配置。
搭建大数据平台步骤,虚拟机,hadoop,java

图40:进入core-site.xml

搭建大数据平台步骤,虚拟机,hadoop,java

图41:core-site.xml配置完成
2、配置
搭建大数据平台步骤,虚拟机,hadoop,java

图42:配置hdfs-site.xml

在终端输入vim hdfs-site.xml使用vim编辑器配置。

搭建大数据平台步骤,虚拟机,hadoop,java

图43:进入hdfs-site.xml

搭建大数据平台步骤,虚拟机,hadoop,java

图44:hdfs-site.xml配置完成

3、初始化
搭建大数据平台步骤,虚拟机,hadoop,java

图45:初始化

在终端输入cd /usr/local/hadoop回到/usr/local/hadoop文件夹,再输入bin/hdfs namenode -format进行初始化。

搭建大数据平台步骤,虚拟机,hadoop,java

图46:初始化成功

4、启动 hdfs
搭建大数据平台步骤,虚拟机,hadoop,java

图47:启动hdfs

在终端输入./sbin/start-dfs.sh启动hsfd,再输入jsp查看java进程。

5、查看 Hadoop(用 Browser)
搭建大数据平台步骤,虚拟机,hadoop,java

图48:用 Browser查看 Hadoop

注意这里要用Ubuntu自带的浏览器,地址为:http://localhost:9870

6、创建Hadoop用户的用户目录及input目录
搭建大数据平台步骤,虚拟机,hadoop,java

图49:创建 Hadoop 用户的用户目录及 input 目录

在终端输入./bin/hdfs dfs -mkdir -p /usr/hadoop创建Hadoop用户的用户目录,在终端输入./bin/hdfs dfs -mkdir input创建Hadoop用户的input目录。(其中./bin/hdfs dfs是指令前缀,后面是正常的Ubuntu指令。)

7、将本地配置文件夹上传到分布式文件系统
搭建大数据平台步骤,虚拟机,hadoop,java

图50:将本地配置文件夹上传到分布式文件系统

在终端输入bin/hdfs dfs -put ./etc/hadoop/.xml input将本地配置文件夹上传到分布式文件系统.(bin/hdfs dfs是指令前缀,-put是命令,./etc/hadoop/.xml是源,input是目标。)

8、测试demo
搭建大数据平台步骤,虚拟机,hadoop,java

图51:测试demo

在终端输入./bin/hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/
hadoop-mapreduce-examples-3.1.3.jar grep input output 'dfs[a-z.]+'测试指令进行测试。
注意这里和单机hadoop测试不一样的地方是这里后面是input output,单机时是./input ./output。

搭建大数据平台步骤,虚拟机,hadoop,java

图52:测试完成

9、查看结果
搭建大数据平台步骤,虚拟机,hadoop,java

图53:查看测试结果

在终端输入.bin/hdfs dfs -cat output/*查看测试结果。

10、关闭 hdfs
搭建大数据平台步骤,虚拟机,hadoop,java

图54:删除output目录

在终端输入.bin/hdfs dfs -rm -r output删除output目录。(每次执行都要吧上一次的output删除,测试过应该是底层写死的无法修改)

搭建大数据平台步骤,虚拟机,hadoop,java

图55:关闭hdfs

在终端输入./sbin/stop-dfs.sh停止执行hdfs。

七、HDFS常用命令

(1)功能:显示

指定的文件的详细信息。
hadoop fs -1s

(2)功能:1s 命令的递归版本。
hadoop fs -1s -R

(3)功能:将

指定的文件的内容输出到标准输出 (stdout )。
hadoop fs -cat

(4)功能:将

指定的文件所属的组改为group,使用-R对

指定的文件夹内的文件进行递归操作。这个命令只适用于超级用户。
hadoop fs -chgrp [-RJgroup

(5)功能:改变

指定的文件所有者,-R 用于递归改交文件夹内的文件所有者。这个命令只适用于超级用户。
hadoop fs-chown [-R] [owner][ :[group]]

(6)功能:将

指定的文件的权限更改为。这个命令只适用于超级用户和文件所有者。
hadoop fs -chmod [- R]

(7)功能:将

指定的文件最后 1KB 的内容输出到标准输出 (stdout)上,一f选项用于持续检测新添加到文件中的内容。
hadoop fs -tail [-f]

(8)功能:以指定的格式返回

指定的文件的相关信息。当不指定format 的时候,返回文件

的创建日期。
hadoop fs -stat [format]

(9)功能:创建一个

指定的空文件。
hadoop fs -touchz

(10)功能:创建指定的一个或多个文件夹,-p选项用于递归创建子文件夹。
hadoop fs -mkdir [-p] 。

(11)功能:将本地源文件复制到路径指定的文件或文件夹中。
hadoop fs -copy FromLocal 。

(12)功能:将日标文件复制到本地文件或文件夾中,可用-ignorearc 选项复制CRC
校验失败的文件,使用-crc选项复制文件以及 CRC信息。
hadoop ts -copyToLocal [-ignorecrc][-crc] 。

(13)功能:将文件从源路径复制到日标路径。
hadoop fs -cp 。

(14)功能:显示

指定的文件或文件夾中所有文件的大小。
hadoop fs -du

(15)功能:清空回收站.
hadoop fs -expunge。

(16)功能:复制指定的文件到本地文件系统-指定的文件或文件夹,可用-ignorecrc 选项复制 CRC
校验失败的文件,使用-crc 选项复制文件以及 CRC信息。
hadoop fs-get [ignorecrc] [-crc] 。

(17)功能:对指定的源目录中的所有文件进行合并,写入指定的本地文件。-nl
是可选的,用于指定在每个文件结尾添加一个换行符。
hadoop fs -getmerge [-nl] 。

(18)功能:以本地文件系统中复制<1ocalsrc>指定的单个或多个源文件到指定的目标文件系统中,也支持从标准输人(stdin
)中读取输人并写人目标文件系统。
hadoop fs-put 。

(19)功能:与put 命令功能相同,但是文件上传结束后会从本地文件系统中删除指定的文件。
hadoop fs-moveFromLocal 。

(20)功能:将文件从源路径移动到目标路径
hadoop fs -mv 。

(21)功能:删除

指定的文件,只删除非室日录和文件。
hardoop 1s -rm

(22)功能:除

指定的文什实及其下的所有文件,-r选项表示删除子目录。
hadop fs -rm -r

(23)功能:改变

指定的文件的副本系数,-R 选项用于递归政变目录下所有文件的副本系数。
hadoop fs-setrep [-R]

(24)功能:检查

指定的文什或文件夾的相关信息。不同选项的作用如下。
hadoop fs -test -[ezd]

。 ①-e检查文件是否存在,如果存在则返回0,否则返回 1。 ②-z检查文件是否是 0字节,如果是则返回 0,否则返回1。 ③ -d如果路径是个日录,则返回1,否则返回 0。

(25)功能:将

指定的文什输出为文木格式,文件的格式世允许是zip和TextRecordinputStream 等
hadoop ts -text

(26)查看帮助
hdfs dfs -help
(27)查看当前目录信息
hdfs dfs -ls /
(28)上传文件
hdfs dfs -put /本地路径 /hdfs路径
(29)剪切文件
hdfs dfs -moveFromLocal a.txt /aa.txt
(30)下载文件到本地
hdfs dfs -get /hdfs路径 /本地路径
(31)合并下载
hdfs dfs -getmerge /hdfs路径文件夹 /合并后的文件
(32)创建文件夹
hdfs dfs -mkdir /hello
(33)创建多级文件夹
hdfs dfs -mkdir -p /hello/world
(34)移动hdfs文件
hdfs dfs -mv /hdfs路径 /hdfs路径
(35)复制hdfs文件
hdfs dfs -cp /hdfs路径 /hdfs路径
(36)删除hdfs文件
hdfs dfs -rm /aa.txt
(37)删除hdfs文件夹
hdfs dfs -rm -r /hello
(38)查看hdfs中的文件
hdfs dfs -cat /文件
hdfs dfs -tail -f /文件
(39)查看文件夹中有多少个文件
hdfs dfs -count /文件夹
(40)查看hdfs的总空间
hdfs dfs -df /
hdfs dfs -df -h /
(41)修改副本数
hdfs dfs -setrep 1 /a.txt

八、HDFS实验之通过JAVA-API访问HDFS

1、Hadoop用户下进入Ubuntu
搭建大数据平台步骤,虚拟机,hadoop,java

图56:Hadoop用户下进入Ubuntu

2、把eclipse拖到/home/hadoop/Downloads下
搭建大数据平台步骤,虚拟机,hadoop,java

图57:把eclipse拖到/home/hadoop/Downloads下

3、检查一下是不是整个Ubuntu都在hadoop用户下,是的话,解压到/uer/local
搭建大数据平台步骤,虚拟机,hadoop,java

图58:确认是在hadoop用户下

在终端输入whoami,当出现hadoop表示现在是在hadoop用户下进行的操作(确保后面的操作能正常进行)。
进入Downloads查询当前文件夹所有文件,看eclipse安装包是否存在。

搭建大数据平台步骤,虚拟机,hadoop,java

图59:解压eclipse安装包

在终端输入sudo tar -zxvf ./eclipse-4.7.0-linux.tar.gz -C /usr/local解压eclipse安装包。

搭建大数据平台步骤,虚拟机,hadoop,java

图60:解压eclipse安装包完成

4、cd到解压后的文件夹/usr/local/eclipse,启动eclipse(启动指令./eclipse)
搭建大数据平台步骤,虚拟机,hadoop,java

图61:检查解压情况

在终端cd到文件夹/usr/local内,查看是否有eclipse文件夹,如果有则解压成功。

搭建大数据平台步骤,虚拟机,hadoop,java

图62:启动eclipse

在终端输入启动指令./eclipse启动eclipse。

5、默认workspace(这里必须是Hadoop用户下,如果是个人用户名下,就代表前面错误,你不是在Hadoop下完成的操作,会显示没有java路径)
搭建大数据平台步骤,虚拟机,hadoop,java

图63:默认workspace

默认workspace点击launch进入下一步。

6、启动成功
搭建大数据平台步骤,虚拟机,hadoop,java

图64:启动eclipse成功

7、新建工程后选择java project,然后next
搭建大数据平台步骤,虚拟机,hadoop,java

图65:新建工程

8、输入工程名称,其他默认即可,然后点击next
搭建大数据平台步骤,虚拟机,hadoop,java

图66:输入新建的工程名称

9、点击libraries,添加jar包,添加完成后点击finish
搭建大数据平台步骤,虚拟机,hadoop,java

图67:添加jar包

搭建大数据平台步骤,虚拟机,hadoop,java

图68:添加jar包

选择add external jars进行添加jar包。

搭建大数据平台步骤,虚拟机,hadoop,java

图69:添加jar包

搭建大数据平台步骤,虚拟机,hadoop,java

图70:添加jar包

搭建大数据平台步骤,虚拟机,hadoop,java

图71:添加第一个路径的jar包

注意路径,一般进来会直接选中第一个文件夹,这个时候需要取消选中在选择需要的jar包。

搭建大数据平台步骤,虚拟机,hadoop,java

图72:添加第一个路径的jar包成功

搭建大数据平台步骤,虚拟机,hadoop,java

图73:添加第二个路径的jar包

搭建大数据平台步骤,虚拟机,hadoop,java

图74:添加第三个路径的jar包

搭建大数据平台步骤,虚拟机,hadoop,java

图75:添加第四个路径的jar包

搭建大数据平台步骤,虚拟机,hadoop,java

图76:4个路径的jar包添加完成

10、出现如下框点击open perspective
搭建大数据平台步骤,虚拟机,hadoop,java

图77:点击open perspective

11、右键→New→class
搭建大数据平台步骤,虚拟机,hadoop,java

图78:右键→New→class

12、右键→New→class
搭建大数据平台步骤,虚拟机,hadoop,java

图79:给新建class起名

13、创建成功后出现如下界面,输入案例代码
搭建大数据平台步骤,虚拟机,hadoop,java

图80:创建成功
搭建大数据平台步骤,虚拟机,hadoop,java

图81:输入案例代码

搭建大数据平台步骤,虚拟机,hadoop,java

图82:运行主程序

搭建大数据平台步骤,虚拟机,hadoop,java

图83:出现报错

运行主程序后报错,说明程序有问题,经过检查发现需要改代码以及放入文件。

搭建大数据平台步骤,虚拟机,hadoop,java

图84:将7个文件复制到hadoop的Downloads内

搭建大数据平台步骤,虚拟机,hadoop,java

图85:启动hdfs

在终端输入./sbin/start-dfs.sh启动hsfd。

搭建大数据平台步骤,虚拟机,hadoop,java

图86:将file1.txt上传到分布式文件系统

在终端输入bin/hdfs dfs -put /home/hadoop/Downloads/file.txt input将file1.txt上传到分布式文件系统.(bin/hdfs dfs是指令前缀,-put是命令,/home/hadoop/Downloads/file.txt是源,input是目标。)
通过bin/hdfs dfs -ls input查看刚刚是否成功将file1.txt上传到分布式文件系统。

搭建大数据平台步骤,虚拟机,hadoop,java

图87:将剩下的6个文件上传到分布式文件系统

重复刚刚的指令,将源改成对应的文件名,将file2.txt,file3.txt,file4.txt,file5.txt,file4.abc,file5.abc六个文件上传到分布式文件系统。

搭建大数据平台步骤,虚拟机,hadoop,java

图88:查看是否成功将文件上传到分布式文件系统

通过bin/hdfs dfs -ls input查看是否成功将文件上传到分布式文件系统。

搭建大数据平台步骤,虚拟机,hadoop,java

图89:打开eclipse

cd到/usr/local/eclipse,通过指令./eclipse启动eclipse(注意要在启动hdfs后再启动eclipse)。

搭建大数据平台步骤,虚拟机,hadoop,java

图90:修改程序并运行

经过检查代码,我发现在主函数里面的第二行"hdfs://localhost:9000/user/hadoop/"的后面少了input,加上input后运行程序便能出现输出文件的结果,但是有个问题出现,输出的只过滤掉了.abc文件,还有.xml文件没有过滤掉。

搭建大数据平台步骤,虚拟机,hadoop,java

图91:对程序进行理解

通过对于代码的了解,我知道了PathFilter 接口里面的accept方法可以过滤掉文件名满足特定条件的文件。以及可以通过FileStatus[] sourceStatus = fsSource.listStatus(inputPath,new MyPathFilter(“.*\.abc”)); 来过滤掉输入目录中后缀为.abc的文件。

搭建大数据平台步骤,虚拟机,hadoop,java

图92:修改程序并输出所需结果

我将PathFilter 接口里面的accept方法进行了修改,把false与true的位置进行了替换,使得方法的用处不在是可以过滤掉文件名满足特定条件的文件,而是可以过滤掉除了特定条件的其他文件,也就是说只输出所需要的文件。
最后通过FileStatus[] sourceStatus = fsSource.listStatus(inputPath,new MyPathFilter(“.*\.txt”));只输出hdfs://localhost:9000/user/hadoop/input里面所有.txt结尾的文件。入图92所示输出了所需要的结果。

搭建大数据平台步骤,虚拟机,hadoop,java

图93:关闭hdfs

关闭eclipse后,在终端输入./sbin/stop-dfs.sh关闭hdfs。文章来源地址https://www.toymoban.com/news/detail-730063.html

到了这里,关于大数据实战平台环境搭建的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据实战(hadoop+spark+python):淘宝电商数据分析

    虚拟机:Ubuntu 20.04.6 LTS docker容器 hadoop-3.3.4 spark-3.3.2-bin-hadoop3 python,pyspark, pandas,matplotlib mysql,mysql-connector-j-8.0.32.jar(下载不需要积分什么的) 淘宝用户数据 以上的技术积累需要自行完成 创建容器(##ubuntu的代码块,在ubuntu中运行,无特殊说明的在docker中运行) 更新软件

    2024年02月11日
    浏览(66)
  • 大数据实战 --- 美团外卖平台数据分析

    目录 开发环境  数据描述 功能需求 数据准备 数据分析 RDD操作 Spark SQL操作 创建Hbase数据表 创建外部表 统计查询 Hadoop+Hive+Spark+HBase 启动Hadoop :start-all.sh 启动zookeeper :zkServer.sh start 启动Hive : nohup hiveserver2 1/dev/null 21 beeline -u jdbc:hive2://192.168.152.192:10000 启动Hbase : start-hbase

    2024年02月02日
    浏览(43)
  • 【hadoop】windows上hadoop环境的搭建步骤

    在大数据开发领域中,不得不说说传统经典的hadoop基础计算框架。一般我们都会将hadoop集群部署在服务器上,但是作为一个资深搬砖人,我们本地环境也需要一个开发hadoop的开发环境。那么,今天就安排一个在windows上搭建一个hadoop环境。 docker部署hadoop请移步 下载hadoop安装包

    2024年02月12日
    浏览(38)
  • 虚拟机上搭建Hadoop运行环境

    下载并安装VMware,这里不做赘述,具体步骤可自行百度。 本篇文章使用的VMware15版本演示,其他版本步骤同理。 2.1硬件部分 注意:这里不能超过自己电脑内核总数 打开任务管理器(快捷键 ctrl + alt +del),查看电脑内核总数: 查看到我电脑是有8个CPU内核 假如我们未来要克隆

    2024年02月04日
    浏览(59)
  • 大数据技术栈-Hadoop3.3.4-完全分布式集群搭建部署-centos7(完全超详细-小白注释版)虚拟机安装+平台部署

    目录 环境条件: 1、安装虚拟机(已安装好虚拟机的可跳转至  二、安装JDK与Hadoop) (1)直接新建一台虚拟机 (2)首次启用虚拟机,进行安装 一、集群前置环境搭建(三台机器分别设置hostname、网卡(ip)配置、ssh免密登录) 1、查看一下本机与虚拟机的网卡和ip信息 (1)

    2024年02月06日
    浏览(46)
  • hadoop伪分布式环境搭建,完整的详细步骤

    1、VMware14 2、一台ubtuntu 18 64位 3、主机名位master 4、ip 地址:192.168.136.31 5、本次实验需要的安装包 1、 查看id 地址 2、 关闭防火墙 命令来关闭防火墙 命令查看当前防火墙状态 3、 修改主机名、 添加主机映射 修改虚拟机hosts文件,将ip地址添加进来 使用 :wq 保存 测试是否修改

    2024年02月08日
    浏览(41)
  • 【云计算平台】Hadoop单机模式环境搭建

    接上一篇博客 点我跳转到虚拟机搭建,配置好虚拟机环境后进行hadoop单机模式的部署,我的云计算课程中只要求了简单的单机模式部署,如果有精力的话,应该会把伪分布式部署也简单地记录一下 Apache Hadoop 项目为可靠,可扩展的分布式计算开发开源软件;Hadoop软件库是一个

    2024年02月02日
    浏览(48)
  • 【云计算平台】Hadoop全分布式模式环境搭建

    此前搭建了hadoop的单机模式与伪分布式模式: 单机模式部署 伪分布式模式部署 中间拖得有点久了,今天索性做个了结,把hadoop的全分布式模式部署的操作也简单地记录一下,算是一个系统性的学习吧。 伪分布式模式是学习阶段最常用的模式,它可以将进程都运行在同一台机

    2023年04月08日
    浏览(54)
  • (十二)大数据实战——hadoop集群之HDFS高可用自动故障转移

    本节内容主要介绍一下hadoop集群下实现HDFS高可用的自动故障转移,HDFS高可用的自动故障转移主要通过zookeeper实现故障的监控和主节点的切换。自动故障转移为 HDFS 部署增加了两个新组件:ZooKeeper 和 ZKFailoverController (ZKFC)进程。ZooKeeper 是维护少量协调数据,通知客户端这些

    2024年02月13日
    浏览(41)
  • (十一)大数据实战——hadoop高可用之HDFS手动模式高可用

    本节内容我们介绍一下hadoop在手动模式下如何实现HDFS的高可用,HDFS的高可用功能是通过配置多个 NameNodes(Active/Standby)实现在集群中对 NameNode 的热备来解决上述问题。如果出现故障,如机器崩溃或机器需要升级维护,这时可通过此种方式将 NameNode很快的切换到另外一台机器,

    2024年02月14日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包