Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Master运行WordCount

这篇具有很好参考价值的文章主要介绍了Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Master运行WordCount。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

写在前面

本系列文章索引以及一些默认好的条件在 传送门

step1 eclipse访问hadoop

首先需要明确eclipse安装目录,然后将hadoop-eclipse-plugin_版本号.jar插件放在安装目录的dropins下

Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Master运行WordCount
关于插件,可以通过博主上传到csdn的免费资源获取,链接
具体版本可以自己选择:
Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Master运行WordCount

step2 重启并配置eclipse

在eclipse界面中依次选择:Window→show view→other→MapReduce Tools/Map/Reduce Locations
Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Master运行WordCount
然后在界面上会显示一个大象符号,如下图:
Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Master运行WordCount
点击大象符号,然后就会配置一个DFS Location
配置参数为:
Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Master运行WordCount
配置好后点击finish
然后会出现:
Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Master运行WordCount

step3 新建Map/Reduce项目

在Eclipse中依次选择File→New→Other…→Map/Reduce Project→Next,
输入项目名TestWordCount,浏览并选择Hadoop路径/usr/local/hadoop,单击“Finish”按钮,则新建项目TestWordCount成功
新建包并在包下创建相应的类,具体项目结构如下:
Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Master运行WordCount

step4 复制粘贴代码

package wordCount;

import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class WordCount {
	public static class WordCountMapper extends Mapper<Object, Text, Text, IntWritable> {
		/**
		 * 定义final 静态变量one,用来标示键值对<String,One>
		 * 然后定义Text类型的变量来存储字符串
		 */
		private final static IntWritable one = new IntWritable(1);
		private Text word = new Text();
		public void map(Object key, Text value, Context context)
		throws IOException, InterruptedException {
			StringTokenizer itr = new StringTokenizer(value.toString());
			while (itr.hasMoreTokens()) {//
				word.set(itr.nextToken());
				/**
				 * 写入键值对
				 */
				context.write(word, one);
			}
		}
	}
	public static class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
		private IntWritable result = new IntWritable();
		public void reduce(Text key, Iterable<IntWritable> values, Context context)
		throws IOException, InterruptedException {
			int sum = 0;
			for (IntWritable val : values) {
				sum += val.get();
			}
			result.set(sum);
			context.write(key, result);
		}
	}
	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		if (args.length != 2) {
			System.err.println("Usage: <in> <out>");
			System.exit(2); 
		}
		Job job = Job.getInstance(conf, "word count");
		job.setJarByClass(WordCount.class);
		job.setMapperClass(WordCountMapper.class);
		job.setCombinerClass(WordCountReducer.class);
		job.setReducerClass(WordCountReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		FileInputFormat.addInputPath(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		System.exit(job.waitForCompletion(true) ? 0 : 1);
	}
}
 

step5 配置运行参数

启动hadoop集群后在终端写入:

hadoop fs -mkdir /tmp
hadoop fs -chmod -R 777 /tmp

Run→Run Configurations选项,以配置输入输出参数
大致为:
Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Master运行WordCount
点击run直接跑
然后在左侧的目录下会显示文件夹:
Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Master运行WordCount
点进去看下part-r-00000文件就会发现,该文件存储结果:
Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Master运行WordCount
其中输入为:
Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Master运行WordCount
结果与预期一致,项目成功~文章来源地址https://www.toymoban.com/news/detail-406862.html

整个hadoop就到此结束啦

到了这里,关于Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Master运行WordCount的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据技术栈-Hadoop3.3.4-完全分布式集群搭建部署-centos7(完全超详细-小白注释版)虚拟机安装+平台部署

    目录 环境条件: 1、安装虚拟机(已安装好虚拟机的可跳转至  二、安装JDK与Hadoop) (1)直接新建一台虚拟机 (2)首次启用虚拟机,进行安装 一、集群前置环境搭建(三台机器分别设置hostname、网卡(ip)配置、ssh免密登录) 1、查看一下本机与虚拟机的网卡和ip信息 (1)

    2024年02月06日
    浏览(49)
  • Spark集群搭建记录 | 云计算[CentOS7] | Scala Maven项目访问Spark(local模式)实现单词计数

    本系列文章索引以及一些默认好的条件在 传送门 要想完成Spark的配置,首先需要完成HadoopSpark的配置 Hadoop配置教程:链接 若未进行明确说明,均按照root用户操作 本来在Eclipse的Marketplace便可以下载,可是现在官网都寄了 所以说只好找到之前的版本凑合来用 下载链接 这个软件

    2024年02月05日
    浏览(51)
  • CentOS7搭建hadoop集群

    说明:         1.准备三台虚拟机,参考:CentOS7集群环境搭建(以3台为例)         2.配置虚拟机间免密登陆:参考:CentOS7集群配置免密登录         3.虚拟机分别安装jdk:参考:CentOS7集群安装JDK1.8         4.hadoop安装包下载,下载地址 准备开始搭建hadoop集群,以下操作在第

    2024年02月09日
    浏览(55)
  • CentOS7搭建伪分布式Hadoop(全过程2023)

    可以使用XFTP,用物理主机链接虚拟机的centos传送java文件,或者直接去java官网下载文件,解压。配置文件,启动配置。 验证java是否配置好 输入: java javac java -version 修改六个配置文件hadoop-env.sh 启动hadoop之前需要格式化(具体在出现的问题第六点) 验证: 出现错误,解决和验

    2024年02月08日
    浏览(52)
  • 【hadoop】centos7.6+hadoop3.1.1搭建分布式hadoop环境——包含各类问题解决方案

    本文针对centos7.4即以上版本的hadoop环境搭建,因为这部分搭建是个很复杂且很容易出错的内容,所以在结合了多种搭建方案后给出最适宜当前版本的搭建。 本教程适用于CentOS 7.4即以上版本,如果是Ubuntu等其它linux内核版本则不适合。 查看系统版本: 软件 版本 获取方法 Ope

    2024年02月16日
    浏览(44)
  • spark 基于物理机centos7环境搭建分布式集群

    非生产环境,就使用一个新一点的版本,提前先踩踩坑,版本的选型真是一个头疼的问题,先看一下apache的官网的测试图: 伪分布式看这里: 配置之前:若是用伪分布式时,在本机必须生成key-gen 与ssh-copy-id到本机,且hosts中必须加入127.0.0.1  本机名并关闭防火墙这几步才可

    2024年02月03日
    浏览(70)
  • 搭建Hadoop3.x完全分布式集群(CentOS 9)

    虚拟机相关: VMware workstation 16:虚拟机 vmware_177981.zip CentOS Stream 9:虚拟机 CentOS-Stream-9-latest-x86_64-dvd1.iso Hadoop相关 jdk1.8:JDK jdk-8u261-linux-x64.tar.gz Hadoop 3.3.6:Hadoop Hadoop 3.3.6.tar.gz 辅助工具 putty:tools putty.exe mtputty:tools mtputty.exe winscp:tools WinSCP-6.3.1-Portable.zip 本文相关资源可以

    2024年04月14日
    浏览(51)
  • Centos7原生hadoop环境,搭建Impala集群和负载均衡配置

    Impala集群包含一个Catalog Server (Catalogd)、一个Statestore Server (Statestored) 和若干个Impala Daemon (Impalad)。Catalogd主要负责元数据的获取和DDL的执行,Statestored主要负责消息/元数据的广播,Impalad主要负责查询的接收和执行。 Impalad又可配置为coordinator only、 executor only 或coordinator and exe

    2024年02月04日
    浏览(56)
  • 云计算集群搭建记录[Hadoop|Zookeeper|Hbase|Spark | Docker |OpenStack]更新索引 |动态更新

    为了能够更好的查看所更新的文章,讲该博文设为索引 为了解决在编辑文件等操作的过程中的权限问题,博主一律 默认采用 root 账户登录 对于初次安装的用户可以采用如下命令行: 另外推荐一款终端工具:Tabby,既能够连接自己的服务器,也能够连接自己本地的虚拟机,还

    2023年04月13日
    浏览(55)
  • CentOS7安装Zookeeper分布式集群

    前言 ZooKeeper 是一个开源的分布式协调服务框架,主要用于分布式系统中的数据同步、配置管理、集群控制和命名服务等方面的处理。本文在3个系统为CentOS7的Linux节点上配置了Zookeeper分布式集群,安装配置的过程均在普通用户 sxZhang 的账户上完成,安装路径为 ~/bigdata ,3个

    2024年01月17日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包