【大数据学习篇3】HDFS命令操作与MR单词统计

10月前作者：小杰911 分类：Toy博客阅读(41) 违法举报

这篇具有很好参考价值的文章主要介绍了【大数据学习篇3】HDFS命令操作与MR单词统计。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1. HDFS命令使用

[root@master bin]# su hd

[hd@master bin]$

#查看/目录

[hd@master bin]$ hdfs dfs -ls /

5

#在/目录创建一个为test名字的文件夹

[hd@master bin]$ hdfs dfs -mkdir /test

#查看/目录

[hd@master bin]$ hdfs dfs -ls

Found 1 items

drwxr-xr-x   - hd supergroup          0 2020-02-27 01:02 /test

#创建一个本地的txt文件

[hd@master ~]$ echo "abc123def456" > hello.txt

#把创建的文件上传到hdfs

[hd@master ~]$ hdfs dfs -put hello.txt  /

#在hdfs查看上传的文件

[hd@slave02 ~]$ hdfs dfs -cat /hello.txt

abc123def456

#下载hdfs文件到本地的linux当前目录

[hd@slave02 ~]$ ll

total 0

drwxrwxr-x. 4 hd hd 30 Feb 26 23:08 apps

#下载hdfs文件到当前目录

[hd@slave02 ~]$ hdfs dfs -get /hello.txt .

[hd@slave02 ~]$ ll

total 4

drwxrwxr-x. 4 hd hd 30 Feb 26 23:08 apps

-rw-r--r--. 1 hd hd 13 Feb 27 01:13 hello.txt

[hd@slave02 ~]$

[hd@slave02 ~]$ cat hello.txt

abc123def456

【大数据学习篇3】HDFS命令操作与MR单词统计文章来源地址https://www.toymoban.com/news/detail-441241.html

MapReduct执行单词统计的程序

#创建文件

[hd@master ~]$ vi words.txt

Hello World Bye World

Hello Hadoop Bye Hadoop

Bye Hadoop Hello Hadoop

#上传文件

[hd@master ~]$ hdfs dfs -mkdir /word

[hd@master ~]$ hdfs dfs -put words.txt /word

#执行单词统计的样例

[hd@master hadoop]$ hadoop jar /home/hd/apps/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0.jar wordcount /word/words.txt /out

到了这里，关于【大数据学习篇3】HDFS命令操作与MR单词统计的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Python 机器学习入门：数据集、数据类型和统计学

机器学习是通过研究数据和统计信息使计算机学习的过程。机器学习是迈向人工智能（AI）的一步。机器学习是一个分析数据并学会预测结果的程序。在计算机的思维中，数据集是任何数据的集合。它可以是从数组到完整数据库的任何东西。数组的示例： [99,86,87,88,111,86,10

2024年02月05日
浏览(47)
Python学习——数据分组统计、分组运算及透视

分割 split : 按照键值（key）或者分组变量将数据分组应用 apply : 对每个组应用函数, 通常是累计,转换或过滤函数组合 combine : 将每一组的结果合并成一个输出组常用功能新增加一列年龄ew 将填充后的年龄补充上去数据聚合（agg）：一般指的是能够从数组产生的标量值的数

2024年02月10日
浏览(48)
【大数据学习篇11】广告点击流实时统计

掌握广告点击流实时统计实现思路掌握利用Kafka生产用户广告点击流数据了解数据库设计掌握如何创建Spark Streaming连接掌握利用Spark Streaming读取业务数据掌握利用Spark读取黑名单用户掌握利用Spark Streaming过滤黑名单用户掌握利用Spark Streaming统计每个城市不同广告的点击次

2024年02月08日
浏览(40)
数理统计的深度学习：探索大数据的潜在能量

随着数据的不断增长，人工智能技术也随之发展迅速。深度学习技术在处理大规模数据方面表现出色，成为人工智能领域的重要技术之一。数理统计学则是研究数据的概率分布和统计规律的学科。在深度学习中，数理统计学的理论和方法有着重要的应用价值。本文将从深度学

2024年02月20日
浏览(35)
[机器学习、Spark]Spark MLlib实现数据基本统计

👨‍🎓👨‍🎓博主：发量不足 📑📑本期更新内容： Spark MLlib基本统计 📑📑下篇文章预告：Spark MLlib的分类🔥🔥 简介：耐心，自信来源于你强大的思想和知识基础！！目录 Spark MLlib基本统计一．摘要统计二．相关统计三．分层抽样 MLlib提供了很多统计方法，包含

2024年02月02日
浏览(48)
【SQL开发实战技巧】系列（二十）：数据仓库中时间类型操作（进阶）获取季度开始结束时间以及如何统计非连续性时间的数据

【SQL开发实战技巧】系列（一）:关于SQL不得不说的那些事【SQL开发实战技巧】系列（二）：简单单表查询【SQL开发实战技巧】系列（三）：SQL排序的那些事【SQL开发实战技巧】系列（四）：从执行计划讨论UNION ALL与空字符串UNION与OR的使用注意事项【SQL开发实战技巧】系列

2024年02月02日
浏览(72)
Hadoop3.0大数据处理学习4（案例：数据清洗、数据指标统计、任务脚本封装、Sqoop导出Mysql）

直播公司每日都会产生海量的直播数据，为了更好地服务主播与用户，提高直播质量与用户粘性，往往会对大量的数据进行分析与统计，从中挖掘商业价值，我们将通过一个实战案例，来使用Hadoop技术来实现对直播数据的统计与分析。下面是简化的日志文件，详细的我会更新

2024年02月08日
浏览(53)
【空间统计学习笔记】四、空间大数据、复杂性科学及模拟计算

【空间统计学习笔记】一、基本概念入门理解【空间统计学习笔记】二、空间分布模式【空间统计学习笔记】三、聚类与空间聚类前面讲解了一些空间统计的理论，这一讲概括一些空间大数据的应用，以及介绍复杂性科学及模拟计算，重点介绍在空间统计分析中常用的元胞

2024年02月04日
浏览(38)
0基础学习VR全景平台篇第90篇：智慧眼-数据统计

【数据统计】是按不同条件去统计整个智慧眼项目中的热点，共包含四大块，分别是数据统计、分类热点、待审核、回收站，下面我们来逐一进行介绍。 1、数据统计 ① 可以按所属分类、场景分组、所属场景、热点类型以及输入热点名去筛选对应的热点； ② 支持数据导出

2024年02月11日
浏览(36)
Spark大数据处理学习笔记（2.4）IDEA开发词频统计项目

该文章主要为完成实训任务，详细实现过程及结果见【http://t.csdn.cn/0qE1L】从Scala官网下载Scala2.12.15 - https://www.scala-lang.org/download/2.12.15.html 安装在默认位置安装完毕在命令行窗口查看Scala版本（必须要配置环境变量）启动HDFS服务启动Spark集群在master虚拟机上创建单词文件

2024年02月08日
浏览(57)