大数据英文考试复习——第六章(大数据处理概念)

这篇具有很好参考价值的文章主要介绍了大数据英文考试复习——第六章(大数据处理概念)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

前言

1.并行处理(parallel data processing):

2.分布式数据处理(distributed data processing):

3.Hadoop与Mapreduce

4.SCV原理(SCV principle)

5.实验【Mapreduce programming】

5.1 实验内容:

5.2 实验流程:

1.上传实验文件:

2.为文件赋予可执行权限:

3.启动Hadoop:

4.拷贝文件到Hadoop中:

5.3 英语答题流程:


前言

第五章主要学习了大数据怎么存储数据,这一章主要讲解大数据怎么处理数据,并结合上课做过的实验来说明如何编写map和reduce程序

1.并行处理(parallel data processing):

为了完成一个任务把任务分解成多个子任务,在一台机器上运行

translation:

In order to complete a task, the task is broken down into multiple subtasks, running on a single computer

2.分布式数据处理(distributed data processing):

把子任务分解到多个计算机去执行(注意和并行处理区分)

translation:

Divide subtasks into multiple computers for execution

3.Hadoop与Mapreduce

Hadoop支持数据并行与任务并行;

MapReduce是一种分布式计算模型和编程框架,它采用了并行计算的思想,将数据分割成多个块,并在多台计算机上同时进行处理;

Map阶段,输入数据被切分成多个小数据块,并由多个Mapper任务并行处理,每个Mapper任务将输入数据转化为键值对(key-value)的形式,并生成中间结果;

Reduce阶段,中间结果被合并和排序,并由多个Reducer任务并行处理。每个Reducer任务按照键(key)对中间结果进行聚合、过滤和计算,生成最终的输出结果;

键值对是map与reduce的唯一通信方式;

translation:

Hadoop supports data parallel and task parallel.

MapReduce is a distributed computing model and programming framework. It adopts the idea of parallel computing, which divides data into multiple blocks and processes it on multiple computers at the same time.

In the Map phase, the input data is divided into several small data blocks and processed by multiple Mapper tasks in parallel. Each Mapper task converts the input data into the form of key-value pairs and generates intermediate results.

In the Reduce phase, intermediate results are merged and sorted, and are processed in parallel by multiple Reducer tasks. Each Reducer task aggregates, filters, and calculates intermediate results by key to generate the final output result.

Key-value pair is the only communication mode between map and reduce.

4.SCV原理(SCV principle)

CAP定理应用于分布式数据的存储,而SCV原理应用于分布式数据的处理:

SCV原理指出,分布式数据处理系统中,无法同时满足速度(Speed)、一致性(Consistency)、体积(Volume)这三个属性

translation:

The SCV principle points out that in a distributed data processing system, Speed, Consistency and Volume cannot be satisfied simultaneously

5.实验【Mapreduce programming】

5.1 实验内容:

编写一个MapReduce程序,统计输入文件中所有字的出现次数,并输出出现次数最多的字。实验报告要求如下:

(1)实验报告中要说明关键代码及自己对程序的理解,并分析说明程序为什么能够适应大数据环境。

(2)学号、姓名、课程名称、实验名称等信息必须出现在报告首页。

(3)实验报告采用宋体小四号字,1.25倍行距,排版整齐美观。

(4)提交pdf版。

5.2 实验流程:

1.上传实验文件:

使用命令:docker cp + 源文件路径  + 容器名 + 目标路径

比如:docker cp D:\mapper.py bgsvr0:/exp/mapper.py

同理上传其他文件:

docker cp D:\reducer.py bgsvr0:/exp/reducer.py
docker cp D:\text.txt bgsvr0:/exp/text.txt

2.为文件赋予可执行权限:

chmod +x /exp/mapper.py
chmod +x /exp/reducer.py

3.启动Hadoop:

docker exec -it bgsvr0 /bin/bash
/bgsys/hadoop-3.3.6/sbin/start-dfs.sh
/bgsys/hadoop-3.3.6/sbin/start-yarn.sh

4.拷贝文件到Hadoop中:

(1)首先进入Hadoop目录:

cd /bgsys
cd hadoop-3.3.6

(2)然后将Hadoop的可执行文件路径添加到PATH中,以便在终端中直接运行Hadoop命令:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd6
export PATH=$PATH:/bgsys/hadoop-3.3.6/bin

(3)使用mkdir命令在hadoop中创建一个目录:

hdfs dfs -mkdir /exp_input

(4)使用put命令将测试文件上传到刚刚建好的目录下:

hdfs dfs -put /exp/text.txt /exp_input/(目标路径在后)

(5)使用ls命令检查文件上传是否成功:

hdfs dfs -ls /exp_input/text.txt

(6)运行命令:

指定要运行的 Hadoop Streaming 工具的路径和版本+指定要传递给 MapReduce 作业的文件+指定 Mapper 阶段要执行的命令或脚本并使用 Python 3 解释器运行/exp/mapper.py脚本作为 Mapper

+指定 Reducer阶段要执行的命令或脚本并使用 Python 3 解释器运行/exp/reducer.py脚本作为 Reducer+指定输入数据的路径和文件名+指定输出结果的路径和文件夹名称

(7)打开输出文件:

hdfs dfs -cat /exp_output/part-00000

5.3 英语答题流程:

docker cp D:\mapper.py bgsvr0:/exp/mapper.py

docker cp D:\reducer.py bgsvr0:/exp/reducer.py

docker cp D:\text.txt bgsvr0:/exp/text.txt

chmod +x /exp/mapper.py
chmod +x /exp/reducer.py

docker exec -it bgsvr0 /bin/bash
/bgsys/hadoop-3.3.6/sbin/start-dfs.sh
/bgsys/hadoop-3.3.6/sbin/start-yarn.sh

cd /bgsys
cd hadoop-3.3.6

Add the PATH of Hadoop's executable file to PATH so that you can run Hadoop commands directly in your terminal

hdfs dfs -mkdir /exp_input

hdfs dfs -put /exp/text.txt /exp_input/

hdfs dfs -ls /exp_input/text.txt

Path and version of Hadoop Streaming tool -files /exp/mapper.py,/exp/reduce.py -mapper "python3 mapper.py" -reducer "python3 reduce.py" -input /exp_input/text.txt -output /exp_output1

hdfs dfs -cat /exp_output1/part-00000文章来源地址https://www.toymoban.com/news/detail-824284.html

到了这里,关于大数据英文考试复习——第六章(大数据处理概念)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Cisco 第六章 IP编址 测试考试答案

    1.请将每个描述与相应的IP地址进行配对。(并非全部选项都要用到) 2.打开PT练习。执行练习说明中的任务,然后回答问题。 在跟踪从PC1到PC2的路由时,显示的三个IPv6地址是什么?(选择三项) A.2001:DB8:1:1::1 B.2001:DB8:1:1::A C.2001:DB8:1:2::2 D.2001:DB8:1:2::1 E.2001:DB8:1:3::1 F.2001:DB8:1

    2024年02月08日
    浏览(102)
  • 【复习】人工智能 第六章 搜索求解策略(又多又难)

    在求解一个问题时,涉及到两个方面: (1)该问题的表示 (2)相对合适的求解方法:由于绝大多数需要人工智能方法求解的问题缺乏直接求解的方法,因此, 搜索 为一种求解问题的一般方法。 另外如果真的想拿下这一章,还是走一下ppt或书上的八数码的对应的每一种情况

    2024年01月16日
    浏览(53)
  • 【计算机网络复习】第六章 局域网 LAN

    局域网( LAN )概述 § LAN 的特点 • 覆盖范围小 § 房间、建筑物、园区范围 • 高传输速率 § 10Mb/s ~ 1000Mb/s • 低误码率 § 10 -8 ~ 10 -11 • 拓扑:总线型、星形、环形 • 介质: UTP 、 Fiber 、 COAX • 私有性:自建、自管、自用 体系结构只包含了两个层次: 数据链路层、物理

    2024年02月08日
    浏览(49)
  • 算法设计与分析复习笔记第六章分支限界法

    分支限界法的基本思想 分支限界法类似于回溯法,也是一种在问题的解空间树T中搜索问题解的算法。 但在一般情况下,分枝限界法与回溯法的求解目标不同。回溯法的求解目标是找出解空间树中满足约束条件的所有解,而分枝限界法的求解目标则是找出满足约束条件的一个

    2024年02月03日
    浏览(48)
  • 【第六章 | 虚拟存储器】《操作系统 慕课版》课后答案 + 复习

    1.虚拟存储器概述 前面基础存储器的缺点 有一个共同特点: 作业全部装入内存后方能运行 常规存储器管理方式的特征:一次性:作业被一次性全部装入内存;驻留性:作业一直驻留在内存 一次性和驻留性使许多在程序运行中不用或暂不用的程序(数据)占据了 大量的内存

    2024年02月10日
    浏览(54)
  • 数据图像处理——期末复习题库

    一.填空题 1.数字图像是用一个数字阵列来表示的图像。数字阵列中的每个数字,表示数字图像的一个最小单位,称为( )。 2.数字图像处理可以理解为两个方面的操作:一是从图像到图像的处理,如图像增强等; 二是( ),如图像测量等。 3.数字图像处理可以理解为两个方

    2024年02月10日
    浏览(46)
  • 《数据处理与知识发现》作业 复习用

    一. 简答题(共3题,100分) (简答题, 15分) 假定用于分析的数据包含属性 age。数据元组的 age 值(以递增序) 是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30, 33,33,35,35,35,35,36,40,45,46,52,70。回答以下问题: ( a ) 该数据的均值是多少?中位数是什么

    2024年02月03日
    浏览(44)
  • 数字图像处理第六章——彩色图像处理

    目录 引言 一、彩色基础 二、彩色模型 2.1 RGB彩色模型 2.2 CMY和CMYK彩色模型  2.3 HSI彩色模型 三、伪彩色图像处理 3.1 灰度分层 3.2 灰度到彩色的变换 四、彩色变换 ​编辑色调与色彩校正 五、平滑与锐化 5.1 平滑 5.2 锐化         在图像处理中,彩色的运用受两个主要因素

    2024年02月09日
    浏览(64)
  • 自然语言处理: 第六章Transformer- 现代大模型的基石

    Transformer(来自2017年google发表的Attention Is All You Need (arxiv.org) ),接上面一篇attention之后,transformer是基于自注意力基础上引申出来的结构,其主要解决了seq2seq的两个问题: 考虑了原序列和目标序列自身内部的自注意力 大大降低的计算成本以及复杂度,完全由全连接层替代了

    2024年02月14日
    浏览(37)
  • 数据结构:第六章 图

    ps:图不可以为空图。 对于图中的边,两头必须要有结点。 边集是可以没有的,如上图最右边。 关于无向图和有向图的应用如下 比如你微信里的好友关系,你要和一个人建立关系(也就是图的两个结点连上),你只需要加1次就可以了,也不需要你加我,我还要加你。 具体

    2024年02月14日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包