云计算实验2 Spark分布式内存计算框架配置及编程案例

这篇具有很好参考价值的文章主要介绍了云计算实验2 Spark分布式内存计算框架配置及编程案例。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、 实验目的

掌握分布式多节点计算平台Spark配置,Spark编程环境IDEA配置,示例程序启动与运行

二、 实验环境

Linux的虚拟机环境、线上操作视频和实验指导手册

三、 实验任务

完成Spark开发环境安装、熟悉基本功能和编程方法。

四、 实验步骤

请按照线上操作视频和实验指导手册 ,完成以下实验内容:

  • 实验2-1 Spark安装部署:Standalone模式
    (1)在Hadoop平台上配置Spark主节点和从节点
    (2)启动Spark集群和网页操作界面
    
  • 实验2-2 Spark编程工具:使用IDEA
    (1)安装IDEA集成编译环境
    (2)安装Scala插件
    (3)配置IDEA集成编译环境
    
  • 实验2-3 Spark单词计数示例程序运行
    (1)使用IDEA新建Spark项目
    (2)使用Scala示例代码编写单词计数程序
    (3)配置程序参数,编译并运行Spark单词计数程序
    

五、 实验作业

  1. 提交实验报告电子稿和纸质稿,内容包括安装步骤及主要配置方法说明,关键步骤截图,并对截图内容进行解释说明;
  2. 个人对实验的总结和心得,本实验具有一定难度和繁琐程度,请总结与撰写自身遇到的问题,以及解决问题的过程,该内容为每位同学实际经历,不要雷同。
  3. 搜索互联网并回答问题:谈谈大数据技术使用后,企业获取用户隐私信息的变化,以及未来如何保护用户隐私?(回答需大于500字)

六、 实验结果与分析

1、安装步骤及主要配置方法说明

1. 实验2-1 Spark安装部署:Standalone模式

(1)在Hadoop平台上配置Spark主节点和从节点
编写安装配置脚本,我认为重复的工作没有必要浪费过多时间,在上一个实验中我提出了这样的想法。
1、Spark-master.sh 配置主机
云计算实验2 Spark分布式内存计算框架配置及编程案例

#! /bin/sh
#run as zkpk@master
#configure spark on master
#Install
tar -zxvf /home/zkpk/tgz/spark/spark-2.1.1-bin-hadoop2.7.tgz -C /home/zkpk

#environment

echo 'export SPARK_HOME=/home/zkpk/spark-2.1.1-bin-hadoop2.7export ' >> /home/zkpk/.bash_profile
echo 'PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH' >> /home/zkpk/.bash_profile
source ~/.bash_profile

#copy bash to slave
scp /home/zkpk/.bash_profile slave01:/home/zkpk
scp /home/zkpk/.bash_profile slave02:/home/zkpk

#rename
cd spark-2.1.1-bin-hadoop2.7/conf/
mv slaves.template slaves

#change hostname
echo 'slave01' > slaves
echo 'slave02' >> slaves

mv spark-env.sh.template spark-env.sh

#spark-env.sh
echo 'export SPARK_MASTER_HOST=master #设置运行master进程的节点' >> spark-env.sh
echo 'export SPARK_MASTER_PORT=7077 #设置master的通信端口' >> spark-env.sh
echo 'export SPARK_WORKER_CORES=1 #每个worker使用的核数' >> spark-env.sh
echo 'export SPARK_WORKER_MEMORY=1024M #每个worker使用的内存大小' >> spark-env.sh
echo 'export SPARK_MASTER_WEBUI_PORT=8080 #master的webui端口' >> spark-env.sh
echo 'export SPARK_CONF_DIR=/home/zkpk/spark-2.1.1-bin-hadoop2.7/conf #spark的配置文件目录' >> spark-env.sh
echo 'export JAVA_HOME=/usr/java/jdk1.8.0_131/ #jdk安装路径' >> spark-env.sh

cd
scp -r spark-2.1.1-bin-hadoop2.7/ zkpk@slave01:/home/zkpk
scp -r spark-2.1.1-bin-hadoop2.7/ zkpk@slave02:/home/zkpk

2、Spark-slave.sh 配置从机
云计算实验2 Spark分布式内存计算框架配置及编程案例

#! /bin/sh

#configure spark on slave

#Install
tar -zxvf /home/zkpk/tgz/spark/spark-2.1.1-bin-hadoop2.7.tgz -C /home/zkpk

#environment

echo 'export SPARK_HOME=/home/zkpk/spark-2.1.1-bin-hadoop2.7export ' >> /home/zkpk/.bash_profile
echo 'PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH' >> /home/zkpk/.bash_profile
source ~/.bash_profile

安装配置仅需运行脚本即可

注意:在执行脚本前需要使脚本具有执行权限(例如对于spark-master.sh,需要 chmod +x ./spark-master.sh)

云计算实验2 Spark分布式内存计算框架配置及编程案例
(2)启动Spark集群和网页操作界面
验证spark standalone模式部署正确
访问spark webui界面地址
云计算实验2 Spark分布式内存计算框架配置及编程案例
命令行提交job到spark集群,计算PI
云计算实验2 Spark分布式内存计算框架配置及编程案例

2. 实验2-2 Spark编程工具:使用IDEA

(1)安装IDEA集成编译环境
(2)安装Scala插件
(3)配置IDEA集成编译环境

1、 保证java已经安装正确版本
云计算实验2 Spark分布式内存计算框架配置及编程案例
如果未安装,可使用此脚本(java.sh)安装

#! /bin/sh

# config java in all machines
# must with sudo

# remove original java version
yum remove java-1.*
mkdir /usr/java

# install
tar -xzvf /home/zkpk/tgz/jdk-8u131-linux-x64.tar.gz -C /usr/java

# java environment
echo 'export JAVA_HOME=/usr/java/jdk1.8.0_131/' >> /home/zkpk/.bash_profile
echo 'export PATH=$JAVA_HOME/bin:$PATH' >> /home/zkpk/.bash_profile

source /home/zkpk/.bash_profile

2、编写脚本配置scala和安装idea
编写脚本
云计算实验2 Spark分布式内存计算框架配置及编程案例

#! /bin/sh
#run as zkpk@master
#configure scala and install idea

#configure scala
echo "=====start to install scala====="
tar -xzvf ./tgz/spark/scala-2.11.11.tgz -C /home/zkpk
echo 'export SCALA_HOME=/home/zkpk/scala-2.11.11' >> /home/zkpk/.bash_profile
echo 'export PATH=$SCALA_HOME/bin:$PATH' >> /home/zkpk/.bash_profile
source /home/zkpk/.bash_profile

echo "=====scala installed successfully====="

echo "=====start to install IDEA====="
tar xvzf /home/zkpk/tgz/spark/ideaIC-2017.2.7.tar.gz -C /home/zkpk/

cp /home/zkpk/tgz/spark/scala-intellij-bin-2017.2.7.zip  /home/zkpk/idea-IC-172.4574.19/plugins/

echo "=====IDEA installed successfully====="
echo "=====please start IDEA by youself====="

运行脚本
云计算实验2 Spark分布式内存计算框架配置及编程案例
3、验证scala是否安装成功
云计算实验2 Spark分布式内存计算框架配置及编程案例
4、启动idea
云计算实验2 Spark分布式内存计算框架配置及编程案例
5、配置scala plugin
云计算实验2 Spark分布式内存计算框架配置及编程案例
云计算实验2 Spark分布式内存计算框架配置及编程案例

3. 实验2-3 Spark单词计数示例程序运行

(1)使用IDEA新建Spark项目
(2)使用Scala示例代码编写单词计数程序
(3)配置程序参数,编译并运行Spark单词计数程序

1、启动hadoop集群

云计算实验2 Spark分布式内存计算框架配置及编程案例
2、 打开IDEA,配置软件包依赖
云计算实验2 Spark分布式内存计算框架配置及编程案例
创建工程成功
云计算实验2 Spark分布式内存计算框架配置及编程案例
仅展示部分配置截图
3、 配置pom
云计算实验2 Spark分布式内存计算框架配置及编程案例
4、 配置JavaComplier
云计算实验2 Spark分布式内存计算框架配置及编程案例
5、 编写Scala程序完成Spark单词计数
云计算实验2 Spark分布式内存计算框架配置及编程案例

6、 运行测试
云计算实验2 Spark分布式内存计算框架配置及编程案例
查看HDFS输出
云计算实验2 Spark分布式内存计算框架配置及编程案例

2、实验的总结和心得

本次实验主要是完成spark的安装配置和利用spark技术完成单词计数程序,旨在通过安装配置过程来体会spark技术,spark是一种用于大数据工作负载的分布式开源处理系统,它支持很多语言,例如Java,Python,Scala等,在本次实验中我们使用的Scala。一项技术的诞生必然是为了解决现有的问题, Hadoop MapReduce处理数据时存在大量的磁盘读取和写入,频繁的磁盘读取造成MapReduce作业很慢,而spark的出现就是为了解决这个问题。Spark实现方法是将数据读取到内存中,内存的读写速度将远快于磁盘,与此相似的是Redis缓存模型,Redis利用内存读写速度快于磁盘,将用户常用的数据存储于内存中,加速读取,优化用户体验。

实验总结

  • 针对重复任务,编写脚本完成
  • 导包配置需要细心
  • 利用spark可以感受出速度较只使用hadoop有一定提升

3、谈大数据技术使用后,企业获取用户隐私信息的变化,以及未来如何保护用户隐私?

随着智慧城市、智慧交通、智能家居、智能电网、智慧医疗、在线社交网络、Web 3.0等数字化技术的发展,人们的衣食住行、健康医疗等信息被数字化,可以随时随地通过海量的传感器、智能处理设备等终端进行收集和使用,实现物与物、物与人、人与人等之间在任何时候、任何地点的有效连接,也促成了大数据时代的到来。
为了从大数据中获益,数据持有方有时需要公开发布己方数据,这些数据通常会包含一定的用户信息,服务方在数据发布之前需要对数据进行处理,使用户隐私免遭泄露。此时,确保用户隐私信息不被恶意的第三方获取是极为重要的。一般的,用户更希望攻击者无法从数据中识别出自身,更不用说窃取自身的隐私信息,匿名技术就是这种思想的实现之一。
为了防御链接攻击,常见的静态匿名技术有k-匿名、l-diversity匿名、t-closeness匿名以及以它们的相关变形为代表的匿名策略。随着研究的进步,这些匿名策略的效果逐步提高。但是这些匿名策略以信息损失为代价,不利于数据挖掘与分析。为此,研究者随即提出了个性化匿名、带权重的匿名等一系列匿名策略。相对于对所有记录执行相同的匿名保护,这类匿名策略给予每条数据记录以不同程度的匿名保护,减少了非必要的信息损失。
大数据存储给隐私保护带来了新的挑战,主要包括:大数据中更多的隐私信息存储在不可信的第三方中,极易被不可信的存储管理者偷窥;大数据存储的难度增大,存储方有可能无意或有意地丢失数据或篡改数据,从而使得大数据的完整性得不到保证。为解决上述挑战,应用的技术主要包括加密存储和第三方审计技术等。包括大数据加密存储技术、大数据加密存储技术。文章来源地址https://www.toymoban.com/news/detail-412580.html

到了这里,关于云计算实验2 Spark分布式内存计算框架配置及编程案例的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 分布式计算框架:Spark、Dask、Ray 分布式计算哪家强:Spark、Dask、Ray

    目录 什么是分布式计算 分布式计算哪家强:Spark、Dask、Ray 2 选择正确的框架 2.1 Spark 2.2 Dask 2.3 Ray 分布式计算是一种计算方法,和集中式计算是相对的。 随着计算技术的发展, 有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间来完成

    2024年02月11日
    浏览(43)
  • 分布式计算框架:Spark、Dask、Ray

    目录 什么是分布式计算 分布式计算哪家强:Spark、Dask、Ray 2 选择正确的框架 2.1 Spark 2.2 Dask 2.3 Ray 分布式计算是一种计算方法,和集中式计算是相对的。 随着计算技术的发展, 有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间来完成

    2024年02月06日
    浏览(33)
  • 云计算与大数据第16章 分布式内存计算平台Spark习题

    1、Spark是Hadoop生态(  B  )组件的替代方案。 A. Hadoop     B. MapReduce        C. Yarn             D.HDFS 2、以下(  D  )不是Spark的主要组件。 A. Driver      B. SparkContext       C. ClusterManager D. ResourceManager 3、Spark中的Executor是(  A  )。 A.执行器      B.主节

    2024年02月14日
    浏览(48)
  • 大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

    前言:七八九用于Spark的编程实验 大数据开源框架之基于Spark的气象数据处理与分析_木子一个Lee的博客-CSDN博客_spark舆情分析 目录 实验环境: 实验步骤: 一、解压 二、配置环境变量:  三、修改配置文件  1.修改spark-env.sh配置文件: 2.修改配置文件slaves: 3.分发配置文件:

    2024年02月11日
    浏览(35)
  • 分布式计算实验4 随机信号分析系统

    利用MOM消息队列技术实现一个分布式随机信号分析系统,具体要求: 1.随机信号产生器微服务每隔100毫秒左右就产生一个正态分布的随机数字,并作为一个消息发布。 2.一个随机信号统计分析微服务,对信号进行如下分析:   (1) 计算过去N个随机信号的均值和方差(N为常量

    2023年04月25日
    浏览(38)
  • 如何使用Spark/Flink等分布式计算引擎做网络入侵检测

    ⚠申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址。 全文共计3077字,阅读大概需要3分钟 🌈更多学习内容, 欢迎👏关注👀【文末】我的个人微信公众号:不懂开发的程序猿 个人网站:https://jerry-jy.co/ 本篇博客是我在做 基于Spark/Flink大数据环境下网络入

    2024年02月11日
    浏览(37)
  • Spark On Hive配置测试及分布式SQL ThriftServer配置

    Spark本身是一个执行引擎,而没有管理metadate的能力,当我们在执行SQL的时候只能将SQL转化为RDD提交。而对于一些数据中的元数据Spark并不知道,而Spark能写SQL主要是通过DataFrame进行注册的。 这时候我们就可以借助Hive中的MetaStore进行元数据管理。也就是说把Hive中的metastore服务

    2024年01月21日
    浏览(32)
  • 分布式计算框架Hadoop核心组件

    Hadoop作为成熟的分布式计算框架在大数据生态领域已经使用多年,本文简要介绍Hadoop的核心组件MapReduce、YARN和HDFS,以加深了解。 1、Hadoop基本介绍 Hadoop是分布式计算框架,主要解决海量数据的存储和计算问题。Hadoop主要组件包括分布式文件系统HDFS、分布式离线并行计算框架

    2024年02月06日
    浏览(32)
  • 分布式计算中的大数据处理:Hadoop与Spark的性能优化

    大数据处理是现代计算机科学的一个重要领域,它涉及到处理海量数据的技术和方法。随着互联网的发展,数据的规模不断增长,传统的计算方法已经无法满足需求。因此,分布式计算技术逐渐成为了主流。 Hadoop和Spark是目前最为流行的分布式计算框架之一,它们都提供了高

    2024年01月23日
    浏览(38)
  • 【Centos8_配置单节点伪分布式Spark环境】

    安装centos8 jdk 部署伪分布式spark环境 下载jdk linux版本 下载链接: jdk-8u381-linux-x64.tar.gz 将该文件上传到Centos8 主机 部署配置jdk(java8) 详细的Hadoop伪分布式配置 这里不是重点,如果感兴趣,请参照文后参考链接 上传spark到centos8 解压spark到指定目录 配置spark伪分布式环境 开启

    2024年02月10日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包