云计算 - 4 - Spark的安装与应用

这篇具有很好参考价值的文章主要介绍了云计算 - 4 - Spark的安装与应用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


目标

实现 Linux 中 Spark 的安装与应用。

Spark 的安装:

1、下载配置 Scala

1.1 下载 Scala

创建文件夹 scala 用于安装 scala,通过 wget 下载 tar 包,然后解包安装 scala。
wget https://downloads.lightbend.com/scala/2.10.7/scala-2.10.7.tgz
spark安装及使用,Linux,spark,云计算,scala
tar -zxvf scala-2.10.7.taz
spark安装及使用,Linux,spark,云计算,scala

1.2 配置 Scala 的路径

通过修改 .bash_profile 文件来配置 Scala 路径,并使用 source 命令使其生效。
spark安装及使用,Linux,spark,云计算,scala
spark安装及使用,Linux,spark,云计算,scala

1.3 测试 Scala 是否安装完成

使用 scala -version 命令,若能正常显示,即说明安装配置成功。

spark安装及使用,Linux,spark,云计算,scala

2、下载配置Spark

2.1 下载Spark

类似于 Scala 的下载安装方式,同样使用 wget 下载 tar 包,然后解包,安装 Spark。
因下载时间过长,后面改为导入 tar 包安装。
wget https://archive.apache.org/dist/spark/spark-1.6.1/spark-1.6.1-bin-hadoop2.6.tgz
spark安装及使用,Linux,spark,云计算,scala
tar -zvxf spark-1.6.1-bin-hadoop2.6.tgz
spark安装及使用,Linux,spark,云计算,scala

2.2 配置 Spark 的路径

通过修改 .bash_profile 文件来配置 Spark 路径,并使用 source 命令使其生效
spark安装及使用,Linux,spark,云计算,scala
spark安装及使用,Linux,spark,云计算,scala

2.3 修改 Spark 的配置文件

进入spark 的安装目录,转到 conf 目录中,创建并修改 slaves 文件,默认数据节点改为 DataNode-1

cd conf/
mv slaves.template slaves
vi slaves

spark安装及使用,Linux,spark,云计算,scala

mv spark-env.sh.template spark-env.sh
vi	spark-env.sh

spark安装及使用,Linux,spark,云计算,scala

3、将文件复制到子节点

scp -r /home/spark/spark-1.6.1-bin-hadoop2.6 root@DataNode-1:/home/spark/
scp -r /home/scala/scala-2.10.7 root@DataNode-1:/home/scala/
scp ~/.bash_profile root@DataNode-1:~/.bash_profile

spark安装及使用,Linux,spark,云计算,scala
spark安装及使用,Linux,spark,云计算,scala

4、启动Spark

spark安装及使用,Linux,spark,云计算,scala

5、测试Spark

运行 spark 自带的 wordcount 程序进行测试

5.1 创建测试文件

创建一个 .txt 文件,输入一些字符,传入 HDFS 文件系统作为测试
spark安装及使用,Linux,spark,云计算,scala

5.2 运行 WordCount 程序,得到结果
/home/spark/spark-1.6.1-bin-hadoop2.6/bin/run-exampleorg.apache.spark.examples.JavaWordCount hdfs://NameNode-1:9000/test111.txt

spark安装及使用,Linux,spark,云计算,scala

Spark 的应用:

1、计算 pagerank

1.1 进入 spark-shell 交互式环境

spark安装及使用,Linux,spark,云计算,scala

1.2 编写程序

输入pagerank计算程序,如下:

import org.apache.spark.HashPartitioner
 
val links = sc.parallelize(List(("A",List("B","C")),("B",List("A","C")),("C",List("A","B", "D")),("D",List("C")))).partitionBy(new HashPartitioner(100)).persist()
 
var ranks=links.mapValues(v=>1.0)
 
for (i <- 0 until 10) {
val contributions=links.join(ranks).flatMap {
case (pageId,(links,rank)) => links.map(dest=>(dest,rank/links.size))
}
ranks=contributions.reduceByKey((x,y)=>x+y).mapValues(v=>0.15+0.85*v)
}
 
ranks.sortByKey().collect()
1.3 记录结果

运行程序,查看结果。
spark安装及使用,Linux,spark,云计算,scala
即:

(A,0.9850243302878132), 
(B,0.9850243302878132), 
(C,1.4621033282930214), 
(D,0.5678480111313515)

符合预期。

2、WordCount

2.1 编写测试文件

编写一个 .txt 文件作为 WordCount 的输入,传入 hdfs 文件系统中。
spark安装及使用,Linux,spark,云计算,scala

2.2 进入 spark-shell 交互式环境

同上一步 pagerank 1.1 中,进入 spark-shell 交互式环境。

2.3 输入 WordCount 程序
var input = sc.textFile("/NOTICE.txt")
input.flatMap(x=>x.split(" ")).countByValue()

spark安装及使用,Linux,spark,云计算,scala

2.4 记录结果

运行程序,查看结果。
spark安装及使用,Linux,spark,云计算,scala
即:world -> 2, a -> 1, java -> 2, b -> 1, python -> 2, c -> 1, hello -> 2, d -> 1
符合预期。文章来源地址https://www.toymoban.com/news/detail-788850.html

到了这里,关于云计算 - 4 - Spark的安装与应用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Spark集群搭建记录 | 云计算[CentOS7] | Scala Maven项目访问Spark(local模式)实现单词计数

    本系列文章索引以及一些默认好的条件在 传送门 要想完成Spark的配置,首先需要完成HadoopSpark的配置 Hadoop配置教程:链接 若未进行明确说明,均按照root用户操作 本来在Eclipse的Marketplace便可以下载,可是现在官网都寄了 所以说只好找到之前的版本凑合来用 下载链接 这个软件

    2024年02月05日
    浏览(44)
  • 嬛嬛喊你学Spark、Scala的安装

    一、什么是spark Apache SparkTM 是一个 多语言引擎 ,用于在单节点机器或集群上执行数据工程、数据科学和机器学习。 Spark是一种 快速、通用、可扩展的大数据分析引擎 ,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目

    2024年03月14日
    浏览(43)
  • Hive On Spark 概述、安装配置、计算引擎更换、应用、异常解决

    前言: 本篇文章在已经安装 Hadoop 3.3.4 与 Hive 3.1.3 版本的基础上进行,与笔者版本不一致也没有关系,按照步骤来就行了。 如果你不想使用低版本的 Spark(例如: Spark 2.x 系列),请直接跳转到本文目录【重编译源码】。 详情查看我的这篇博客:Hadoop 完全分布式搭建(超详细)

    2024年02月07日
    浏览(31)
  • spark底层为什么选择使用scala语言开发

    基于Scala的语言特性 集成性:Scala 是一种运行在 Java 虚拟机(JVM)上的静态类型编程语言,可以与 Java 代码无缝集成。由于 Spark 涉及到与大量 Java 生态系统的交互,例如 Hadoop、Hive 等,使用 Scala 可以方便地与这些组件进行集成和交互。 函数式编程支持:Scala 是一种面向函数

    2024年02月10日
    浏览(44)
  • hadoop(伪分布式)上的spark和Scala安装与配置详细版

    在搭建spark和Scala前提下,必需安装好hive和java,和 Hadoop的伪分布式 哦 1、安装与配置Scale        (1)去官网下载Scala         官网地址: The Scala Programming Language (scala-lang.org) https://www.scala-lang.org/ 这里我要的是scala-2.2.12.12.tgz 然后我们点击 all releases 点进去之后往下找 然后

    2024年04月28日
    浏览(44)
  • Linux CentOS下大数据环境搭建(zookeeper+hadoop+hbase+spark+scala)

    本篇文章是结合我个人学习经历所写,如果遇到什么问题或者我有什么错误,欢迎讨论。 百度网盘链接:https://pan.baidu.com/s/1DCkQQVYqYHYtPws9hWGpgw?pwd=zh1y 提取码:zh1y 软件在连接中VMwareWorkstation_V16.2.1_XiTongZhiJia的文件夹下。 双击运行安装包,这里下一步即可。 这里勾选我接受许可

    2024年04月15日
    浏览(54)
  • 简单使用Spark、Scala完成对天气数据的指标统计

    目录 一、前言   什么是Spark?   什么是Scala 二、数据准备(数据类型的转换) 三、Spark部分 1、使用Spark完成数据中的“风级”,“风向”、“天气情况”相关指标统计及筛选 四、Scala部分 1、使用Scala统计某月、全年的温差、平均气温以及最值等相关的指标 五、遇到的问题

    2024年02月03日
    浏览(37)
  • 构建大数据环境:Hadoop、MySQL、Hive、Scala和Spark的安装与配置

    在当今的数据驱动时代,构建一个强大的大数据环境对于企业和组织来说至关重要。本文将介绍如何安装和配置Hadoop、MySQL、Hive、Scala和Spark,以搭建一个完整的大数据环境。 安装Hadoop 首先,从Apache Hadoop的官方网站下载所需的Hadoop发行版。选择适合你系统的二进制发行版,下

    2024年02月11日
    浏览(41)
  • 大数据平台安装实验: ZooKeeper、Kafka、Hadoop、Hbase、Hive、Scala、Spark、Storm

    ​ 在大数据时代,存在很多开源的分布式数据采集、计算、存储技术,本实验将在熟练掌握几种常见Linux命令的基础上搭建几种常用的大数据采集、处理分析技术环境。 相关安装包下载: 链接:https://pan.baidu.com/s/1Wa2U3qstc54IAUCypcApSQ 提取码:lcd8 Hadoop大数据平台所需工具、软件

    2023年04月09日
    浏览(80)
  • 数据存储和分布式计算的实际应用:如何使用Spark和Flink进行数据处理和分析

    作为一名人工智能专家,程序员和软件架构师,我经常涉及到数据处理和分析。在当前大数据和云计算的时代,分布式计算已经成为了一个重要的技术方向。Spark和Flink是当前比较流行的分布式计算框架,它们提供了强大的分布式计算和数据分析功能,为数据处理和分析提供了

    2024年02月16日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包