Spark 初级编程实践

10月前作者：cwn_ 分类：Toy博客阅读(38) 违法举报

这篇具有很好参考价值的文章主要介绍了Spark 初级编程实践。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

什么是Spark？
Spark是一个快速、通用、可扩展的大数据处理引擎，最初由加州大学伯克利分校的AMPLab开发。它提供了高级API，用于在大规模数据集上执行并行处理。Spark支持多种编程语言，包括Java、Scala、Python和R，因此被广泛应用于大数据分析和机器学习等领域。

一、目的

1、掌握使用 Spark 访问本地文件和 HDFS 文件的方法

2、掌握 Spark 应用程序的编写、编译和运行方法

二、平台

（1）操作系统：Ubuntu20.04或其他稳定版本；

（2）Spark 版本：3.1.3；

（3）Hadoop 版本：3.1.3。

三、步骤

1、Spark读取文件系统的数据

（1）在 spark-shell 中读取 Linux 系统本地文件“/home/hadoop/test.txt”，然后统计出文件的行数；

启动spark-shell：

cd /usr/local/spark
bin/spark-shell

Spark 初级编程实践,大数据,spark,大数据,分布式

读取文件：

val textFile=sc.textFile("file:///home/hadoop/test.txt")

Spark 初级编程实践,大数据,spark,大数据,分布式

统计文件的行数：

textFile.count()

Spark 初级编程实践,大数据,spark,大数据,分布式

（2）在 spark-shell 中读取 HDFS 系统文件“/user/hadoop/test.txt”（如果该文件不存在，请先创建），然后，统计出文件的行数；

启动Hadoop，向hdfs中上传文件test.txt:

./sbin/start-dfs.sh
./bin/hdfs dfs -put ~/test.txt
./bin/hdfs dfs -ls

Spark 初级编程实践,大数据,spark,大数据,分布式

读取 HDFS 系统文件“/user/hadoop/test.txt”并统计文件的行数：

val textFile=sc.textFile("hdfs://localhost:9000/user/hadoop/test.txt")
textFile.count()

Spark 初级编程实践,大数据,spark,大数据,分布式

（3）编写独立应用程序（使用 Scala 语言），读取 HDFS 系统文件“/user/hadoop/test.txt”（如果该文件不存在，请先创建），然后，统计出文件的行数；通过 sbt 工具将整个应用程序编译打包成 JAR 包，并将生成的 JAR 包通过 spark-submit 提交到 Spark 中运行命令。

查看sbt版本，验证sbt安装成功：

cd /usr/local/sbt
./sbt sbtVersion

Spark 初级编程实践,大数据,spark,大数据,分布式

创建一个文件夹 sparkapp 作为应用程序根目录并编写HDFStest.scala文件：

cd ~           # 进入用户主文件夹
mkdir ./sparkapp        # 创建应用程序根目录
mkdir -p ./sparkapp/src/main/scala     # 创建所需的文件夹结构
cd sparkapp/src/main/scala
touch HDFStest.scala #创建名为HDFStest.scala的文件
gedit HDFStest.scala #编写程序

HDFStest.scala文件内容：文章来源地址https://www.toymoban.com/news/detail-785561.html

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
 
object HDFStest {
   
    def main(args: Array[String]) {
   
        val logFile = "hdfs://localhost:9000/user/hadoop/test.txt"
        val conf = new SparkConf().setAppName

到了这里，关于Spark 初级编程实践的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Spark大数据分析与实战笔记（第三章 Spark RDD 弹性分布式数据集-02）

人生很长，不必慌张。你未长大，我要担当。传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。Spark中的RDD可以很好的解决这一缺点。 RDD是Spark提供的最重要的抽象概念

2024年02月22日
浏览(96)
大数据课程K2——Spark的RDD弹性分布式数据集

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州 ⚪ 了解Spark的RDD结构； ⚪ 掌握Spark的RDD操作方法； ⚪ 掌握Spark的RDD常用变换方法、常用执行方法；初学Spark时，把RDD看做是一个集合类型（类似于Array或List），用于存储数据和操作数据，但RDD和普通集合的区别

2024年02月12日
浏览(55)
大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

前言：七八九用于Spark的编程实验大数据开源框架之基于Spark的气象数据处理与分析_木子一个Lee的博客-CSDN博客_spark舆情分析目录实验环境：实验步骤：一、解压二、配置环境变量：三、修改配置文件 1.修改spark-env.sh配置文件： 2.修改配置文件slaves: 3.分发配置文件：

2024年02月11日
浏览(54)
Spark 初级编程实践

什么是Spark？ Spark是一个快速、通用、可扩展的大数据处理引擎，最初由加州大学伯克利分校的AMPLab开发。它提供了高级API，用于在大规模数据集上执行并行处理。Spark支持多种编程语言，包括Java、Scala、Python和R，因此被广泛应用于大数据分析和机器学习等领域。 1、掌握使用

2024年02月02日
浏览(38)
云计算与大数据第16章分布式内存计算平台Spark习题

1、Spark是Hadoop生态（ B ）组件的替代方案。 A. Hadoop B. MapReduce C. Yarn D．HDFS 2、以下（ D ）不是Spark的主要组件。 A. Driver B. SparkContext C. ClusterManager D. ResourceManager 3、Spark中的Executor是（ A ）。 A．执行器 B．主节

2024年02月14日
浏览(119)
实验7 Spark初级编程实践

一、实验目的掌握使用 Spark 访问本地文件和 HDFS 文件的方法掌握 Spark 应用程序的编写、编译和运行方法二、实验平台操作系统：Ubuntu18.04（或 Ubuntu16.04） Spark 版本：2.4.0 Hadoop 版本：3.1.3 三、实验内容和要求 1. 安装 Hadoop 和 Spark 进人 Linux 操作系统，完成 Hadoop 伪分布式模

2024年02月06日
浏览(39)
分布式计算中的大数据处理:Hadoop与Spark的性能优化

大数据处理是现代计算机科学的一个重要领域，它涉及到处理海量数据的技术和方法。随着互联网的发展，数据的规模不断增长，传统的计算方法已经无法满足需求。因此，分布式计算技术逐渐成为了主流。 Hadoop和Spark是目前最为流行的分布式计算框架之一，它们都提供了高

2024年01月23日
浏览(57)
分布式计算框架：Spark、Dask、Ray 分布式计算哪家强：Spark、Dask、Ray

目录什么是分布式计算分布式计算哪家强：Spark、Dask、Ray 2 选择正确的框架 2.1 Spark 2.2 Dask 2.3 Ray 分布式计算是一种计算方法，和集中式计算是相对的。随着计算技术的发展，有些应用需要非常巨大的计算能力才能完成，如果采用集中式计算，需要耗费相当长的时间来完成

2024年02月11日
浏览(70)
实验四 Spark Streaming编程初级实践

数据流：数据流通常被视为一个随时间延续而无限增长的动态数据集合，是一组顺序、大量、快速、连续到达的数据序列。通过对流数据处理，可以进行卫星云图监测、股市走向分析、网络攻击判断、传感器实时信号分析。 1.下载安装包 https://www.apache.org/dyn/closer.lua/flume/

2024年04月26日
浏览(47)
数据存储和分布式计算的实际应用：如何使用Spark和Flink进行数据处理和分析

作为一名人工智能专家，程序员和软件架构师，我经常涉及到数据处理和分析。在当前大数据和云计算的时代，分布式计算已经成为了一个重要的技术方向。Spark和Flink是当前比较流行的分布式计算框架，它们提供了强大的分布式计算和数据分析功能，为数据处理和分析提供了

2024年02月16日
浏览(62)