Spark入门案例

这篇具有很好参考价值的文章主要介绍了Spark入门案例。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Spark shell简介

  • 启动 Spark shell 进入 Spark 安装目录后执行 spark-shell - -master master就可以提交Spark任务
  • Spark shell 的原理是把每一·行Scala代码编译成类,最终交由Spark执行

Master 地址的设置

Master的地址可以有如下几种设置方式

地址 解释
local[N] 使用 N 条 Worker 线程在本地运行
spark://host:port 在 Spark standalone中 运行,指定 Spark 集群的Master地址,端口默认为 7077
mesos://host:port 在 Apache Mesos 中运行,指定 Meso的地址
yarn 在 Yarn 中运行,Yarn 的地址由环境变量 HADOOP_CONF_DIR 来指定

 

编写Spark代码的两种方式

编写Spark代码的两种方式

  • spark-shell

    Spark shell是Spark提供的一个基于Scala语言的交互式解释器,类似于Scala提供的交互式解释器,Spark shel也可以直接在Shell中编写代码执行 这种方式也比较重要,因为一般的数据分析任务可能需要探索着进行,不是一藏而就的,使用Spark shell先进行探索,当代码稳定以后,使用独立应用的方式来提交任务,这样是一个比较常见的流程

  • spark-submit

    Spark submit是一个命令,用于提交Scala编写的基于Spark框架,这种提交方式常用作于在集群中运行任务

 

Spark-Shell

Spark-Shell 读取本地文件

Step1 准备文件

在 master 中创建文件/root/data/wordcount.txt

vi /root/data/wordcount.txt
# 加入以下内容
hadoop spark flume
spark hadoop
flume hadoop

Step 2 启动Spark shell

cd /root/spark
bin/spark-shell --master local[2]

Step3 执行如下代码

scala> val sourceRdd = sc.textFile("file:///root/data/wordcount.txt")         # 读取文件
sourceRdd: org.apache.spark.rdd.RDD[String] = file:///root/data/wordcount.txt MapPartitionsRDD[1] at textFile at <console>:24

scala> val flattenCountRdd = sourceRdd.flatMap(_.split(" ")).map((_,1))       # 拆分单词,并给与每个单词的词频为1
flattenCountRdd: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[3] at map at <console>:26

scala> val aggCountRdd = flattenCountRdd.reduceByKey(_ + _)                   # 词频聚合    
aggCountRdd: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[4] at reduceByKey at <console>:28

scala> val result = aggCountRdd.collect
result: Array[(String, Int)] = Array((spark,2), (hadoop,3), (flume,2))

运行流程Spark入门案例,spark,大数据

  1. flatMap(_ .split(" ")) **将数据转为数组的形式,并展平为多个数据
  2. map( _ , 1) 将数据转换为元组的形式
  3. reduceByKey(_ + _) 将数据以 key 值相同聚合

 

Spark-Shell 读取HDFS

Step1上传文件到 HDFS 中

cd /root/data
hdfs dfs -mkdir /dataset
hdfs dfs -put wordcount.txt /dataset/

Step2 在Spark shell中访问 HDFS

val sourceRdd = sc.textFile("hdfs://master:9000/dataset/wordcount.txt") # sc.textFile("hdfs:///dataset/wordcount.txt") 或者 sc.textFile("/dataset/wordcount.txt") 

val flattenCountRdd = sourceRdd.flatMap(_.split(" ")).map((_,1))

val aggCountRdd = flattenCountRdd.reduceByKey(_ + _)

val result = aggCountRdd.collect

独立应用编写

Step 1 创建工程

  1. 创建 IDEA 工程
    1. Create New Project → Maven → Next
    2. Groupld: cn.itcast → Artifactld: spark
  2. 增加 Scala 支持
    1. 右键点击工程目录

      Spark入门案例,spark,大数据
    2. 点击增加框架支持

      Spark入门案例,spark,大数据
    3. 选择Scala添加框架支持

      Spark入门案例,spark,大数据

Step 2 编写 Maven 配置文件 pom.xml

  1. 找到工程目录下的 pom.xml文件,(无则新增)

    Spark入门案例,spark,大数据
  2. 添加以下内容

    <?xml version="1.0" encoding="UTF-8"?>
    <project xmlns="<http://maven.apache.org/POM/4.0.0>"
             xmlns:xsi="<http://www.w3.org/2001/XMLSchema-instance>"
             xsi:schemaLocation="<http://maven.apache.org/POM/4.0.0> <http://maven.apache.org/xsd/maven-4.0.0.xsd>">
        <modelVersion>4.0.0</modelVersion>
    
        <groupId>cn.itcast</groupId>
        <artifactId>spark</artifactId>
        <version>1.0-SNAPSHOT</version>
    
        <properties>
            <maven.compiler.source>8</maven.compiler.source>
            <maven.compiler.target>8</maven.compiler.target>
        </properties>
        <dependencies>
            <dependency>
                <groupId>org.scala-lang</groupId>
                <artifactId>scala-library</artifactId>
                <version>2.11.8</version>
            </dependency>
            <dependency>
                <groupId>org.apache.spark</groupId>
                <artifactId>spark-core_2.11</artifactId>
                <version>2.1.1</version>
            </dependency>
            <dependency>
                <groupId>org.apache.hadoop</groupId>
                <artifactId>hadoop-client</artifactId>
                <version>2.7.7</version>
            </dependency>
    
    				<dependency>
                <groupId>junit</groupId>
                <artifactId>junit</artifactId>
                <version>4.10</version>
                <scope>provided</scope>
            </dependency>
        </dependencies>
    	<build>
            <sourceDirectory>src/main/scala</sourceDirectory>
            <testSourceDirectory>src/test/scala</testSourceDirectory>
            <plugins>
                <plugin>
                    <groupId>net.alchim31.maven</groupId>
                    <artifactId>scala-maven-plugin</artifactId>
                    <version>3.2.2</version>
                    <executions>
                        <execution>
                            <goals>
                                <goal>compile</goal>
                                <goal>testCompile</goal>
                            </goals>
                            <configuration>
                                <args>
                                    <arg>-dependencyfile</arg>
                                    <arg>${project.build.directory}/.scala_dependencies</arg>
                                </args>
                            </configuration>
                        </execution>
                    </executions>
                </plugin>
                <plugin>
                    <groupId>org.apache.maven.plugins</groupId>
                    <artifactId>maven-shade-plugin</artifactId>
                    <version>2.4.3</version>
                    <executions>
                        <execution>
                            <phase>package</phase>
                            <goals>
                                <goal>shade</goal>
                            </goals>
                            <configuration>
                                <filters>
                                    <filter>
                                        <artifact>*:*</artifact>
                                        <excludes>
                                            <exclude>META-INF/*.SF</exclude>
                                            <exclude>META-INF/*.DSA</exclude>
                                            <exclude>META-INF/*.RSA</exclude>
                                        </excludes>
                                    </filter>
                                </filters>
                                <transformers>
                                    <transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
                                    </transformer>
                                </transformers>
                            </configuration>
                        </execution>
                    </executions>
                </plugin>
            </plugins>
        </build>
    </project>
    
  3. 创建目录 src/main/scala 和目录 src/test/scala

  4. 创建Scala object WordCount

Step 3 编写代码

  • 本地运行

    package cn.itcast.spark.rdd
    
    import org.apache.spark.{SparkConf, SparkContext}
    
    object WordCount {
      def main(args: Array[String]): Unit = {
        // 1、创建SparkContext
        val conf = new SparkConf().setMaster("local[6]").setAppName("word_count")
        val sc = new SparkContext(conf)
        // 2、加载文件
        //    1、准备文件
        //    2、读取文件
        val rdd1 = sc.textFile("./dataset/wordcount.txt")
        // 3、处理
        //    1、把整句话拆分成多个单词
        val rdd2 = rdd1.flatMap(item => item.split(" "))
        //    2、把每个单词指定一个词频1
        val rdd3 = rdd2.map(item => (item,1))
        //    3、整合
        val rdd4 = rdd3.reduceByKey((x , y) => (x + y))
        // 4、得到结果
        val result = rdd4.collect()
        result.foreach(item=>println(item))
      }
    }
    
  • 提交运行

    package cn.itcast.spark.rdd
    
    import org.apache.spark.{SparkConf, SparkContext}
    
    object WordCount {
      def main(args: Array[String]): Unit = {
        // 1、创建SparkContext
        val conf = new SparkConf().setAppName("word_count")
        val sc = new SparkContext(conf)
        // 2、加载文件
        //    1、准备文件
        //    2、读取文件
        val rdd1 = sc.textFile("hdfs:///data/wordcount.txt")
        // 3、处理
        //    1、把整句话拆分成多个单词
        val rdd2 = rdd1.flatMap(item => item.split(" "))
        //    2、把每个单词指定一个词频1
        val rdd3 = rdd2.map(item => (item,1))
        //    3、整合
        val rdd4 = rdd3.reduceByKey((x , y) => (x + y))
        // 4、得到结果
        val result = rdd4.collect()
        result.foreach(item=>println(item))
      }
    }
    

Step 提交jar,虚拟机运行文章来源地址https://www.toymoban.com/news/detail-785949.html

cd /root/spark
bin/spark-submit --class cn.itcast.spark.rdd.WordCount --master spark://master:7077 /root/spark.jar

到了这里,关于Spark入门案例的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 电影评分数据分析案例-Spark SQL

    1. 2. 3. 4. 5. 6.

    2024年02月08日
    浏览(67)
  • 企业Spark案例--酒店数据分析实战提交

    第1关:数据清洗--过滤字段长度不足的且将出生日期转: package com.yy   import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, Dataset, SparkSession} object edu{     /**********Begin**********/     // 此处可填写相关代码     case class Person(id:String,Name:String,CtfTp:String,CtfId:String,G

    2024年02月09日
    浏览(56)
  • 大数据课程K14——Spark的数据挖掘案例

    文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州 ⚪ 掌握Spark的案例——预测商品需求量; ⚪ 掌握Spark的案例——预测谋杀率; 某种商品的需求量(y,吨)、价格(x1,元/千克)和消费者收入(x2,元)观测值如下表所示。 y= β 1 X1+ β 2 X2+ β 0  y x1 x2   10

    2024年02月11日
    浏览(32)
  • Spark在数据科学中的应用案例分析

    Spark在数据科学中的应用案例分析 在数据科学领域,Apache Spark已经成为一个不可或缺的工具。其强大的分布式计算能力和丰富的数据处理功能使得数据科学家能够高效地处理大规模数据集,并从中提取有价值的信息。本文将通过几个具体的应用案例来分析Spark在数据科学中的

    2024年02月02日
    浏览(56)
  • 图解大数据 | 综合案例-使用Spark分析挖掘音乐专辑数据

    作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/84 本文地址:http://www.showmeai.tech/article-detail/178 声明:版权所有,转载请联系平台与作者并注明出处 收藏ShowMeAI查看更多精彩内容 文娱影音是目前大数据与AI应用最广泛的场景之一,本案例以音乐专辑发行数据为背景

    2024年02月09日
    浏览(51)
  • 【spark大数据】spark大数据处理技术入门项目--购物信息分析

    购物信息分析基于spark 目录 本案例中三个文案例中需要处理的文件为 order_goods.txt、products.txt 以及 orders.txt 三个文件,三个文件的说明如下 一、本实训项目针对实验数据主要完成了哪些处理? 二、Hadoop+Spark集群环境的搭建步骤有哪些?(只介绍完全分布式集群环境的搭建)

    2023年04月08日
    浏览(64)
  • 大数据之Spark案例实操完整使用(第六章)

    上面的数据图是从数据文件中截取的一部分内容,表示为电商网站的用户行为数据,主要包含用户的 4 种行为:搜索,点击,下单,支付。数据规则如下: ➢ 数据文件中每行数据采用下划线分隔数据 ➢ 每一行数据表示用户的一次行为,这个行为只能是 4 种行为的一种 ➢ 如

    2024年02月11日
    浏览(45)
  • 大数据Spark--入门

    Spark 所需资料 链接:https://pan.baidu.com/s/12iaW68vriL6i-xI1kmr0_g?pwd=m4zc 提取码:m4zc Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 首先从时间节点上来看: Hadoop 2006年1月,Doug Cutting加入Yahoo,领导Hadoop的开发 2008年1月,Hadoop成为Apache顶级项目 2011年1.0正式发布

    2024年04月24日
    浏览(25)
  • Scala第二十章节(Akka并发编程框架、Akka入门案例、Akka定时任务代码实现、两个进程间通信的案例以及简易版spark通信框架案例)

    章节目标 理解Akka并发编程框架简介 掌握Akka入门案例 掌握Akka定时任务代码实现 掌握两个进程间通信的案例 掌握简易版spark通信框架案例 1. Akka并发编程框架简介 1.1 Akka概述 Akka是一个用于构建高并发、分布式和可扩展的基于事件驱动的应用工具包。Akka是使用scala开发的库,

    2024年04月11日
    浏览(42)
  • [AIGC大数据基础] Spark 入门

    大数据处理已成为当代数据领域的重要课题之一。为了高效地处理和分析大规模数据集,许多大数据处理引擎应运而生。其中,Spark作为一个快速、通用的大数据处理引擎备受关注。 本文将从“是什么、怎么用、为什么用”三个角度来介绍Spark。首先,我们会详细探讨Spark的基

    2024年01月25日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包