kakfa模拟仿真篇之spark-submit在linux运行 (更贴近真实场景)

这篇具有很好参考价值的文章主要介绍了kakfa模拟仿真篇之spark-submit在linux运行 (更贴近真实场景)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

源码在上篇 地址在这 :Kafka模拟器产生数据仿真-集成StructuredStreaming做到”毫秒“级实时响应StreamData落地到mysql-CSDN博客

这里分享一下一些新朋友不知道spark-submit 指令后  的参数怎么写 看这篇绝对包会

声明: 此项目是基于 maven 打包的说明,不是SBT哦

先分享一下我的原指令吧:

bin/spark-submit --master local[4] --class kafkaStucturestreaming.KafkaStreamSQL  --jars /opt/spark_file/original-ReadFile-1.0-SNAPSHOT.jar /opt/spark_file/ReadFile-1.0-SNAPSHOT.jar 

大致只需要指定: --master 参数  我这用的是本地进程 local[*]    * 个数看自己

                              --class 这里重点一下:一些新朋友可能不知道其实就是看你程序的package 如图:首行

kakfa模拟仿真篇之spark-submit在linux运行 (更贴近真实场景),spark,linux,大数据,kafka

我的是:package  kafkaStucturestreaming     

所以: 你在spark-submit 指令后面跟的class 就写:kafkaStucturestreaming . 你的scala文件名即可  当然去掉scala文件后缀名就行

eg : kafkaStucturestreaming.KafkaStreamSQL 就行哦   KafkaStreamSQL 这是我spark程序的scala文件  class指向它就行, 

然后 : 下一个重点是:

--jars 参数

注意点_1.如果你的项目不用依赖于pom文件中的一些依赖项组件就只需要执行 :original-ReadFile-1.0-SNAPSHOT.jar 这种的jar包即可;

注意点_2. 如果你的项目需要依赖于pom文件中的一些依赖组件eg:kafka的集成组件之类的就需要二个 maven 打包的 jar 包后放到 --class 后面  否则报因为缺少依赖组件找不到kafka的数据源

eg这样的报错就是注意点_2Error: Missing application resource

kakfa模拟仿真篇之spark-submit在linux运行 (更贴近真实场景),spark,linux,大数据,kafka

总之需要依赖于pom文件之类的依赖组件项就将这二个jar包都写到 --class参数后面即可

最后写给出全部的spark-submit 可指定参数给大家

1.–master MASTER_URL: 指定要连接的集群模式(集群资源管理器)
standalone模式: spark://host:port, 如:spark://xxxxx:7077
Spark On Mesos模式 : mesos://host:port
Spark On YARN模式: yarn://host:port
本地模式:local

2. – deploy-mode DEPLOY_MODE : 指定任务的提交方式(client 和cluster)

3. –name appName :设置任务的名称,在webUI可查看

4. –py-files PY_FILES :加载Python外部依赖文件

5 . –driver-memory MEM:设置driver的运行内存(占用客户端内存,用于通信及调度开销,默认为1G)

6 . –executor-memory MEM:设置每一个executor的运行内存(占用工作节点内存,主要用于执行任务的内存开销),executor代表work节点上的一个进程。

7  . –total-executor-cores NUM:设置任务占用的总CPU核数(即任务的并发量),由主节点指定各个工作节点CPU的使用数。
注意:该参数选项只在Spark standalone and Mesos 模式下有效

8 . –executor-cores NUM:设置执行任务的每一个executor的CPU核数(yarn模式有效,默认为1或者工作节点的总CPU核数(standalone模式有效)

9 . –num-executors NUM:设置任务的executor进程数(yarn模式下有效)

10 . –conf PROP=VALUE:设置Spark的属性参数
–conf spark.default.parallelism=1000 设置RDD分区大小,系统默认为200
–conf spark.storage.memoryFraction=0.5 设置内存分配大小(存储),系统默认为0.6
–conf spark.shuffle.memoryFraction=0.3 设置shuffle上限内存空间,系统默认为0.2文章来源地址https://www.toymoban.com/news/detail-843227.html

到了这里,关于kakfa模拟仿真篇之spark-submit在linux运行 (更贴近真实场景)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 蓝桥杯算法竞赛系列第六章——蓝桥必备篇之模拟、思维

    欢迎回到: 遇见蓝桥遇见你,不负代码不负卿! 目录 一、简单模拟 栗子:换酒问题 栗子:按奇偶排序数组 栗子:害死人不偿命的(3n+1)猜想 栗子:挖掘机技术哪家强 二、查找元素 栗子:找 x 三、图形输出 栗子:跟奥巴马一起编程 四、日期处理 栗子:日期差值 五、进

    2023年04月22日
    浏览(51)
  • Selenium基础篇之不打开浏览器运行

    Selenium基础篇之不打开浏览器运行 Selenium 大家好,我是空空star,本篇给大家分享一下Selenium之不打开浏览器模式。 本篇使用的selenium版本如下: Version: 4.8.2 本篇使用的浏览器如下: 在不打开浏览器情况下,查一下我的文章质量分。 输出文章标题、发布时间、质量分、质量分

    2024年02月02日
    浏览(111)
  • Kakfa - 多副本架构

    Kafka 是一个高性能、分布式的消息系统,被广泛应用于各种场景中。在 Kafka 中,多副本架构是保证数据可靠性的重要手段之一。 多副本架构指的是将同一个主题(Topic)的数据同时存储在多个 Broker 上。当某个 Broker 发生故障时,系统可以从其他 Broker 上获取数据,从而保证数

    2024年02月16日
    浏览(29)
  • quarkus数据库篇之二:无需数据库也能运行增删改查(dev模式)

    这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇内容并非数据库相关的核心知识,而是对一个实用工具的说明介绍,此工具在官方介绍中被称为 Zero Config Setup (Dev Services) ,(零配置的设置,忒莫名其妙) 我这边简单总结为:如果你没有数据

    2024年02月12日
    浏览(43)
  • 【linux】linux实操篇之任务调度

    我们常用linux做一些定时任务,最常见的就是在服务器领域,我们常常做一些定时任务来定时执行一些脚本,那么接下来我们就来看看linux中的任务调度相关知识以及一些案例吧! 用 crontab 进行定时任务的设置 概述 任务调度:是指系统在某个时间执行的特定的命令或程序。

    2024年02月02日
    浏览(41)
  • 【Spark精讲】Spark任务运行流程

    目录 Spark任务执行流程 Client模式 Cluster模式 Yarn任务运行流程 YARN-CLIENT模式 YARN-CLUSTER模式 ​编辑 故障排查 YARN-CLIENT 模式导致的网卡流量激增问 题 YARN-CLUSTER 模式的 JVM 栈内存溢出无法执行问题         部署模式是根据Drvier和Executor的运行位置的不同划分的。client模式提交

    2024年04月10日
    浏览(87)
  • 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】

    视频地址: 尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】 尚硅谷大数据技术Spark教程-笔记02【SparkCore(核心编程、案例实操)】 尚硅谷大数据技术Spark教程-笔记03【SparkSQL(概述、核心编程、

    2023年04月21日
    浏览(46)
  • 数字孪生、模拟、仿真

      近几年随着元宇宙的概念爆火,数字孪生作为实现元宇宙的基础技术被广泛关注。这篇文章就简单介绍一下数字孪生这个概念。   什么是数字孪生?(Digital twins)   关于数字孪生的定义有不止一种解释,在此选取两个    数字孪生(百度百科) :数字孪生充分利用物理

    2024年02月09日
    浏览(33)
  • RSA算法仿真模拟

    密码学中常见的加密方式可以分为两类:对称加密和非对称加密。 对称加密:对称加密采用相同的密钥来进行加密和解密。因为加密和解密都使用同样的密钥,所以对称加密速度快、效率高,但在密钥管理方面存在困难。常见的对称加密算法有 DES、3DES、AES 等。 非对称加密

    2024年02月07日
    浏览(43)
  • Spark学习(二)---Spark运行架构和核心概念

    1.Spark运行架构 Spark框架的核心是一个计算引擎,它采用了master-slave的结构。 图形中的 Driver 表示 master, 负责管理整个集群中的作业任务调度。图形中的 Executor 则是 slave,负责实际执行任务。 1.1 核心组件 由此可以得出,在Spark框架中有两个核心组件: 1.1.1 Driver Spark 驱动器

    2024年02月13日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包