Windows下安装Spark(亲测成功安装)

这篇具有很好参考价值的文章主要介绍了Windows下安装Spark(亲测成功安装)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Spark简介

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎 [2] 。现在形成一个高速发展应用广泛的生态系统。

Spark 主要有三个特点

  • 首先,高级 API 剥离了对集群本身的关注,Spark 应用开发者可以专注于应用所要做的计算本身。
  • 其次,Spark 很快,支持交互式计算和复杂算法。
  • 最后,Spark 是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Spark 出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。

Spark 性能特点

  • 更快的速度
    内存计算下,Spark 比 Hadoop 快100倍。
  • 易用性
    Spark 提供了80多个高级运算符。
  • 通用性
    Spark 提供了大量的库,包括Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX。 开发者可以在同一个应用程序中无缝组合使用这些库。
  • 支持多种资源管理器
    Spark 支持 Hadoop YARN,Apache Mesos,及其自带的独立集群管理器
  • Spark生态系统
  • Shark:Shark基本上就是在Spark的框架基础上提供和Hive一样的HiveQL命令接口,为了最大程度的保持和Hive的兼容性,Spark使用了Hive的API来实现query Parsing和 Logic Plan generation,最后的PhysicalPlan execution阶段用Spark代替HadoopMapReduce。通过配置Shark参数,Shark可以自动在内存中缓存特定的RDD,实现数据重用,进而加快特定数据集的检索。同时,Spark通过UDF用户自定义函数实现特定的数据分析学习算法,使得SQL数据查询和运算分析能结合在一起,最大化RDD的重复使用。
  • SparkR:SparkR是一个为R提供了轻量级的Spark前端的R包。 SparkR提供了一个分布式的data frame数据结构,解决了 R中的data frame只能在单机中使用的瓶颈,它和R中的data frame 一样支持许多操作,比如select,filter,aggregate等等。(类似dplyr包中的功能)这很好的解决了R的大数据级瓶颈问题。 SparkR也支持分布式的机器学习算法,比如使用MLib机器学习库。 SparkR为Spark引入了R语言社区的活力,吸引了大量的数据科学家开始在Spark平台上直接开始数据分析之旅。

一、Spark安装前提

安装Spark之前,需要安装JDK、Hadoop、Scala。
本次安装版本选择:
JDK:1.8
Hadoop:2.7.2
Scala:2.11.12
Spark:2.4.7

1.1、JDK安装(version:1.8)

1.1.1、JDK官网下载

官网下载地址(需要oracle账号)
https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

1.1.2、JDK网盘下载

或者网盘下载:https://pan.baidu.com/s/1MMkFbzcf8ZYvGwdHreXtUg?pwd=yyds

1.1.3、JDK安装

安装方法就不赘述了。

1.2、Scala安装(version:2.11.12)

1.2.1、Scala官网下载

官网下载地址:https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.msi

1.2.2、Scala网盘下载

网盘下载地址:https://pan.baidu.com/s/1Qiy1aEndKn_Xs-zSSLaWIA?pwd=yyds

1.2.3、Scala安装

本地点击msi文件安装,安装目录为 D:\bigdata\scala\2.11.12\
设置环境变量 %SCALA_HOME%
windows 安装spark,Spark,spark,大数据
环境变量Path添加条目%SCALA_HOME%\bin
windows 安装spark,Spark,spark,大数据

1.2.4、验证Scala是否安装成功

为了验证Scala是否安装成功,开启一个新的cmd窗口。
输入:Scala
windows 安装spark,Spark,spark,大数据
可以看到Scala安装成功。

1.3、Hadoop安装(version:2.7.2)

参考博文:Windows下安装Hadoop(手把手包成功安装)

二、安装Spark(version:2.4.7)

2.1、Spark官网下载

官网下载地址:https://archive.apache.org/dist/spark/spark-2.4.7/spark-2.4.7-bin-hadoop2.7.tgz

2.2、Spark网盘下载

网盘下载地址:https://pan.baidu.com/s/1VyVLwnSvdMzSocj37xlErQ?pwd=yyds

2.3、Spark安装

本地解压spark文件,目录为 D:\bigdata\spark\2.4.7\
设置环境变量 %SPARK_HOME%
windows 安装spark,Spark,spark,大数据
环境变量Path添加条目%SPARK_HOME%\bin
跟上面配置环境变量一样的配置方法。
windows 安装spark,Spark,spark,大数据

2.4、验证Spark是否安装成功

为了验证Spark是否安装成功,开启一个新的cmd窗口。
输入:spark-shell
windows 安装spark,Spark,spark,大数据
显示上面的正常运行界面,表示本地的spark环境已搭建完成!文章来源地址https://www.toymoban.com/news/detail-773296.html

到了这里,关于Windows下安装Spark(亲测成功安装)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Windows下配置Hadoop及Spark环境

    教程所用各版本说明 由于项目用的JDK17,所以单独给Hadoop配了JDK11,建议直接配置JAVA_HOME环境变量为JDK11,因为后面Spark需要用到JAVA_HOME 下载JDK11 链接:https://www.oracle.com/java/technologies/javase/jdk11-archive-downloads.html 目前Hadoop和Spark兼容 JDK11 和 JDK8 单独修改Hadoop的话,需要在Hadoop目

    2023年04月20日
    浏览(40)
  • Windows10系统spark3.0.0配置

    Windows10系统基本环境:spark3.0. 0 +hadoop3.1. 0 +scala2.12.0+java jdk1.8。 环境变量配置路径:电脑→属性→高级系统设置→环境变量 path中加入:%JAVA_HOME%/bin。 注:jdk版本不宜过高。 cmd验证: java -version 官方下载网址:https://www.scala-lang.org/ 选择对应版本,这里我选择的是scala2.12.0版本

    2024年04月26日
    浏览(35)
  • Spark的Windows本地化部署完整方案

    对于Spark,网上涉及到Windows平台搭建的资料不多。大多资料不全,而且很少说明注意事项,存在一定的挖坑行为。对于不是很熟悉spark环境搭建过程,但是又非常想在自己的电脑上搭建一个本地环境的小伙伴来说存在一定的绕路行为。本文借鉴了网上大部分的资料,在整理集

    2023年04月11日
    浏览(40)
  • 个人电脑windows装青龙面板,本地运行,无需服务器,本人亲测成功

    本人无服务器,但又想折腾,折腾稳定运行后,总结安装流程如下:(手机青龙面板先也已折腾好,正在试运行)https://blog.csdn.net/daodan35/article/details/125830956 温馨提示:把电脑管家、360之类的关闭了 一、先装docker   从docker 官网下载安装windows的安装包,我的是x64系统的,就下

    2024年02月11日
    浏览(67)
  • 使用Windows To Go工具制作你的U盘系统【含下载Windows10系统镜像】亲测已成功23.06.21

    WinToGo是一款辅助工具:专为能够让你将系统装进U盘,移动硬盘里,让你在任意电脑都能运行U盘里装的系统! 一、下载,安装“Windows To Go”工具 1、下载Windows To Go工具 口袋系统WinToGo: 安装Win 10到U盘    2、双击WinToGo.exe,完成“安装”  3、安装完成,开始菜单会生成一个W

    2024年02月17日
    浏览(58)
  • Spark在Windows下的环境搭建及pyspark的使用

        Spark是一个用于大数据处理的开源框架,它是用Scala编写的,而Scala是一种运行在Java虚拟机(JVM)上的编程语言,因此它依赖于Java的运行环境。所以首先需要安装JDK(JavaTM Platform Standard Edition Development Kit),并将环境变量配置好。 可参考我的另一篇博客: 1.下载Spark  

    2024年02月02日
    浏览(34)
  • CENTOS上的网络安全工具(二十四)Windows下的Hadoop+Spark编程环境构建

            前面我们搭建了hadoop集群,spark集群,也利用容器构建了spark的编程环境。但是一般来说,就并行计算程序的开发,一刚开始一般是在单机上的,比如hadoop的single node。但是老师弄个容器或虚拟机用vscode远程访问式开发,终究还是有些不爽。还好,hadoop和spark都是支持

    2024年02月09日
    浏览(65)
  • spark启动不成功

    1.查看报错信息   2.原因分析: 这种情况一般是在同一节点启动多个spark master(worker) 3.解决方案: 1首先应该去停止dfs和yarn,使用命令 2 停止之后使用命令查看当前进程 3 发现停止之后还是有master,使用命令杀死该进程即可 在通过jps查看当前进程 4另外两个节点同理,sla

    2024年02月05日
    浏览(28)
  • idea运行spark项目报错:org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0

    使用idea运行spark项目wordcount出现此类错误:org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0 解决方法如下: 1.确保安装了hadoop。我使用的spark和hadoop版本都是3.3.2,配置环境变量HADOOP_HOME=D:hadoop-3.3.2,还要注意Path变量要加入%HADOOP_HOME%bin。 2.还要安装hadoop windows的winuti

    2024年02月12日
    浏览(36)
  • Windows下安装Hive(包安装成功)

    本篇 Hadoop版本为:2.7.2 Hive版本为:2.3.5 请严格按照版本来安装。 Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转

    2024年02月14日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包