Linux下Spark offline安装graphframes包

这篇具有很好参考价值的文章主要介绍了Linux下Spark offline安装graphframes包。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

背景

GraphX是Spark中用于图计算的模块. Spark安装包中内置Scala语言的GraphX库, 但是对于Python语言的安装包, 需要额外进行安装.
对于内网服务器, 不能访问外网, 安装GraphX的python库graphframes需要进行额外的步骤, 本文介绍如何在Linux下offline为Spark 安装graphframes包.

安装步骤

  • 下载spark-3.5.0-bin-hadoop3.tgz和graphframes-0.8.3-spark3.5-s_2.12.jar
  • cd $install_path and tar -zxvf spark-3.5.0-bin-hadoop3.tgz
  • cp graphframes-0.8.3-spark3.5-s_2.12.jar $install_path/spark-3.5.0-bin-hadoop3/jars/
  • mkdir -p $install_path/pluginlib/graphframes
  • cp graphframes-0.8.3-spark3.5-s_2.12.jar $install_path/pluginlib/graphframes/
  • jar xf graphframes-0.8.3-spark3.5-s_2.12.jar
  • 添加 $install_path/pluginlib/graphframes 到环境PYTHONPATH环境变量

这样, 就可以使用graphframes库了文章来源地址https://www.toymoban.com/news/detail-829430.html

到了这里,关于Linux下Spark offline安装graphframes包的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Linux系统下Spark的下载与安装(pyspark运行示例)

    最近需要完成数据课程的作业,因此实践了一下如何安装并配置好spark 由于我想要将hadoop和spark一起使用,因此必须确定好spark的版本 Spark和Hadoop版本对应关系如下: Spark版本 Hadoop版本 2.4.x 2.7.x 3.0.x 3.2.x 可进入终端查看Hadoop版本 我这里的版本是2.7.1,因此选择下载2.4版本的

    2024年01月25日
    浏览(46)
  • 【Spark实战】Windows环境下编译Spark2 Linux上部署Spark On Yarn

    环境准备 git-2.14.1 maven-3.9.2 jdk-1.8 scala-2.11.8 zinc-0.3.15 主下载地址 spark-2.3.4 github官方地址 编译准备 maven远程仓库使用的是阿里云的 解压源码包 spark-2.3.4.zip ,修改根模块的pom文件。主要目的是为了变更hadoop的版本号,默认是 2.6.5 。 修改 spark-2.3.4devmake-distribution.sh 文件 主要是

    2024年02月13日
    浏览(56)
  • 16-Linux部署Spark环境

    本小节的操作,基于: 大数据集群(Hadoop生态)安装部署 环节中所构建的Hadoop集群 如果没有Hadoop集群,请参阅前置内容,部署好环境。 参考文章: 14-Linux部署Hadoop集群: Spark是一款分布式内存计算引擎,可以支撑海量数据的分布式计算。 Spark在大数据体系是明星产品,作为

    2024年04月15日
    浏览(26)
  • Spark,hadoop,Linux基础命令

    目录 Linux命令 查看主机名:hostname​编辑 修改主机名:hostnamectl set-hostname xxx 创建新用户,该命令只能由 root 用户使用:useradd 设置或修改指定用户的口令:passwd 显示当前目录:pwd 显示指定目录中的文件或子目录信息。当不指定文件或目录时,显示 当前工作目录中的文件或子目

    2024年03月24日
    浏览(40)
  • hadoop集群搭建、spark集群搭建、pyspark搭建(linux+window)

    本文记录学习过程中Hadoop、zookeeper、spark集群搭建,主要为pyspark库服务(具体为window上pyspark环境和pyspark库,linux上spark框架、pyspark应用程序、pyspark环境和pyspark库)。pyspark环境是用anaconda3搭建的环境。pyspark应用程序,是安装spark集群里面自带的,提供一个python解释器环境来执

    2024年01月22日
    浏览(46)
  • Linux CentOS下大数据环境搭建(zookeeper+hadoop+hbase+spark+scala)

    本篇文章是结合我个人学习经历所写,如果遇到什么问题或者我有什么错误,欢迎讨论。 百度网盘链接:https://pan.baidu.com/s/1DCkQQVYqYHYtPws9hWGpgw?pwd=zh1y 提取码:zh1y 软件在连接中VMwareWorkstation_V16.2.1_XiTongZhiJia的文件夹下。 双击运行安装包,这里下一步即可。 这里勾选我接受许可

    2024年04月15日
    浏览(69)
  • kakfa模拟仿真篇之spark-submit在linux运行 (更贴近真实场景)

    源码在上篇 地址在这 :Kafka模拟器产生数据仿真-集成StructuredStreaming做到”毫秒“级实时响应StreamData落地到mysql-CSDN博客 这里分享一下一些新朋友不知道spark-submit 指令后  的参数怎么写 看这篇绝对包会 声明 : 此项目是基于 maven 打包的说明,不是SBT哦 先分享一下我的原指

    2024年03月25日
    浏览(41)
  • 林子雨 VirtualBox + Ubuntu[linux] 配置 java、hadoop、Spark[python]、pyspark快速配置流程

    按照步骤快速执行shell,最快速配置。 读者可以根据该篇随记快速回顾流程,以及用到的shell指令和相关配置文件。 是林老师教程的精简版,初次配置者只能作为流程参考,主要和林子雨Spark[python]版课程配套。  林老师厦大实验指南链接如下: Spark编程基础(Python版)教材官

    2024年04月12日
    浏览(43)
  • Linux多虚拟机集群化配置详解(Zookeeper集群、Kafka集群、Hadoop集群、HBase集群、Spark集群、Flink集群、Zabbix、Grafana部署)

    前面安装的软件,都是以单机模式运行的,学习大数据相关的软件部署,后续安装软件服务,大多数都是以集群化(多台服务器共同工作)模式运行的。所以,需要完成集群化环境的前置准备,包括创建多台虚拟机,配置主机名映射,SSH免密登录等等。 我们可以使用VMware提供

    2024年02月04日
    浏览(52)
  • Spark系列(一)spark简介及安装配置

    目录 1. spark简介: 2. spark特点: 2.1 Speed:速度快 2.2 Easy of Use:易用性 2.3 Generality:通用性 2.4 Runs Everywhere:到处运行 3. Spark的应用场景 4. 环境要求及准备工作 5. spark搭建模式: 5.1 local模式在解压缩安装后 5.2 Standalone模式搭建(基于hdfs文件存储) 5.1.1 首先配置spark环境变量:

    2023年04月09日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包