Linux下Spark offline安装graphframes包

9月前作者：ithiker 分类：Toy博客阅读(47) 违法举报

这篇具有很好参考价值的文章主要介绍了Linux下Spark offline安装graphframes包。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

背景

GraphX是Spark中用于图计算的模块. Spark安装包中内置Scala语言的GraphX库, 但是对于Python语言的安装包, 需要额外进行安装.
对于内网服务器, 不能访问外网, 安装GraphX的python库graphframes需要进行额外的步骤, 本文介绍如何在Linux下offline为Spark 安装graphframes包.

安装步骤

下载spark-3.5.0-bin-hadoop3.tgz和graphframes-0.8.3-spark3.5-s_2.12.jar
cd $install_path and tar -zxvf spark-3.5.0-bin-hadoop3.tgz
cp graphframes-0.8.3-spark3.5-s_2.12.jar $install_path/spark-3.5.0-bin-hadoop3/jars/
mkdir -p $install_path/pluginlib/graphframes
cp graphframes-0.8.3-spark3.5-s_2.12.jar $install_path/pluginlib/graphframes/
jar xf graphframes-0.8.3-spark3.5-s_2.12.jar
添加 $install_path/pluginlib/graphframes 到环境PYTHONPATH环境变量

这样, 就可以使用graphframes库了文章来源地址https://www.toymoban.com/news/detail-829430.html

到了这里，关于Linux下Spark offline安装graphframes包的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Linux系统下Spark的下载与安装（pyspark运行示例）

最近需要完成数据课程的作业，因此实践了一下如何安装并配置好spark 由于我想要将hadoop和spark一起使用，因此必须确定好spark的版本 Spark和Hadoop版本对应关系如下： Spark版本 Hadoop版本 2.4.x 2.7.x 3.0.x 3.2.x 可进入终端查看Hadoop版本我这里的版本是2.7.1，因此选择下载2.4版本的

2024年01月25日
浏览(46)
【Spark实战】Windows环境下编译Spark2 Linux上部署Spark On Yarn

环境准备 git-2.14.1 maven-3.9.2 jdk-1.8 scala-2.11.8 zinc-0.3.15 主下载地址 spark-2.3.4 github官方地址编译准备 maven远程仓库使用的是阿里云的解压源码包 spark-2.3.4.zip ,修改根模块的pom文件。主要目的是为了变更hadoop的版本号，默认是 2.6.5 。修改 spark-2.3.4devmake-distribution.sh 文件主要是

2024年02月13日
浏览(56)
16-Linux部署Spark环境

本小节的操作，基于：大数据集群（Hadoop生态）安装部署环节中所构建的Hadoop集群如果没有Hadoop集群，请参阅前置内容，部署好环境。参考文章： 14-Linux部署Hadoop集群： Spark是一款分布式内存计算引擎，可以支撑海量数据的分布式计算。 Spark在大数据体系是明星产品，作为

2024年04月15日
浏览(26)
Spark，hadoop，Linux基础命令

目录 Linux命令查看主机名:hostname编辑修改主机名:hostnamectl set-hostname xxx 创建新用户，该命令只能由 root 用户使用：useradd 设置或修改指定用户的口令：passwd 显示当前目录:pwd 显示指定目录中的文件或子目录信息。当不指定文件或目录时，显示当前工作目录中的文件或子目

2024年03月24日
浏览(40)
hadoop集群搭建、spark集群搭建、pyspark搭建（linux+window）

本文记录学习过程中Hadoop、zookeeper、spark集群搭建，主要为pyspark库服务（具体为window上pyspark环境和pyspark库，linux上spark框架、pyspark应用程序、pyspark环境和pyspark库）。pyspark环境是用anaconda3搭建的环境。pyspark应用程序，是安装spark集群里面自带的，提供一个python解释器环境来执

2024年01月22日
浏览(46)
Linux CentOS下大数据环境搭建（zookeeper+hadoop+hbase+spark+scala）

本篇文章是结合我个人学习经历所写，如果遇到什么问题或者我有什么错误，欢迎讨论。百度网盘链接：https://pan.baidu.com/s/1DCkQQVYqYHYtPws9hWGpgw?pwd=zh1y 提取码：zh1y 软件在连接中VMwareWorkstation_V16.2.1_XiTongZhiJia的文件夹下。双击运行安装包，这里下一步即可。这里勾选我接受许可

2024年04月15日
浏览(69)
kakfa模拟仿真篇之spark-submit在linux运行 (更贴近真实场景)

源码在上篇地址在这：Kafka模拟器产生数据仿真-集成StructuredStreaming做到”毫秒“级实时响应StreamData落地到mysql-CSDN博客这里分享一下一些新朋友不知道spark-submit 指令后的参数怎么写看这篇绝对包会声明：此项目是基于 maven 打包的说明，不是SBT哦先分享一下我的原指

2024年03月25日
浏览(41)
林子雨 VirtualBox + Ubuntu[linux] 配置 java、hadoop、Spark[python]、pyspark快速配置流程

按照步骤快速执行shell，最快速配置。读者可以根据该篇随记快速回顾流程，以及用到的shell指令和相关配置文件。是林老师教程的精简版，初次配置者只能作为流程参考，主要和林子雨Spark[python]版课程配套。林老师厦大实验指南链接如下： Spark编程基础（Python版）教材官

2024年04月12日
浏览(43)
Linux多虚拟机集群化配置详解(Zookeeper集群、Kafka集群、Hadoop集群、HBase集群、Spark集群、Flink集群、Zabbix、Grafana部署)

前面安装的软件，都是以单机模式运行的，学习大数据相关的软件部署，后续安装软件服务，大多数都是以集群化（多台服务器共同工作）模式运行的。所以，需要完成集群化环境的前置准备，包括创建多台虚拟机，配置主机名映射，SSH免密登录等等。我们可以使用VMware提供

2024年02月04日
浏览(52)
Spark系列(一)spark简介及安装配置

目录 1. spark简介： 2. spark特点： 2.1 Speed：速度快 2.2 Easy of Use：易用性 2.3 Generality：通用性 2.4 Runs Everywhere：到处运行 3. Spark的应用场景 4. 环境要求及准备工作 5. spark搭建模式： 5.1 local模式在解压缩安装后 5.2 Standalone模式搭建(基于hdfs文件存储) 5.1.1 首先配置spark环境变量：

2023年04月09日
浏览(39)