Spark连接快速入门-Toy模板网

这篇具有很好参考价值的文章主要介绍了Spark连接快速入门。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

文章最前：我是Octopus，这个名字来源于我的中文名--章鱼；我热爱编程、热爱算法、热爱开源。所有源码在我的个人github ；这博客是记录我学习的点点滴滴，如果您对 Python、Java、AI、算法有兴趣，可以关注我的动态，一起学习，共同进步。

Spark Connect 为 Spark 引入了解耦的客户端-服务器架构，允许使用DataFrame API远程连接到 Spark 集群。

本笔记本通过一个简单的分步示例演示如何使用 Spark Connect 构建在处理数据时需要利用 Spark 强大功能的任何类型的应用程序。

Spark Connect 包括客户端和服务器组件，我们将向您展示如何设置和使用这两个组件。

使用 Spark Connect 启动 Spark 服务器

要启动支持 Spark Connect 会话的 Spark，请运行该start-connect-server.sh脚本。

!$HOME/sbin/start-connect-server.sh --packages org.apache.spark:spark-connect_2.12:$SPARK_VERSION

连接到 Spark Connect 服务器

现在 Spark 服务器正在运行，我们可以使用 Spark Connect 远程连接到它。我们通过在运行应用程序的客户端上创建远程 Spark 会话来实现此目的。在此之前，我们需要确保停止现有的常规 Spark 会话，因为它无法与我们即将创建的远程 Spark Connect 会话共存。

from pyspark.sql import SparkSession
SparkSession.builder.master("local[*]").getOrCreate().stop()

我们上面用来启动服务器的命令将 Spark 配置为以 localhost:15002. 现在我们可以使用以下命令在客户端上创建远程 Spark 会话。

spark = SparkSession.builder.remote("sc://localhost:15002").getOrCreate()

创建DataFrame

远程 Spark 会话创建成功后，就可以像常规 Spark 会话一样使用它。因此，您可以使用以下命令创建DataFrame。文章来源地址https://www.toymoban.com/news/detail-824736.html

from datetime import datetime, date
from pyspark.sql import Row

df = spark.createDataFrame([
    Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),
    Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 1, 2, 12, 0)),
    Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 1, 3, 12, 0))
])
df.show()

+---+---+-------+----------+-------------------+
|  a|  b|      c|         d|                  e|
+---+---+-------+----------+-------------------+
|  1|2.0|string1|2000-01-01|2000-01-01 12:00:00|
|  2|3.0|string2|2000-02-01|2000-01-02 12:00:00|
|  4|5.0|string3|2000-03-01|2000-01-03 12:00:00|
+---+---+-------+----------+-------------------+

到了这里，关于Spark连接快速入门的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！