注意:需要提前搭建好hive,并对hive进行配置。并将spark配置成为spark on yarn模式。
1、将hive的配置文件添加到spark的目录下
cp $HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf
2、开启hive的hivemetastore服务
提前创建好启动日志存放路径
mkdir $HIVE_HOME/logStart
nohup /usr/local/lib/apache-hive-3.1.3-bin/bin/hive --service metastore > logStart/hivemetastore.log 2>&1 &
3、开启spark的thriftserver服务,运行端口为1000
cd $SPARK_HOME/sbin
start-thriftserver.sh
注意:其实还是hive的thirftserver服务,同时还需要启动spark集群
4、远程连接thirftserver服务
连接thirftserver服务后,就可以使用hive的元数据(hive在hdfs中的数据库和表),并且将spark作为分析引擎,来执行hivesql了。
那我自己集群的数据做例子:文章来源:https://www.toymoban.com/news/detail-727685.html
show databases ;
use clickhouse;
文章来源地址https://www.toymoban.com/news/detail-727685.html
到了这里,关于spark on hive的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!