大数据基础设施搭建 - Spark

这篇具有很好参考价值的文章主要介绍了大数据基础设施搭建 - Spark。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、解压压缩包

[hadoop@hadoop102 software]$ tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module

二、修改配置文件conf/spark-env.sh

cd /opt/module/spark-3.0.0-bin-hadoop3.2/conf
[hadoop@hadoop102 conf]$ cp spark-env.sh.template spark-env.sh
[hadoop@hadoop102 conf]$ vim spark-env.sh

内容:

export JAVA_HOME=/opt/module/jdk1.8.0_291
YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop

三、测试提交Spark任务

[hadoop@hadoop102 ~]$ cd /opt/module/spark-3.0.0-bin-hadoop3.2/
[hadoop@hadoop102 spark-3.0.0-bin-hadoop3.2]$ bin/spark-submit \
> --class org.apache.spark.examples.SparkPi \
> --master yarn \
> --deploy-mode cluster \
> ./examples/jars/spark-examples_2.12-3.0.0.jar \
> 10

到YARN WEB页面查看任务提交情况

四、Spark on Hive配置

4.1 创建hive-site.xml(spark/conf目录)

[hadoop@hadoop102 conf]$ cd /opt/module/spark-3.0.0-bin-hadoop3.2/conf/
[hadoop@hadoop102 conf]$ vim hive-site.xml

内容:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <!--告知Spark创建表存到哪里-->
    <property>
      <name>hive.metastore.warehouse.dir</name>
      <value>/warehouse</value>
    </property>
    <!-- 不使用spark内置hive存储元数据 -->
    <property>
      <name>hive.metastore.local</name>
      <value>false</value>
    </property>
    <!--告知Spark Hive的MetaStore在哪-->
    <property>
      <name>hive.metastore.uris</name>
      <value>thrift://hadoop102:9083</value>
    </property>
  
</configuration>

4.2 查看hive的hive-site.xml配置与3.1配置的是否一致

cd /opt/module/apache-hive-3.1.2-bin/conf
vim hive-site.xml

4.3 测试SparkSQL

4.3.1 启动SparkSQL客户端(Yarn方式)

[hadoop@hadoop102 spark-3.0.0-bin-hadoop3.2]$ bin/spark-sql --master yarn
spark-sql> show databases;
spark-sql> select count(1)
         > from dw_ods.ods_activity_info_full 
         > where dt='2023-12-07';

4.3.2 启动Hive客户端

[hadoop@hadoop102 apache-hive-3.1.2-bin]$ bin/hive
hive> show databases;
hive> select count(1)
    > from dw_ods.ods_activity_info_full 
    > where dt='2023-12-07';

五、通过Spark Web-UI分析SQL执行过程(TODO)

大数据基础设施搭建 - Spark,大数据基础设施搭建,大数据,spark,分布式
大数据基础设施搭建 - Spark,大数据基础设施搭建,大数据,spark,分布式
大数据基础设施搭建 - Spark,大数据基础设施搭建,大数据,spark,分布式
大数据基础设施搭建 - Spark,大数据基础设施搭建,大数据,spark,分布式
大数据基础设施搭建 - Spark,大数据基础设施搭建,大数据,spark,分布式

六、集群化(TODO)

优势在哪里??文章来源地址https://www.toymoban.com/news/detail-845691.html

到了这里,关于大数据基础设施搭建 - Spark的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 背后的力量 | 推进智慧医保建设 华云数据为云南省医疗保障局搭建新一代IT基础设施平台

    云南省医疗保障局是云南省医疗保险、生育保险、医疗救助等医疗保障制度的政策、规划和标准制定并对医疗机构实施监管的政府单位。由云南省医疗保障局牵头建设的云南省智慧医疗平台专注于运营云南省医保业务,并实现对医保数据的全面管理。 华云数据(微信号:ch

    2023年04月08日
    浏览(92)
  • 微服架构基础设施环境平台搭建 -(四)在Kubernetes集群基础上搭建Kubesphere平台

    通过采用微服相关架构构建一套以Kubernetes+Docker为自动化运维基础平台,以微服务为服务中心,在此基础之上构建业务中台,并通过Jekins自动构建、编译、测试、发布的自动部署,形成一套完整的自动化运维、发布的快速DevOps平台。 本文是基于Kubernets集群基础上来部署Kubesp

    2024年02月04日
    浏览(77)
  • 微服架构基础设施环境平台搭建 -(五)Docker常用命令

    本文主要列出了Docker常用的命令 微服架构基础设施环境平台搭建 系列文章 微服架构基础设施环境平台搭建 -(一)基础环境准备 微服架构基础设施环境平台搭建 -(二)Docker私有仓库Harbor服务搭建 微服架构基础设施环境平台搭建 -(三)Docker+Kubernetes集群搭建 微服架构基础

    2024年02月04日
    浏览(39)
  • NetApp通过智能数据基础设施推动人工智能创新

    NetApp宣布与NVIDIA合作,推出更流畅、安全、高效的基础设施 加利福尼亚州圣何塞--(美国商业资讯)-- NetApp®(纳斯达克代码:NTAP),一家智能数据基础设施公司,今日宣布了新的功能,这些功能能够最大化生成式人工智能(Gen AI)项目的潜力,并为用户构建竞争优势。客户现

    2024年03月14日
    浏览(78)
  • 云基础设施安全:7个保护敏感数据的最佳实践

    导语:云端安全防护进行时! 您的组织可能会利用云计算的实际优势:灵活性、快速部署、成本效益、可扩展性和存储容量。但是,您是否投入了足够的精力来确保云基础设施的网络安全? 您应该这样做,因为数据泄露、知识产权盗窃和商业秘密泄露在云中仍然可能发生。

    2024年02月15日
    浏览(37)
  • 大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

    前言:七八九用于Spark的编程实验 大数据开源框架之基于Spark的气象数据处理与分析_木子一个Lee的博客-CSDN博客_spark舆情分析 目录 实验环境: 实验步骤: 一、解压 二、配置环境变量:  三、修改配置文件  1.修改spark-env.sh配置文件: 2.修改配置文件slaves: 3.分发配置文件:

    2024年02月11日
    浏览(54)
  • 19基础设施监控工具 Zabbix 的基本用法,包括数据采集、报警

    Zabbix 是一款免费开源的网络监控工具,可以监控各种网络设备、服务器、应用程序等,并提供报警机制。它可以在 Windows、Linux、Unix 等平台上运行,支持多种数据库(MySQL、PostgreSQL、Oracle、SQLite),同时提供了 Web 界面进行管理和监控。 Zabbix 可以通过源码或二进制包安装。

    2024年02月06日
    浏览(38)
  • 企业申请数据中心基础设施绿色建维服务认证需要注意哪些方面?

    数据中心基础设施绿色建维服务认证是一种针对数据中心建设和维护的全流程认证,旨在确保数据中心的基础设施在建设、运行和维护过程中均符合绿色环保的标准。该认证由独立的第三方机构进行评估和审核,针对数据中心的能源效率、设备健康状况、运营管理等方面进行

    2024年01月21日
    浏览(60)
  • 现代IT基础设施与运维技术全览-云计算与数据中心技术栈

    类别 技术/工具 Web服务器 Apache, Tomcat, Nginx, Httpd 监控 Nagios, Ganglia, Cacti, Zabbix, Prometheus, Grafana 自动部署 Ansible, SSHPT, Salt 配置管理 Puppet, CFEngine 负载均衡 LVS, HAProxy, Nginx 传输工具 Scribe, Flume 备份工具 Rsync, Wget 数据库 MySQL, Oracle, SQL Server 国产数据库 OceanBase, TiDB, Doris, 达梦, 人大金

    2024年03月21日
    浏览(56)
  • 数据分析和构建大数据分析基础设施的关键环节 Building a BigData Analytics Infrastructure

    作者:禅与计算机程序设计艺术 2010年,谷歌搜索引擎爆炸性的流量导致其搜索结果无法显示全面而失败,此后数十年的时间里,谷歌始终秉持着让用户获得快速、及时的信息检索体验的使命,致力于提供最好的网页搜索引擎产品,实现其搜索功能的更好升级。如今,谷歌已

    2024年02月12日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包