Windows下使用hadoop+hive+sparkSQL

这篇具有很好参考价值的文章主要介绍了Windows下使用hadoop+hive+sparkSQL。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Windows下使用hadoop+hive+sparkSQL

一、Java安装

1.1 下载

在官网下载java8(Java Downloads | Oracle)

1.2 配置java环境

1.右击此电脑-属性

2.点击左侧高级系统设置,在出现的窗口点击环境变量接下来的窗口会出现两个框,一个是用户变量,一个系统变量,我们直接在系统变量修改。

JAVA_HOME,变量名:JAVA_HOME 值:安装路径

hive widows 使用,hadoop,windows,hive,大数据,spark

在变量中找到Path,点击编辑,添加以下两行

%JAVA_HOME%\bin
%JAVA_HOME%\jre\bin

hive widows 使用,hadoop,windows,hive,大数据,spark
hive widows 使用,hadoop,windows,hive,大数据,spark

二、Hadoop安装

2.1 下载Hadoop安装包

下载后解压到自己喜欢的位置

本文下载的hadoop-3.3.3,其他版本请到官网下载

Apache Hadoop

hadoop-3.3.3

下载已经编译好的window平台的hadoop,版本为3.3.3,下载其他版本hadoop可能不能使用

链接:编译好的window平台的hadoop
提取码:0wza

下载微软驱动

链接:微软驱动
提取码:8dvm

2.2 配置环境变量

同上文安装Java配置环境变量

1.配置系统环境变量

HADOOP_HOME=hadoop解压路径

2.配置Path环境变量

%HADOOP_HOME%\bin
%HADOOP_HOME%\sbin
2.3 安装微软驱动

下载等待安装完成即可

2.4 配置已经编译好的window平台的hadoop

将其解压到%HADOOP_HOME%目录里面,覆盖原bin目录中的文件

然后将%HADOOP_HOME%\bin\hadoop.dll复制到C:\Windows\System32

2.5 修改hadoop配置

1.%HADOOP_HOME%\etc\hadoop\core-site.xml配置:

<?xml version="1.0" encoding="UTF-8"?>

<configuration>
	<!--设置hdfs可以被访问的ip,以及访问端口-->
	<property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
	<!--hdfs数据文件的存放位置-->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/tmp/hadoop/data</value>    
	</property>
	<!--被删除的文件在垃圾箱的保留分钟数,为0表示禁用垃圾桶,被删除的文件会直接被删除-->
	<!--
    <property>
        <name>fs.trash.interval</name>
        <value>1440</value>
    </property>
	-->
	<!--
		hadoop.proxyuser.$superuser.hosts	配置该superUser允许通过代理访问的主机节点
		hadoop.proxyuser.$superuser.groups	配置该superUser允许代理的用户所属组
		hadoop.proxyuser.$superuser.users	配置该superUser允许代理的用户
		下面配置了Administrator可以代理访问的主机节点和用户所属组为全部
	-->
	<property>
			<name>hadoop.proxyuser.Administrator.hosts</name>
			<value>*</value>
	</property>
	<property>
			<name>hadoop.proxyuser.Administrator.groups</name>
			<value>*</value>
	</property>
</configuration>

2.%HADOOP_HOME%\etc\hadoop\hdfs-site.xml配置:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
  	<!--副本数量,只用于做本地测试,所以只用1个副本节省空间-->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <!---不进行权限检查-->
	<property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

2.6 格式化NameNode

cmd中输入,出现has been successfully formatted.表示格式化成功。

hdfs namenode -format
2.7 启动hadoop

cmd中输入,启动成功会弹出namenodedatanode两个进程

start-dfs.cmd

hive widows 使用,hadoop,windows,hive,大数据,spark
2.8 进入UI界面

http://127.0.0.1:9870/

hive widows 使用,hadoop,windows,hive,大数据,spark

三、安装Scala

3.1 下载Scala安装包

下载并解压到自己喜欢的目录

本文安装的scala-2.12.11,其他版本自行在官网查找

All Available Versions | The Scala Programming Language (scala-lang.org)

https://downloads.lightbend.com/scala/2.12.11/scala-2.12.11.zip

3.2 配置环境变量

1.配置系统环境变量

SCALA_HOME=scala解压路径

2.配置Path环境变量

%SCALA_HOME%\bin
3.3 测试

cmd 输入scala,如下图则安装成功
hive widows 使用,hadoop,windows,hive,大数据,spark

四、Spark安装

4.1 下载Spark安装包

下载并解压到自己喜欢的目录

本文安装的Spark-3.5,其他版本自行在官网查找

Index of /spark (apache.org)

https://dlcdn.apache.org/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz

4.2 配置环境变量

1.配置系统环境变量

SPARK_HOME=spark解压路径

2.配置Path环境变量

%SPARK_HOME%\bin
4.3 测试

cmd输入spark-shell,如下图则安装成功
hive widows 使用,hadoop,windows,hive,大数据,spark

4.4 添加MySQL驱动

%SPARK_HOME%\jars中放入mysql的驱动jar包,例如mysql-connector-java-5.1.34-bin.jar

链接:https://pan.baidu.com/s/1LqpBM5LV0Y46O8NXTibFTQ?pwd=79yy
提取码:79yy

五、MySQL安装

5.1 下载MySQL安装包

下载并解压到自己喜欢的目录

本文安装的MySQL-8.2.0,其他版本自行在官网查找

MySQL :: Download MySQL Community Server

https://cdn.mysql.com//Downloads/MySQL-8.2/mysql-8.2.0-winx64.zip

5.2 配置MySQL

进入解压后的目录,在bin同等级目录下新建my.ini,添加如下配置

需要注意的是basedir mysql的安装路径,要选择你自己mysql 的安装路径,datadir 选择数据存放的路径,basedir , datadir路径使用正斜杠/ 或双斜杠\ 否则起不来服务

# For advice on how to change settings please see
# http://dev.mysql.com/doc/refman/5.6/en/server-configuration-defaults.html
# *** DO NOT EDIT THIS FILE. It's a template which will be copied to the
# *** default location during install, and will be replaced if you
# *** upgrade to a newer version of MySQL.
 
[mysqld]
 
# Remove leading # and set to the amount of RAM for the most important data
# cache in MySQL. Start at 70% of total RAM for dedicated server, else 10%.
# innodb_buffer_pool_size = 128M
 
# Remove leading # to turn on a very important data integrity option: logging
# changes to the binary log between backups.
# log_bin
 
# These are commonly set, remove the # and set as required.
# 设置mysql的安装目录
basedir = D:/mysql-8.0.33-winx64/mysql-8.0.33-winx64
# 设置mysql数据库的数据的存放目录
datadir = D:/mysql-8.0.33-winx64/mysql-8.0.33-winx64/data
# 设置3306端口
port = 3306
# server_id = .....
 
# Remove leading # to set options mainly useful for reporting servers.
# The server defaults are faster for transactions and fast SELECTs.
# Adjust sizes as needed, experiment to find the optimal values.
# join_buffer_size = 128M
# sort_buffer_size = 2M
# read_rnd_buffer_size = 2M 
 
sql_mode = NO_ENGINE_SUBSTITUTION,STRICT_TRANS_TABLES 
 
# 允许最大连接数
max_connections = 200
# 允许连接失败的次数。这是为了防止有人从该主机试图攻击数据库系统
max_connect_errors = 10
# 服务端使用的字符集默认为UTF8
character-set-server = utf8mb4
# 创建新表时将使用的默认存储引擎
default-storage-engine = INNODB
# 默认使用“mysql_native_password”插件认证
default_authentication_plugin = mysql_native_password
[mysql]
# 设置mysql客户端默认字符集
default-character-set = utf8mb4
[client]
# 设置mysql客户端连接服务端时默认使用的端口
port=3306
default-character-set = utf8mb4
5.3 配置环境变量

1.配置系统环境变量

MYSQL_HOME=mysql解压路径

2.配置Path环境变量

%MYSQL_HOME%\bin
5.4 获取初始密码

cmd输入如下命令,获取生成的初始密码,最好保存下,后期可能会用

mysqld --initialize --console
5.5 安装并启动MySQL服务

cmd输入如下命令,安装并启动MySQL服务

mysqld --install mysql

六、Hive安装

6.1 下载Hive安装包

下载并解压到自己喜欢的目录

本文安装的Hive-3.1.3,其他版本自行在官网查找

Index of /dist/hive (apache.org)

http://archive.apache.org/dist/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz

6.2 配置环境变量

1.配置系统环境变量

HIVE_HOME=hive解压路径

2.配置Path环境变量

%HIVE_HOME%\bin
6.3 配置Hive元数据库(以MySQL为例)

%HIVE_HOME%\bin\conf新建hive-site.xml如下

前三项分别是你的mysql连接url,用户名和密码,按照实际情况修改即可。连接url中hive也可以修改为其他名字,表示hive存储元数据的数据库的名称

<configuration>
    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
    </property>

    <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
    </property>

    <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>root</value>
    </property>

    <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
    </property>

    <property>
        <name>hive.metastore.warehouse.dir</name>  
        <!--hive的数据存储目录,指定的位置在hdfs上的目录-->  
        <value>/tmp/hive/warehouse</value>
    </property>
    <property>
        <name>hive.cli.print.header</name>
        <value>true</value>
    </property>

    <property>
        <name>hive.cli.print.current.db</name>
        <value>true</value>
    </property>
</configuration>
6.4 初始化元数据库

1.使用Navicat连接元数据库MySQL

2.创建hive数据库(指定字符集latin1和排序规则latin1_general_ci,SQL如下)

CREATE DATABASE `hive` /*!40100 DEFAULT CHARACTER SET latin1 COLLATE latin1_general_ci */

3.执行%HIVE_HOME%\scripts\metastore\upgrade\mysql\hive-schema-3.1.0.mysql.sql(选择版本最新的一个脚本)的SQL脚本完成元数据库的初始化文章来源地址https://www.toymoban.com/news/detail-834229.html

七、Spark SQL测试

7.1 创建连接
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.types import *
spark = SparkSession.builder \
    .appName("Remote Spark Connection") \
    .master("local") \
    .config("spark.sql.catalogImplementation","hive") \
    .getOrCreate()
7.2 测试
spark.sql('show databases').show()
+---------+
|namespace|
+---------+
|  default|
+---------+
spark.sql("CREATE database test")
spark.sql("show databases").show()
+---------+
|namespace|
+---------+
|  default|
|     test|
+---------+
spark.sql("CREATE table test.test(id int)")
spark.sql("show tables").show()
+---------+---------+-----------+
|namespace|tableName|isTemporary|
+---------+---------+-----------+
|     test|     test|      false|
+---------+---------+-----------+

到了这里,关于Windows下使用hadoop+hive+sparkSQL的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • hadoop win11安装hadoop环境 winutils.exe获取,windows安装大数据运行环境 winutils文件获取,winutils文件 hadoop(十四)

    注:有些win环境的大数据dll文件,winutils.exe需要积分下载,我没有积分,提供一份github链接 每个版本基本都有,挺全。 1. github地址: GitHub - cdarlint/winutils: winutils.exe hadoop.dll and hdfs.dll binaries for hadoop windows 2. 从上述链接,下载工程,复制出来自己的版本,我hadoop安装的3.3.4,

    2024年02月04日
    浏览(37)
  • 使用MIT Kerberos Ticket Manager在windows下浏览器访问hadoop页面

    kerberos是一种计算机网络认证协议,他能够为网络中通信的双方提供严格的身份验证服务,确保通信双方身份的真实性和安全性。 hadoop集群中会常用到kerberos认证,在对hadoop集群施加安全认证过程中,往往会有需要开启对应服务组件Web UI认证的需求。在启用认证后,如果直接

    2024年02月14日
    浏览(29)
  • Windows下安装Hive

    hive官网下载地址:https://archive.apache.org/dist/hive/ hadoop官网下载地址:https://archive.apache.org/dist/hadoop/common/ 以hive-2.3.5为例 1、下载apache-hive-2.3.5-src.tar.gz 2、解压后,查看apache-hive-2.3.5-src/pom.xml文件 ​ 部分内容如下(line 141: hadoop.version2.7.2/hadoop.version 即,hive-2.3.5对应的hadoop版本号

    2024年02月12日
    浏览(19)
  • Hadoop——Windows系统下Hadoop单机环境搭建

    为了便于开发,我在本地Windows系统进行Hadoop搭建。 我使用的版本:hadoop-2.7.0。其他版本也可,搭建流程基本一样,所以参考这个教程一般不会有错。 1、下载安装包和插件 安装包hadoop-2.7.0.tar.gz 必要插件winutils-master 2、解压安装包 使用管理员身份运行cmd,到安装包对应目录下

    2024年02月09日
    浏览(43)
  • 【hadoop】windows上hadoop环境的搭建步骤

    在大数据开发领域中,不得不说说传统经典的hadoop基础计算框架。一般我们都会将hadoop集群部署在服务器上,但是作为一个资深搬砖人,我们本地环境也需要一个开发hadoop的开发环境。那么,今天就安排一个在windows上搭建一个hadoop环境。 docker部署hadoop请移步 下载hadoop安装包

    2024年02月12日
    浏览(29)
  • Windows下DataGrip连接Hive

    单独开一个窗口启动hiveserver2服务,这个服务是beeline连接的,提供jdbc协议帮助操作hive的 单独开一个窗口先开启这个元数据服务,这个服务是上面操作了hive后,hive又会通过操作元数据的方式操作mysql

    2024年02月07日
    浏览(35)
  • windows环境下安装配置hadoop

    (需要提前安装好JDK,否则会出错。) 1、进入 https://archive.apache.org/dist/hadoop/ 下载所需要的hadoop版本 (演示:hadoop-2.9.1.tar.gz(可能需要双重解压)) 下载后解压至想要安装的目录位置 2、下载winutils.exe(GitHub - cdarlint/winutils: winutils.exe hadoop.dll and hdfs.dll binaries for hadoop windo

    2023年04月08日
    浏览(44)
  • hadoop本地化windows部署

    需求背景是java代码提交服务器测试周期流程太慢,需要一种能直接在windows本地部署的相关组件。分析项目现有大数据技术栈,包括hadoop、hive和spark(sparksql),存储和计算都依赖windows系统。期中hive保存在本地的hadoop上,spark提交在hadoop的yarn上。 · hadoop on windows · hive on windows

    2024年02月16日
    浏览(60)
  • Windows下安装Hive(包安装成功)

    本篇 Hadoop版本为:2.7.2 Hive版本为:2.3.5 请严格按照版本来安装。 Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转

    2024年02月14日
    浏览(39)
  • Hadoop课程学习——Hadoop的windows环境安装及问题

    前言 一、使用步骤 1.jdk下载 2.eclipse下载 3.jdk与eclipse环境配置 4.Hadoop使用 二:问题展示 1.问题一:出现找不到主类(java -version运行正常,hadoop运行出错) 2.问题二:出现点击eclipse.exe不能运行 3.问题三:出现‘-Xmx512m’不是内部或外部指令 总结 关于Hadoop环境配置的过程以及出现

    2023年04月08日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包