使用python连接hive数仓

这篇具有很好参考价值的文章主要介绍了使用python连接hive数仓。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 版本参数

查看hadoop和hive的版本号

ls -l /opt
# 总用量 3
# drwxr-xr-x  11 root  root  227 1月  26 19:23 hadoop-3.3.6
# drwxr-xr-x  10 root  root  205 2月  12 18:53 hive-3.1.3
# drwxrwxrwx.  4 root  root   32 2月  11 22:19 tmp

查看java版本号

java -version
# java version "1.8.0_391"
# Java(TM) SE Runtime Environment (build 1.8.0_391-b13)
# Java HotSpot(TM) 64-Bit Server VM (build 25.391-b13, mixed mode)

查看mysql版本号

mysql --version
# mysql  Ver 8.0.35 for Linux on x86_64 (MySQL Community Server - GPL)

2 启动环境

启动hadoop集群

start-all.sh
# WARNING: HADOOP_SECURE_DN_USER has been replaced by HDFS_DATANODE_SECURE_USER. Using value of HADOOP_SECURE_DN_USER.
# Starting namenodes on [ml]
# 上一次登录:三 3月  6 23:34:59 CST 2024tty1 上
# Starting datanodes
# 上一次登录:三 3月  6 23:37:56 CST 2024pts/0 上
# Starting secondary namenodes [ml]
# 上一次登录:三 3月  6 23:38:01 CST 2024pts/0 上
# Starting resourcemanager
# 上一次登录:三 3月  6 23:38:30 CST 2024pts/0 上
# Starting nodemanagers
# 上一次登录:三 3月  6 23:39:01 CST 2024pts/0 上

查看hadoop集群状态

jps|sort
# 2337 NameNode
# 2548 DataNode
# 3161 ResourceManager
# 3379 NodeManager
# 5654 Jps

启动hiveserver2服务

nohup hiveserver2 &
# [1] 7486
# (pyspark) (base) [root@~ ~]# nohup: 忽略输入并把输出追加到"nohup.out"
# 

检测hiveserver2状态

jps|grep 7486
# 7486 RunJar

检测thrift端口号状态

netstat -anp|grep 10000
# tcp6    0    0 :::10000    :::*    LISTEN    7486/java

3 安装环境

安装python第三方库

conda install sasl
conda install thrift
conda install thrift-sasl
conda install pyhive
conda install sqlalchemy
conda install pandas

使用everything检索sasl2文件夹并打开该文件夹
在open git bash here窗口查看sasl2里面的文件

ls
# saslANONYMOUS.dll*  saslLOGIN.dll*  saslPLAIN.dll*   saslSQLITE.dll*
# saslCRAMMD5.dll*    saslNTLM.dll*   saslSASLDB.dll*  saslSRP.dll*
# saslDIGESTMD5.dll*  saslOTP.dll*    saslSCRAM.dll*

创建C:/CMU/bin/sasl2文件夹
拷贝当前文件夹的dll文件到C:/CMU/bin/sasl2文件夹中

mkdir -p C:/CMU/bin/sasl2
cp ./* C:/CMU/bin/sasl2/

4 读取数据

编写python脚本连接hive数仓

import pandas as pd
from pyhive import hive
from sqlalchemy import create_engine

engine = create_engine('hive://root:ml123456@ml:10000/default?auth=LDAP')
df = pd.read_sql_query('show databases',con=engine)
df.head()

能看到数据库名记录就证明连接成功文章来源地址https://www.toymoban.com/news/detail-837889.html

到了这里,关于使用python连接hive数仓的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 使用Python创建faker实例生成csv大数据测试文件并导入Hive数仓

    这段Python代码用于生成模拟的个人信息数据,并将数据保存为CSV文件。 导入必要的模块: csv :用于处理CSV文件的模块。 random :用于生成随机数。 faker :用于生成模拟数据的库。 定义生成数据所需的基本信息: file_base_path :生成的CSV文件的基本路径。 rows_per_file :每个C

    2024年02月07日
    浏览(36)
  • hive查看数据库出现org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

    在启动hive后,使用show databses查看数据库时发现,出现了这个错误 根据搜索查找以及分析得知:可能是hive的数据库MySQL在安装的时候没有初始化,初始化数据库即可 schematool -dbType mysql -initSchema  1.在MySQL中删除元数据 drop database metastore; 2.进入hive中的bin里面 ,输入格式化命令

    2024年02月07日
    浏览(56)
  • Hadoop Hbase Hive 版本对照一览

    官网内容记录,仅供参考

    2024年02月13日
    浏览(38)
  • Hadoop——DataGrip连接MySQL|Hive

    1、下载 DataGrip下载:DataGrip: The Cross-Platform IDE for Databases SQL by JetBrains 2、破解 破解链接:https://www.cnblogs.com/xiaohuhu/p/17218430.html 3、启动环境 启动Hadoop:到Hadoop的sbin目录下右键管理员身份运行start-all.cmd,或命令运行: start-all.cmd 启动HiveServer2:以管理员身份打开cmd,目录切换

    2024年02月16日
    浏览(47)
  • beeline连接hive的导出数据格式的参数及设置

    参考语句 参数说明 参数 说明 –incremental=[true/false] 从Hive 2.3版本往后默认是true,在它之前是默认为false。当设置为false时,为了最佳的展示列宽,完整的结果集会在展示之前被收集然后缓存起来。当设置为true时,结果集一旦被抓取到就会立即展示, 为了在展示列的填充额外

    2024年02月07日
    浏览(54)
  • (最新版本)hive4.0.0 + hadoop3.3.4 集群安装(无坑版)-大数据学习系列(一)

    网上的找的文档大多残缺不靠谱,所以我整理了一份安装最新版本的hive4..0.0+hadoop3.3.4的学习环境,可以提供大家安装一个完整的hive+hadoop的环境供学习。 由于在公司担任大数据的培训工作后续还会更新一些基础的文章,希望能帮助到大家。 机器信息 Hostname k8s-master k8s-node1 k8

    2024年02月06日
    浏览(50)
  • 如何查看自己使用的Python、CUDA、Pytorch、TensorFlow的版本(Windows)

    1、查看python版本 1)键盘 windows+R键,弹出如下:2、  2)点击确定,弹出如下:  3)输入python,便可输出python版本 2、查看cuda版本 1)打开pycharm编辑器 2)输入: 3)运行后输出:   3、查看pytorch版本 1)打开pycharm编辑器 2)输入: 3)运行后输出:     4、查看tensorflow版本

    2024年02月08日
    浏览(52)
  • Windows下使用hadoop+hive+sparkSQL

    一、Java安装 1.1 下载 在官网下载java8(Java Downloads | Oracle) 1.2 配置java环境 1.右击此电脑-属性 2.点击左侧高级系统设置,在出现的窗口点击环境变量接下来的窗口会出现两个框,一个是用户变量,一个系统变量,我们直接在系统变量修改。 JAVA_HOME,变量名:JAVA_HOME 值:安装路径

    2024年02月21日
    浏览(29)
  • 项目实战——参数配置化Spark将Hive表的数据写入需要用户名密码认证的ElasticSearch(Java版本)

    项目实战——将Hive表的数据直接导入ElasticSearch    此篇文章不用写代码,简单粗暴,但是相对没有那么灵活;底层采用MapReduce计算框架,导入速度相对较慢! 项目实战——Spark将Hive表的数据写入ElasticSearch(Java版本)    此篇文章需要Java代码,实现功能和篇幅类似,直接

    2023年04月08日
    浏览(61)
  • 数仓工具Hive 概述

    Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 通过Hive可以将mapreduce程序的复杂编写过程抽象为简单的sql语句,它提供一种sql语句到mapreduce程序的映射,提高了开发效率。 另外: (1)Hive中每张表的数据存

    2024年02月11日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包