python导出数据为parquet格式

这篇具有很好参考价值的文章主要介绍了python导出数据为parquet格式。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

import duckdb
import pandas as pd
from sqlalchemy import create_engine

# 定义连接到您的 MySQL 或 PostgreSQL 数据库的参数
db_type = 'mysql'  # 或 'postgresql'
user = 'your_username'
password = 'your_password'
host = 'your_host'
port = 'your_port'
database = 'your_database'
table_name = 'your_table'

# 创建 SQLAlchemy 引擎
if db_type == 'mysql':
    engine = create_engine(f'mysql+pymysql://{user}:{password}@{host}:{port}/{database}')
else:  # postgresql
    engine = create_engine(f'postgresql+psycopg2://{user}:{password}@{host}:{port}/{database}')

# 从 MySQL/PostgreSQL 读取数据
with engine.connect() as conn:
    query = f'SELECT * FROM {table_name}'
    df = pd.read_sql(query, conn)

# 使用 DuckDB
con = duckdb.connect(database=':memory:')
con.execute(f'CREATE TABLE {table_name} AS SELECT * FROM df')
con.execute(f'COPY {table_name} TO \'output.parquet\' (FORMAT \'parquet\')')

print("数据已成功导出为 Parquet 格式")
 文章来源地址https://www.toymoban.com/news/detail-822535.html

到了这里,关于python导出数据为parquet格式的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 用sqoop导出hive parquet 分区表到mysql

    确保你已经安装并配置好了Sqoop工具,并且可以连接到Hadoop集群和MySQL数据库。 创建一个MySQL表来存储导出的数据。请确保MySQL表的结构与Hive Parquet分区表的结构匹配。 使用Sqoop的export命令来执行导出操作。以下是一个示例命令: 替换 mysql_host、database_name、mysql_username 和 mysq

    2024年02月14日
    浏览(39)
  • hive文件存储格式orc和parquet详解

    hive支持的文件类型:textfile、sequencefile(二进制序列化文件)、rcfile(行列式文件)、parquet、orcfile(优化的行列式文件) 带有描述式的行列式存储文件。将数据分组切分,一组包含很多行,每一行再按例进行存储。 orc文件结合了行式和列式存储结构的优点,在有大数据量扫

    2024年02月03日
    浏览(37)
  • 在Hive/Spark上执行TPC-DS基准测试 (PARQUET格式)

    在上一篇文章:《在Hive/Spark上运行执行TPC-DS基准测试 (ORC和TEXT格式)》中,我们介绍了如何使用 hive-testbench 在Hive/Spark上执行TPC-DS基准测试,同时也指出了该项目不支持parquet格式。 如果我们想要生成parquet格式的测试数据,就需要使用其他工具了。本文选择使用另外一个开源

    2024年02月12日
    浏览(69)
  • ERP导出(自定义格式表格)R报表开发代码

    按照正常流程新建程序,画面修改上传,程序下载修改 导入JAVA包,在global.import下     在global.variable下添加全局变量     在DIALOG ATTRIBUTES下添加查询栏位逻辑     在process下的process.count_progress下添加调用方法逻辑     写自己的方法,供上面调用  

    2024年02月12日
    浏览(63)
  • Python 如何将运行结果导出为 CSV 格式?

    在 Python 中,我们常常会遇到需要将运行结果以 CSV 格式导出以供其他语言或工具使用的情况。本文将介绍如何使用 Python 将结果导出为 CSV 格式的两种主要方法。 csv 模块是 Python 自带的用于读写 CSV 文件的模块。我们可以这样使用它导出 CSV: 这会生成如下 data.csv 文件: 如果我们

    2024年02月12日
    浏览(32)
  • dbeaver导出数据为excel格式

    dbeaver导出excel 目前数据的可选择只有这几种 恰好没有我们需要的excel模式,而我们需要数据一般都需要excel的 所以我们可以通过以下步骤得到我们的excel格式的数据集: 1.直接选csv模式,至于csv有陌生的小伙伴可以理解:CSV(Comma-Separated Values)是一种简单的文本文件格式,用于存

    2024年01月17日
    浏览(38)
  • poi实现excel文件导入导出(基本数据导出、含格式导出、含批注导出、含图片图表导出)——springboot

    本文主要是介绍springboot + poi实现基本的excel文件导入导出,包含数据导出导入时数据的其他需求校验,导出含有批注信息、导出含有图片信息、导出含有图表信息等的介绍等等,主要是一个demo尽可能简单明了的来介绍相关功能即可。有什么问题可以在留言哦!并在文章末尾附

    2024年02月08日
    浏览(79)
  • 【python】pyarrow.parquet+pandas:读取及使用parquet文件

      Parquet是一种用于 列式存储 和 压缩数据 的文件格式,广泛应用于大数据处理和分析中。Python提供了多个库来处理Parquet文件,例如pyarrow和fastparquet。   本文将介绍如何使用pyarrow.parquet+pandas库操作Parquet文件。    pyarrow.parquet 模块,可以读取和写入Parquet文件,以及进行

    2024年02月21日
    浏览(40)
  • Java使用poi导出excel针对不同数据列配置设置不同单元格格式(适用于通用导出excel数据)

    公司大部分业务都是查询相关的业务, 所以建了一个项目专门做数据查询, 数据中转等抽象通用的业务, 有一天给我安排了一个功能, 做excel导出, 配置好查询sql和表头字段映射后即可导出excel, 无需修改代码 后来因为导出数据要求保留几位小数或者转换成百分比等设置单元格格

    2024年02月07日
    浏览(52)
  • beeline连接hive的导出数据格式的参数及设置

    参考语句 参数说明 参数 说明 –incremental=[true/false] 从Hive 2.3版本往后默认是true,在它之前是默认为false。当设置为false时,为了最佳的展示列宽,完整的结果集会在展示之前被收集然后缓存起来。当设置为true时,结果集一旦被抓取到就会立即展示, 为了在展示列的填充额外

    2024年02月07日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包