sqoop

这篇具有很好参考价值的文章主要介绍了sqoop。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

sqoop底层原理是mapreduce,只不过没有聚合过程,故只有map任务

sqoop数据导入(mysql->hdfs)功能:
全表导入
sqoop import \ /* ''表示语句没有结束,换行 */
–connect jdbc:mysql://192.168.19.1:3306/imooc?serverTimezone=UTC \ /指定链接地址/
–username root
–password admin
–table user \ 从哪个表中取数据
–target-dir /out \ 放到hdfs哪个目录中
–delete-target-dir \ 如输出目录存在,把他删除
–num-mappers 1 \ 最终生成mapper任务数量,默认是4个
–fields-terminated-by ‘\t’ 分隔符

–split-by id 根据id切分任务

查询导入
查询语句过滤数据后导入
sqoop import \ /* ''表示语句没有结束,换行 */
–connect jdbc:mysqll://192.168.182.1:3306/imooc?serverTimezone=UTC \ /指定链接地址/
–username root
–password admin
–target-dir /out2 \ 放到hdfs哪个目录中
–delete-target-dir \ 如输出目录存在,把他删除
–num-mappers 1 \ 最终生成mapper任务数量,默认是4个
–fields-terminated-by ‘\t’ \ 分隔符
–query ‘select * from t1 where id > 1 and $CONDITIONS’ 为了多个map任务并行处理时不重复处理数据

sqoop import --connect jdbc:mysql://192.168.19.1:3306/mysql?serverTimezone=UTC --username root --password 123456 --table t1 --target-dir /out1 --num-mappers 1 --fields-terminated-by ‘\t’

数据导出
sqoop export
–connect jdbc:mysql://192.168.182.2:3306/imooc?serverTimezone=UTC
–username root
–password admin
–table user2
–export-dir /out2
–input-fields-terminated-by ‘\t’
–update-key id
–update-mode allowinsert
存在则更新,不存在则插入

sqoop export --connect jdbc:mysql://192.168.182.2:3306/mysql?serverTimezone=UTC --username root --password 123456 --table t2 --export-dir /out2 --input-fields-terminated-by ‘\t’ --update-key id --update-mode allowinsert文章来源地址https://www.toymoban.com/news/detail-420746.html

到了这里,关于sqoop的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据基础篇--MapReduce工作原理

    理解什么是map,什么是reduce,为什么叫mapreduce MapReduce可以分成Map和Reduce两部分理解。 Map详解 1.Map:映射过程,把一组数据按照某种Map函数映射成新的数据。我们将这句话拆分提炼出重要信息,也就是说,map主要是:映射、变换、过滤的过程。一条数据进入map会被处理成多条

    2024年02月04日
    浏览(29)
  • Hadoop之MapReduce实现原理-基础篇

    MR诞生于搜索领域,主要是为了解决海量数据处理扩展性差的问题,它的实现时基于谷歌MR的设计思想,包括简化编程接口、提高系统容错性等。 易于编程:用户无需关注数据切片、数据传输、节点间通信等,只需要关注业务逻辑的实现,简化了开发过程且提高了开发效率。

    2024年02月05日
    浏览(36)
  • MapReduce基础原理、MR与MPP区别

    MapReduce(MR)本质上是一种用于数据处理的编程模型; MapReduce用于海量数据的计算 , HDFS用于海量数据的存储 (Hadoop Distributed File System,Hadoop分布式文件系统)。 Hadoop MapReduce 是一个编程框架,Hadoop环境中,可运行用各种语言编写的MapReduce程序,用于创建在大型商用硬件集群

    2024年02月14日
    浏览(27)
  • 大数据 - MapReduce:从原理到实战的全面指南

    本文深入探讨了MapReduce的各个方面,从基础概念和工作原理到编程模型和实际应用场景,最后专注于性能优化的最佳实践。 关注【TechLeadCloud】,分享互联网架构、云服务技术的全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦

    2024年02月05日
    浏览(27)
  • MapReduce的工作原理这篇文章就够了

    MapReduce是一种分布式计算模型,用于处理大规模数据集。它将大规模数据集分成小的数据块,然后在分布式计算集群上并行处理这些数据块。MapReduce模型由Google公司提出,并在Hadoop等开源框架中得到了广泛应用。 MapReduce模型包含两个阶段:Map阶段和Reduce阶段。 Map阶段 在Map阶

    2024年02月06日
    浏览(33)
  • mapreduce 的工作原理以及 hdfs 上传文件的流程

    推荐两篇博文 mapreduce 的工作原理: 图文详解 MapReduce 工作流程_mapreduce工作流程_Shockang的博客-CSDN博客 hdfs 上传文件的流程 HDFS原理 - 知乎

    2024年02月10日
    浏览(33)
  • 大数据技术原理与应用实验4——MapReduce初级编程实践

    链接: 大数据技术原理与应用实验1——熟悉常用的HDFS操作 链接: 大数据技术原理与应用实验2——熟悉常用的Hbase操作 链接: 大数据技术原理与应用实验3——NoSQL和关系数据库的操作比较 (1)通过实验掌握基本的MapReduce编程方法; (2)掌握用MapReduce解决一些常见的数据处理

    2024年02月06日
    浏览(40)
  • 大型数据集处理之道:深入了解Hadoop及MapReduce原理

    在大数据时代,处理海量数据是一项巨大挑战。而Hadoop作为一个开源的分布式计算框架,以其强大的处理能力和可靠性而备受推崇。本文将介绍Hadoop及MapReduce原理,帮助您全面了解大型数据集处理的核心技术。 Hadoop简介 Hadoop是一个基于Google MapReduce论文和Google文件系统的分布

    2024年02月07日
    浏览(30)
  • 大数据技术原理及应用课实验5 :MapReduce初级编程实践

    目录 一、实验目的 二、实验平台 三、实验步骤(每个步骤下均需有运行截图) (一)编程实现文件合并和去重操作 (二)编写程序实现对输入文件的排序 (三)对给定的表格进行信息挖掘 四、实验总结 五、优化及改进(选做) 实验5  MapReduce初级编程实践 1. 通过实验掌

    2024年01月21日
    浏览(37)
  • JAVASE进阶:强推!源码分析——字符串拼接底层原理、StringBuilder底层原理

    👨‍🎓作者简介:一位大四、研0学生,正在努力准备大四暑假的实习 🌌上期文章:JAVASE进阶:String常量池内存原理分析、字符串输入源码分析 📚订阅专栏:JAVASE进阶 希望文章对你们有所帮助 这是比较重要的内容,学习原理很重要,啃源码也很重要!!! 字符串 常量 的

    2024年02月20日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包