数据导入与预处理——实验一:数据导入与导出

这篇具有很好参考价值的文章主要介绍了数据导入与预处理——实验一:数据导入与导出。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、实验内容

目的: 掌握使用Kettle进行数据导入与导出的方法
主要仪器设备: 计算机、Kettle(PDI)、MySQL数据库

某连锁超市为了优化经营管理,拟搭建一个商务智能系统,来帮助企业管理团队更全面、专业的通过数据了解业务况状。目前公司有一个订单数据库,记录了每一笔订单的详细数据,包括以下字段:

【字段名称,订单编号,下单日期,销售点,支付方式,发货日期,物流时限,客户编号,客户名称,客户类型,客户城市,客户省份,客户地区,产品编号,产品名称,产品分类,产品细类,金额,数量,折扣,利润,推销员,是否退货,财政年度】

然而,各部门对数据的关注点不同,且各部门使用数据分析工具对数据的格式要求也不一样。因此,公司委托你开发一个数据转换系统,将订单数据库中的数据按照不同部门的需求进行转换和输出。各部门具体需求如下:

部门名称 销售部门 物流部门 客户关系部门 仓储部门 售后部门
输出字段 订单编号;销售点;支付方式;金额;数量;折扣;利润;推销员 订单编号;下单日期;发货日期;物流时限 订单编号;客户编号;客户名称;客户类型;客户城市;客户省份;客户地区 订单编号;产品编号;产品名称;产品分类;产品细类 订单编号;产品编号;客户编号;是否退货;金额
数据格式 .xlsx文件 .json文件 .csv文件 .xml文件 数据库表
命名规则 文件名:姓名拼音 文件名:姓名拼音 文件名:姓名拼音 文件名:姓名拼音 数据库表名:return
输出路径 输出文件路径为转换文件的当前目录
特殊要求 工作表名: 中文姓名 所有数据放到1个文件中 以逗号作为分隔符 以’订单编号’作为节点属性,其它字段作为节点内容 只导出[是否退货=1]的数据数据库表自行创建

任务一:搭建KETTLE项目开发环境
(1)在MySQL中创建kettledb数据库和orders表结构及数据
(2)在KTR中创建kettledb数据库连接, 数据库连接参数使用变量(命名参数)
任务二:销售数据导入和导出
(1)需提供转换步骤设计全图
(2)需提供主要转换步骤的关键配置项截图
(3)需提供新建数据库表的SQL语句或操作界面截图
(4)需提供转换执行结果截图
需提供输出的文件/数据库表内容的截图

二、任务一解答

1. 在MySQL中创建kettledb数据库和orders表结构及数据

利用Navicat连接数据库:

订单sql语句:见百度网盘:链接:[https://pan.baidu.com/s/1NbiWzWdm0EfCHBsLn3ucFA]
提取码:12ws

实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘

2. 在KETTLE SPOON中创建转换工程(KTR), 转换名称为个人姓名

利用spoon软件进行创建数据库连接:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘

任务二解答

1.转换设计全图

实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘

2. 销售数据表

表输入部分:
输入sql筛选语句:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
表输出部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
输出结果:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘

3. 物流部门数据表

表输入部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
表输出部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
输出结果:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘

4. 客户关系部门数据表

表输入部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
表输出部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
内容字段部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
输出结果:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘

5. 仓储部门数据表

表输入部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
表输出部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
内容字段部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
输出结果:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘

6. 售后部门数据表

退货表return表在navicat创建:

CREATE TABLE returnb (
  `订单编号` char(14) ,
  `客户编号` varchar(20) ,
  `产品编号` char(14) ,
  `金额` float ,
  `是否退货` tinyint(1) 
);

实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
退货表数据加载:
输入部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
输出部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
输出结果:

实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
输出文件如下:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘文章来源地址https://www.toymoban.com/news/detail-739008.html

到了这里,关于数据导入与预处理——实验一:数据导入与导出的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于Python的海量豆瓣电影、数据获取、数据预处理、数据分析、可视化、大屏设计项目(含数据库)

    项目介绍 有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主!!!!!!!!!! 本文基于Python的网络爬虫手段对豆瓣电影网站进行数据的抓取,通过合理的分析豆瓣网站的网页结构,并设计出规则来获取电影数据的JSON数据包,采用正态分布的延时措施

    2024年02月12日
    浏览(41)
  • Less预处理——继承、导入、条件表达式和函数

    1、extend 的使用 extend 是 Less 的一个伪类,它可继承所匹配声明中的全部样式 index.less 文件 index.css 文件 自动转义后的 css 文件内容如下 2、all 全局搜索替换 使用选择器匹配到的全部声明 index.less 文件 index.css 文件 自动转义后的 css 文件内容如下 3、减少代码的重复性

    2024年02月20日
    浏览(42)
  • 利用Matlab实现Abaqus有限元分析预处理器——从inp文件导入模型信息到自编Matlab有限元程序前处理

    大家好,我非常荣幸有这个机会和大家分享我在有限元分析方面的一些经验。我希望我的这篇文章能够帮助你在有限元分析领域获得更多的知识,提升你的技能。这篇文章主要介绍了如何使用Matlab实现一个有限元分析的预处理器,这个预处理器能够从Abaqus的 *.inp 文件中导入模

    2024年02月10日
    浏览(36)
  • 数据采集与预处理01: 项目1 数据采集与预处理准备

    数据采集:足够的数据量是企业大数据战略建设的基础,因此数据采集成为大数据分析的前站。数据采集是大数据价值挖掘中重要的一环,其后的分析挖掘都建立在数据采集的基础上。大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,

    2024年01月25日
    浏览(45)
  • 数据预处理matlab matlab数据的获取、预处理、统计、可视化、降维

    1.1 从Excel中获取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步确定导入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 对象, 再用 opts.Name=Value 的格式逐个添加。 例3: 将导入信息存到变量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月15日
    浏览(42)
  • 大数据采集技术与预处理学习一:大数据概念、数据预处理、网络数据采集

    目录 大数据概念: 1.数据采集过程中会采集哪些类型的数据? 2.非结构化数据采集的特点是什么? 3.请阐述传统的数据采集与大数据采集的区别? ​​​​​​​ ​​​​​​​4.大数据采集的数据源有哪些?针对不同的数据源,我们可以采用哪些不同的方法和工具? 数据

    2024年01月25日
    浏览(39)
  • 数据预处理之数据规约

    目录 一、前言 二、PCA的主要参数: 三、数据归约任务1 四、数据规约任务2 PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构

    2024年02月12日
    浏览(30)
  • 数据分析--数据预处理

    本文主要是个人的学习笔记总结,数据预处理的基本思路和方法,包括一些方法的使用示例和参数解释,具体的数据预处理案例case详见其他文章。如有错误之处还请指正! 目录 数据的质量评定 数据处理步骤 缺失值的处理 标记缺失值 删除 缺失值 填充 缺失值 重复值处理 异

    2024年02月04日
    浏览(46)
  • 十七、数据预处理(一)

    一、缺失值处理 缺失值就是由某些原因导致部分数据为空,对于为空的这部分数据我们一般有两种处理方式,一种是删除,即把含有缺失值的数据删除,另一种是填充,即把确实的那部分数据用某个值代替。 1、缺失值查看 对缺失值进行处理,首先要把缺失值找出来,也就是

    2024年02月11日
    浏览(36)
  • 数据清洗和预处理

    预计更新 一、 爬虫技术概述 1.1 什么是爬虫技术 1.2 爬虫技术的应用领域 1.3 爬虫技术的工作原理 二、 网络协议和HTTP协议 2.1 网络协议概述 2.2 HTTP协议介绍 2.3 HTTP请求和响应 三、 Python基础 3.1 Python语言概述 3.2 Python的基本数据类型 3.3 Python的流程控制语句 3.4 Python的函数和模

    2024年02月07日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包