数据导入与预处理——实验一:数据导入与导出

这篇具有很好参考价值的文章主要介绍了数据导入与预处理——实验一:数据导入与导出。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、实验内容

目的: 掌握使用Kettle进行数据导入与导出的方法
主要仪器设备: 计算机、Kettle(PDI)、MySQL数据库

某连锁超市为了优化经营管理,拟搭建一个商务智能系统,来帮助企业管理团队更全面、专业的通过数据了解业务况状。目前公司有一个订单数据库,记录了每一笔订单的详细数据,包括以下字段:

【字段名称,订单编号,下单日期,销售点,支付方式,发货日期,物流时限,客户编号,客户名称,客户类型,客户城市,客户省份,客户地区,产品编号,产品名称,产品分类,产品细类,金额,数量,折扣,利润,推销员,是否退货,财政年度】

然而,各部门对数据的关注点不同,且各部门使用数据分析工具对数据的格式要求也不一样。因此,公司委托你开发一个数据转换系统,将订单数据库中的数据按照不同部门的需求进行转换和输出。各部门具体需求如下:

部门名称 销售部门 物流部门 客户关系部门 仓储部门 售后部门
输出字段 订单编号;销售点;支付方式;金额;数量;折扣;利润;推销员 订单编号;下单日期;发货日期;物流时限 订单编号;客户编号;客户名称;客户类型;客户城市;客户省份;客户地区 订单编号;产品编号;产品名称;产品分类;产品细类 订单编号;产品编号;客户编号;是否退货;金额
数据格式 .xlsx文件 .json文件 .csv文件 .xml文件 数据库表
命名规则 文件名:姓名拼音 文件名:姓名拼音 文件名:姓名拼音 文件名:姓名拼音 数据库表名:return
输出路径 输出文件路径为转换文件的当前目录
特殊要求 工作表名: 中文姓名 所有数据放到1个文件中 以逗号作为分隔符 以’订单编号’作为节点属性,其它字段作为节点内容 只导出[是否退货=1]的数据数据库表自行创建

任务一:搭建KETTLE项目开发环境
(1)在MySQL中创建kettledb数据库和orders表结构及数据
(2)在KTR中创建kettledb数据库连接, 数据库连接参数使用变量(命名参数)
任务二:销售数据导入和导出
(1)需提供转换步骤设计全图
(2)需提供主要转换步骤的关键配置项截图
(3)需提供新建数据库表的SQL语句或操作界面截图
(4)需提供转换执行结果截图
需提供输出的文件/数据库表内容的截图

二、任务一解答

1. 在MySQL中创建kettledb数据库和orders表结构及数据

利用Navicat连接数据库:

订单sql语句:见百度网盘:链接:[https://pan.baidu.com/s/1NbiWzWdm0EfCHBsLn3ucFA]
提取码:12ws

实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘

2. 在KETTLE SPOON中创建转换工程(KTR), 转换名称为个人姓名

利用spoon软件进行创建数据库连接:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘

任务二解答

1.转换设计全图

实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘

2. 销售数据表

表输入部分:
输入sql筛选语句:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
表输出部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
输出结果:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘

3. 物流部门数据表

表输入部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
表输出部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
输出结果:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘

4. 客户关系部门数据表

表输入部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
表输出部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
内容字段部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
输出结果:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘

5. 仓储部门数据表

表输入部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
表输出部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
内容字段部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
输出结果:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘

6. 售后部门数据表

退货表return表在navicat创建:

CREATE TABLE returnb (
  `订单编号` char(14) ,
  `客户编号` varchar(20) ,
  `产品编号` char(14) ,
  `金额` float ,
  `是否退货` tinyint(1) 
);

实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
退货表数据加载:
输入部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
输出部分:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
输出结果:

实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘
输出文件如下:
实验一 数据库定义及数据导入,数据导入与预处理,数据库,大数据,数据挖掘文章来源地址https://www.toymoban.com/news/detail-739008.html

到了这里,关于数据导入与预处理——实验一:数据导入与导出的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于Python的海量豆瓣电影、数据获取、数据预处理、数据分析、可视化、大屏设计项目(含数据库)

    项目介绍 有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主!!!!!!!!!! 本文基于Python的网络爬虫手段对豆瓣电影网站进行数据的抓取,通过合理的分析豆瓣网站的网页结构,并设计出规则来获取电影数据的JSON数据包,采用正态分布的延时措施

    2024年02月12日
    浏览(62)
  • Less预处理——继承、导入、条件表达式和函数

    1、extend 的使用 extend 是 Less 的一个伪类,它可继承所匹配声明中的全部样式 index.less 文件 index.css 文件 自动转义后的 css 文件内容如下 2、all 全局搜索替换 使用选择器匹配到的全部声明 index.less 文件 index.css 文件 自动转义后的 css 文件内容如下 3、减少代码的重复性

    2024年02月20日
    浏览(51)
  • 利用Matlab实现Abaqus有限元分析预处理器——从inp文件导入模型信息到自编Matlab有限元程序前处理

    大家好,我非常荣幸有这个机会和大家分享我在有限元分析方面的一些经验。我希望我的这篇文章能够帮助你在有限元分析领域获得更多的知识,提升你的技能。这篇文章主要介绍了如何使用Matlab实现一个有限元分析的预处理器,这个预处理器能够从Abaqus的 *.inp 文件中导入模

    2024年02月10日
    浏览(50)
  • 数据采集与预处理01: 项目1 数据采集与预处理准备

    数据采集:足够的数据量是企业大数据战略建设的基础,因此数据采集成为大数据分析的前站。数据采集是大数据价值挖掘中重要的一环,其后的分析挖掘都建立在数据采集的基础上。大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,

    2024年01月25日
    浏览(65)
  • 数据预处理matlab matlab数据的获取、预处理、统计、可视化、降维

    1.1 从Excel中获取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步确定导入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 对象, 再用 opts.Name=Value 的格式逐个添加。 例3: 将导入信息存到变量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月15日
    浏览(56)
  • 大数据采集技术与预处理学习一:大数据概念、数据预处理、网络数据采集

    目录 大数据概念: 1.数据采集过程中会采集哪些类型的数据? 2.非结构化数据采集的特点是什么? 3.请阐述传统的数据采集与大数据采集的区别? ​​​​​​​ ​​​​​​​4.大数据采集的数据源有哪些?针对不同的数据源,我们可以采用哪些不同的方法和工具? 数据

    2024年01月25日
    浏览(54)
  • 数据分析--数据预处理

    本文主要是个人的学习笔记总结,数据预处理的基本思路和方法,包括一些方法的使用示例和参数解释,具体的数据预处理案例case详见其他文章。如有错误之处还请指正! 目录 数据的质量评定 数据处理步骤 缺失值的处理 标记缺失值 删除 缺失值 填充 缺失值 重复值处理 异

    2024年02月04日
    浏览(58)
  • 数据预处理之数据规约

    目录 一、前言 二、PCA的主要参数: 三、数据归约任务1 四、数据规约任务2 PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构

    2024年02月12日
    浏览(47)
  • 数据清洗和预处理

    预计更新 一、 爬虫技术概述 1.1 什么是爬虫技术 1.2 爬虫技术的应用领域 1.3 爬虫技术的工作原理 二、 网络协议和HTTP协议 2.1 网络协议概述 2.2 HTTP协议介绍 2.3 HTTP请求和响应 三、 Python基础 3.1 Python语言概述 3.2 Python的基本数据类型 3.3 Python的流程控制语句 3.4 Python的函数和模

    2024年02月07日
    浏览(53)
  • 十七、数据预处理(一)

    一、缺失值处理 缺失值就是由某些原因导致部分数据为空,对于为空的这部分数据我们一般有两种处理方式,一种是删除,即把含有缺失值的数据删除,另一种是填充,即把确实的那部分数据用某个值代替。 1、缺失值查看 对缺失值进行处理,首先要把缺失值找出来,也就是

    2024年02月11日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包