数据采集与预处理01: 项目1 数据采集与预处理准备

这篇具有很好参考价值的文章主要介绍了数据采集与预处理01: 项目1 数据采集与预处理准备。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

数据采集与预处理01: 项目1 数据采集与预处理准备

数据采集与预处理01: 项目1 数据采集与预处理准备,机器学习与数学,大数据分析

任务1 认识数据采集技术,熟悉数据采集平台

数据采集:足够的数据量是企业大数据战略建设的基础,因此数据采集成为大数据分析的前站。数据采集是大数据价值挖掘中重要的一环,其后的分析挖掘都建立在数据采集的基础上。大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,从而分析和挖掘出有价值的信息,但前提是拥有大量的数据。

数据采集过程中涉及3个过程:数据的抽取Extract,数据的清洗转换Transform和数据的加载Load。英文缩写为ETL。

数据采集的来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。

数据采集的方法:

​ 数据采集的新方法有系统日志采集方法、网络数据采集方法等

​ 另外有网页数据采集的方法。

数据采集的过程基本步骤如下:

  1. 将需要抓取的数据网站的URL信息写入URL队列。
  2. 爬虫从URL队列中获取需要抓取数据网站的URL信息。
  3. 获取某个具体网站的网页内容。
  4. 从网页内容中抽取出该该网站正文页内容的链接地址。
  5. 从数据库中读取已经抓取国内容的网页地址。
  6. 过滤URL。对当前的URL和已经抓去过的URL进行比较。
  7. 如果该网页地址没被抓去过,则将该地址写入数据库。如果该地址已经被抓取过,则放弃对这个地址的抓取操作。
  8. 获取该地址的网页内容,并抽取出所需属性的内容值。
  9. 将抽取的网页内容写入数据库。

任务实施

  1. Scrapy系统环境搭建

Scrapy是Python开发的一个快速、高层次的屏幕抓取和Web抓取框架。支持多种类型的爬虫基类。

sudo apt-get install python-pip
pip install --upgrade pip
pip install scrapy

数据采集与预处理01: 项目1 数据采集与预处理准备,机器学习与数学,大数据分析

数据采集与预处理01: 项目1 数据采集与预处理准备,机器学习与数学,大数据分析

日志系统环境的搭建

  1. 安装Flume

Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输系统,支持在日志系统中定制各种数据发送方,用于收集数据。同时,Flume具有对数据进行简单处理,并写到各种数据接收方的能力。

Flume需要JDK环境,使用 java -version 命令查看系统是否配置了JDK环境

数据采集与预处理01: 项目1 数据采集与预处理准备,机器学习与数学,大数据分析

没有的话则需要下载安装。

接着下载flume。

https://flume.apache.org/

在官网下载。

数据采集与预处理01: 项目1 数据采集与预处理准备,机器学习与数学,大数据分析

然后执行解压与安装

cd 下载
sudo tar -zxvf apache-flume-1.11.0-bin.tar.gz -C /usr/local

数据采集与预处理01: 项目1 数据采集与预处理准备,机器学习与数学,大数据分析

cd usr/local
sudo chown 777 apache-flume-1.11.0-bin
sudo mv apache-flume-1.11.0-bin flume

  1. 配置环境变量

执行sudo gedit /etc/profile 命令

export FLUME_HOME=/usr/local/flume
export FLUME_CONF_DIR=$FLUME_HOME/conf
export PATH=$java_home/bin:$PATH:$FLUME_HOME/bin

使用source /etc/profile使其生效。

另外还要修改配置文件什么的,非常繁琐。

https://blog.csdn.net/qq_43452181/article/details/109187373

给个参考。

检测成果。

cd /usr/local/flume
./bin/flume-ng version

数据采集与预处理01: 项目1 数据采集与预处理准备,机器学习与数学,大数据分析

这样就行。

任务2 认识数据预处理技术

数据预处理是指在对数据进行数据挖掘的主要处理以前,先对原始数据进行必要的清理、集成、转换、离散、归约、特征选择和提取等一系列处理工作,达到挖掘算法进行知识获取、研究所要求的最低规范和标准。

数据预处理的常见问题:

  1. 数据采样 分为加权采样、随机采样和分层采样3类,其目的是从数据集中采集部分样本进行处理。
  2. 数据清理 ,清理技术通常包括填补遗漏的数据值、平滑有噪声数据、识别或者除去异常值。

​ 2.1 数据填充:包括人工填写、特殊值填充、平均值填充、热卡填充(就近填充)、k近邻填充。

​ 2.2 平滑噪声;分箱、回归、聚类

​ 2.3 数据集成: 实体识别、冗余和相关分析、元组重复、数据值冲突的检测与处理、数据转换、数据归约、特征选择和特征提取。

任务实施

搭建pig系统。

https://blog.csdn.net/m0_52595361/article/details/127930651

搭建kettle系统。

https://blog.csdn.net/lcy1619260/article/details/132540385文章来源地址https://www.toymoban.com/news/detail-822254.html

到了这里,关于数据采集与预处理01: 项目1 数据采集与预处理准备的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【数据采集与预处理】数据传输工具Sqoop

    目录 一、Sqoop简介 二、Sqoop原理 三、Sqoop安装配置 (一)下载Sqoop安装包并解压 (二)修改配置文件 (三)拷贝JDBC驱动 (四)验证Sqoop (五)测试Sqoop是否能够成功连接数据库 四、导入数据 (一)RDBMS到HDFS (二)RDBMS到HBase (三)RDBMS到Hive 五、导出数据 HDFS/Hive到RDBMS 六、

    2024年01月21日
    浏览(55)
  • YOLOv5训练自己的数据集(含数据采集、数据标注、数据预处理、借助colab训练)

    YOLOv5 github:GitHub - ultralytics/yolov5: YOLOv5 🚀 in PyTorch ONNX CoreML TFLite 先从github下载源码到本地,用pycharm打开工程   本次采集数据采用的方式是录取视频,然后用python截取视频帧当做图片,这是处理代码:   可以使用labelimg工具、make sense(Make Sense)在线标注,注意数据集需要与

    2024年02月05日
    浏览(92)
  • yolov2检测网数据集获取与预处理_采集健康和非健康猫狗数据

    阿里云天池数据集-cat-dog 因为开源数据库中没有非健康猫狗相关的,所以需要自己下载非健康猫狗数据,并制作数据集。 下面是用于爬取非健康猫狗数据的爬虫代码: 使用图片去重/相似图片清理利器 软件清除重复的图片数据。 使用ffmpeg将救助视频文件按照一秒截取一张

    2024年02月14日
    浏览(84)
  • 基于爬虫和Kettle的书籍信息采集与预处理

    将读书网上的书籍的基本信息,比如:封面、书名、作者、出版社、价格、出版时间、内容简介、作者简介、书籍目录、ISBN和标签爬取出来,并将爬取的结果放入数据库中,方便存储。     图1读书网书籍类别详情 此次实验爬取读书网页面中文学、小说、传记、青春文学、

    2024年01月21日
    浏览(54)
  • 基于爬虫和Kettle的豆瓣电影的采集与预处理

    将豆瓣电影网上的电影的基本信息,比如:电影名称、导演、电影类型、国家、上映年份、评分、评论人数爬取出来,并将爬取的结果放入csv文件中,方便存储。     图1豆瓣网网站结构详情 此次实验爬取豆瓣网中电影页面中的电影的基本信息。 每一个电影包括电影名称、

    2024年02月02日
    浏览(48)
  • 基于Python的海量豆瓣电影、数据获取、数据预处理、数据分析、可视化、大屏设计项目(含数据库)

    项目介绍 有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主!!!!!!!!!! 本文基于Python的网络爬虫手段对豆瓣电影网站进行数据的抓取,通过合理的分析豆瓣网站的网页结构,并设计出规则来获取电影数据的JSON数据包,采用正态分布的延时措施

    2024年02月12日
    浏览(62)
  • 数据预处理matlab matlab数据的获取、预处理、统计、可视化、降维

    1.1 从Excel中获取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步确定导入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 对象, 再用 opts.Name=Value 的格式逐个添加。 例3: 将导入信息存到变量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月15日
    浏览(56)
  • 数据分析--数据预处理

    本文主要是个人的学习笔记总结,数据预处理的基本思路和方法,包括一些方法的使用示例和参数解释,具体的数据预处理案例case详见其他文章。如有错误之处还请指正! 目录 数据的质量评定 数据处理步骤 缺失值的处理 标记缺失值 删除 缺失值 填充 缺失值 重复值处理 异

    2024年02月04日
    浏览(58)
  • 数据预处理之数据规约

    目录 一、前言 二、PCA的主要参数: 三、数据归约任务1 四、数据规约任务2 PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构

    2024年02月12日
    浏览(46)
  • 数据清洗和预处理

    预计更新 一、 爬虫技术概述 1.1 什么是爬虫技术 1.2 爬虫技术的应用领域 1.3 爬虫技术的工作原理 二、 网络协议和HTTP协议 2.1 网络协议概述 2.2 HTTP协议介绍 2.3 HTTP请求和响应 三、 Python基础 3.1 Python语言概述 3.2 Python的基本数据类型 3.3 Python的流程控制语句 3.4 Python的函数和模

    2024年02月07日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包