数据资源 | 为什么要做数据清洗?

这篇具有很好参考价值的文章主要介绍了数据资源 | 为什么要做数据清洗?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

数据资源 | 为什么要做数据清洗?

查看原文:【数据seminar】https://mp.weixin.qq.com/s/oWW3qdMxkzqqdwLUovK39g

Part  1

在回答这个问题之前,先讲讲数据的分类。通常我们所用的数据中,可以分为两类,一类是结构化数据(Structured Data),另一类是非结构化数据(Unstructured Data)

  • 结构化数据:信息能够用数据或统一的结构加以表示(通常可以使用关系型数据库表示和存储,表现为二维形式的数据),称之为结构化数据,如存储在excel里的数据。

数据资源 | 为什么要做数据清洗?

图源吴恩达老师deeplearning课程slides

  • 非结构化数据:信息无法用数字或统一的结构表示,称之为非结构化数据。包括所有格式的办公文档、文本、图片、图像和音频/视频信息等等。

数据资源 | 为什么要做数据清洗?

图源吴恩达老师deeplearning课程slides

此外,还有介于结构化数据与非结构化数据之间的半结构化数据(Semi-Structured Data)。其介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据。通常数据具有结构,但却不方便模式化。典型的半结构化数据为包括日志文件、XML文档、JSON文档、Email等。

Part  2

广义上的数据清洗是指对数据的全流程操作,具体包括数据抓取、提取、收集、筛选、增加、删除、修改、重组等一系列对数据的操作。

狭义上的数据清洗,是指将无效、错误的数据剔除掉,留下干净的数据的过程,涉及到对原有数据的删除、添加、分解、重组等内容。即去除冗余、消除噪音和错误及不一致的过程。

大数据时代,产生的数据多以非结构化数据为主,由于非结构化数据并不能直接为研究所用,因此多数情况下,需要将非结构结构化数据转化成结构化数据,而在这个过程中,就存在必要的数据清洗,将其转化成符合研究的数据格式。一个典型的案例就是在股票网站的新闻评论中提取语气词用以分析投资者情绪(沈艳、覃飞、陈赟,2020)。

数据清洗十分重要,大多数学者及学生都有这样的经历,在实证研究中,往往是搜集数据和数据清洗的过程中会花费大量时间,在真正写作的过程中反而花的时间更少。《纽约时报》更是直言数据清洗是看门人工作,数据科学家百分之八十的时间都花费在了这些清洗任务上

大到整个信息海洋,小到一份简单的财务报表信息,不同的研究领域,不同的研究方法都需要过滤掉无效信息数据后,才能利用剩余有效信息进行更符合主题的研究。在当今信息泛滥的时代,这种现象更是尤其突出。

数据清洗的重要性还体现在它直接影响了最终的研究结果。没有前期的数据清洗,后续的分析、建模等步骤将无从下手,即使强行进行,得到的结果也不一定准确。

Part  3

既然数据清洗如此重要,那么我们到底要对数据进行什么操作呢?

下图相信可以给大家一个较为清晰的印象。尽管具体的操作步骤在不同的数据源上有所差异,但大致思路总体不变,包含了数据格式、异常值、缺失值、逻辑关系等方面的清洗。

数据资源 | 为什么要做数据清洗?

Part  4

既然数据清洗这么麻烦,所以如果有那种直接统计好的、格式标准化的数据,那么对学者而言实在是一个好消息。这不仅可以让学者使用更加规范的数据,还能节约学者花在数据清洗上的时间使得“好钢用在刀刃上”,有更多的精力投入科研创作。

此前,由企研数据团队重点打造的CCAD数据库就为用户推出了第一批清洗成果,希望能为学者科研之路扫清数据清洗方面的障碍。(传送门:CCAD | 第一批数据清洗成果及代码正式公开)。

当然,这还远远不够。行政大数据以及从互联网抓取的数据都充满了不少脏数据,若要将其应用到科研领域,大量的清洗工作不可避免。

由于大数据的清洗工作难度远超一般微观数据,动辄几千万甚至上亿条的数据量对于普通学者而言,既耗时又费力还不讨好。

于是,我们推出了企研·学术大数据平台,希望为科研、智库领域的学者提供一份力所能及的帮助。在数据清洗方面,请放心,我们是专业的

企研·学术大数据平台由国家高新技术企业、专业为中国经济社会领域学术和智库研究提供大数据及相关配套服务的企研数据科技(杭州)有限公司负责开发。该大数据平台围绕重点学科领域或热点研究专题构建微观数据和统计数据、行政数据和行业数据,以及原始数据与构建变量相结合的专题数据库,为从事学术和智库研究的学者提供可靠、干净和持续更新的专题数据产品。

目前,该平台主要涵盖了CCAD、TFID两大专题数据库的统计数据以及其他公共数据资源,通过简单的筛选就可获得统计数据。

数据资源 | 为什么要做数据清洗?

截图自企研学术大数据平台

数据资源 | 为什么要做数据清洗?

截图自企研学术大数据平台

由于目前该平台还在施工中,更为详细的网站信息、操作方法以及试用/购买方式请继续关注我们,我们将在后续为您带来解读。

数据资源 | 为什么要做数据清洗?文章来源地址https://www.toymoban.com/news/detail-477404.html

到了这里,关于数据资源 | 为什么要做数据清洗?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 为什么企业要做大规模敏捷?

    软件工程里一个重要的指标就是“可用的软件”,敏捷宣言里也同样告诉我们“工作的软件高于详尽的文档”,那“可用的软件”、“工作的软件”意味着什么呢?在我的理解里,可以经历用户 “千锤百炼”的软件就是一个“可用的软件”。曾经听到过这样的说法:“一个有

    2023年04月27日
    浏览(45)
  • 架构篇03-为什么要做架构设计?

    谈到架构设计,相信每个技术人员都是耳熟能详,但如果深入探讨一下,“为何要做架构设计?”或者“架构设计目的是什么?”类似的问题,大部分人可能从来没有思考过,或者即使有思考,也没有太明确可信的答案。 关于架构设计的目的,常见的误区有: 因为架构很重

    2024年01月21日
    浏览(66)
  • 为什么要做黑盒测试?黑盒测试有什么作用?

    对于软件测试的从业者来说,黑盒测试是十分重要的测试方式,它可以弥补白盒测试检查不到的部分。可能刚刚入门的测试小白,对于为什么要做黑盒测试?黑盒测试有什么作用?仍然抱有很大的疑问。下面小编就来从黑盒测试的概念、作用和优点,带领大家全面认识黑盒测

    2024年02月05日
    浏览(50)
  • 伙伴云CEO戴志康:我们为什么要做伙伴云?

    分享嘉宾: 戴志康,伙伴云CEO 以下为演讲实录⬇⬇⬇ 01选择人更少的一条路,从B级走向A级 我一直想和大家交流一个话题,关于我们为什么要做伙伴云。既代表我自己,同时也代表我们团队的一些想法。 我是一个怀疑论者。大多数人公认正确的事情,就一定是正确的吗?这

    2024年02月16日
    浏览(45)
  • python接口自动化(二)--什么是接口测试、为什么要做接口测试(详解)

    上一篇和大家一起科普扫盲接口后,知道什么是接口,接口类型等,对其有了大致了解之后,我们就回到主题-接口测试。 接口测试是测试系统组件间接口的一种测试。接口测试主要用于检测外部系统与系统之间以及内部各个子系统之间的交互点。测试的重点是要检查数据的

    2024年02月10日
    浏览(57)
  • 企业为什么要做自动化测试?我们该如何学习自动化测试?

    作为一名大厂测试开发,编写自动化脚本,俨然成为一种必备的技能。 为什么要做自动化测试? 那企业或者是我们测试人员为什么要做自动化测试呢? 如果在前两年,可能10个测试员有6个都是做的功能测试,但随着测试技术的发展以及测试工作的深入,传统的手工测试已经

    2024年02月10日
    浏览(52)
  • 【二、自动化测试】为什么要做自动化测试?哪种项目适合做自动化?

    自动化测试是一种软件测试方法,通过编写和使用自动化脚本和工具,以自动执行测试用例并生成结果。 自动化旨在替代手动测试过程,提高测试效率和准确性。 自动化测试可以覆盖多种测试类型,包括功能测试、性能测试、安全测试等,以确保软件系统在各个方面的质量

    2024年02月02日
    浏览(56)
  • 阿里云/腾讯云国际站账号:私服游戏服务器:阿里云CTO周靖人:AI时代,为什么阿里云一定要做开源

    开源技术报告, 阿里云私服游戏服务器 怎么看待大模型的路径? 随着 Meta 的 Llama2 开源,开源模型,以及聚集大模型开发者的开源社区,正在发挥不可或缺的作用。 一个例子是,上个月 Hugging Face 得到了谷歌、亚马逊、英伟达、Salesforce、AMD、英特尔、IBM 和高通的共同投资。

    2024年02月06日
    浏览(63)
  • 【linux】/etc/security/limits.conf配置文件详解、为什么限制、常见限制查看操作

    /etc/security/limits.conf 是一个用于配置用户或用户组 资源限制 的配置文件。这个文件通常用于 设置系统资源的软限制和硬限制 ,以及一些特殊权限。 下面是一些 /etc/security/limits.conf 文件中可能包含的常见配置项: 描述 第一列表示用户和组(@开头),这里的 * 代表所有用户。

    2024年02月03日
    浏览(41)
  • 银河麒麟操作系统free查看服务器的内存,为什么比实际物理内存少很多?

    银河麒麟操作系统创建成功后,free -m命令查询内存大小,查询结果比实际物理内存小很多。 创建的虚拟机实际内存为8192M。系统内查询可用内存为6807M 使用 dmidecode -t memory 命令查看实际的硬件内存大小, free -m 查询系统内内存大小如下: 可以看到使用dmidecode -t memory查看的内

    2024年02月07日
    浏览(93)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包