大数据的4v特征、数据预处理

这篇具有很好参考价值的文章主要介绍了大数据的4v特征、数据预处理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、大数据的4v特征

大数据的4v特征主要包含规模性(Volume)、多样性(Variety)、高速性(Velocity)、价值性(Value)

1、规模性(Volume)

大数据中的数据计量单位是PB(1千个T)、EB(1百万个T)或ZB(10亿个T)。

2、多样性(Variety)

多样性主要体现在数据来源多、数据类型多和数据之间关联性强这三个方面。

①数据来源多,互联网和物联网的发展,带来了诸如社交网站、传感器等多种来源的数据。 而由于数据来源于不同的应用系统和不同的设备,决定了大数据形式的多样性。

②数据类型多,并且以非结构化数据为主。大数据中有70%-85%的数据是如图片、音频、视频、网络日志、链接信息等非结构化和半结构化的数据。

③数据之间关联性强,频繁交互,如游客在旅游途中上传的照片和日志,就与游客的位置、行程等信息有很强的关联性。

3、高速性(Velocity)

大数据对处理数据的响应速度有更严格的要求。实时分析而非批量分析,数据输入、处理与丢弃立刻见效,几乎无延迟。数据的增长速度和处理速度是大数据高速性的重要体现。

4、价值性(Value)

大数据背后潜藏的价值巨大。由于大数据中有价值的数据所占比例很小,而大数据真正的价值体现在从大量不相关的各种类型的数据中。挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,并运用于农业、金融、医疗等各个领域,以期创造更大的价值。      

5、大数据应用实例   

互联网是最早利用大数据进行精准营销的行业,通过大数据不仅可以为企业进行精准销,还可以快速友好地对用户实施个性化解决方案。          

医疗行业拥有大量的病例、病理报告、治愈方案、药物报告等。如果这些数据可以被整理和应用将会极大地帮助医生和病人。

二、数据预处理的主要内容

数据预处理主要包含数据清洗、数据集成、数据变换、数据归约。

1、数据清洗:删除原始数据集中无关数据、重复数据、平滑噪声数据,处理缺失值、异常值等。

大数据的4v特征、数据预处理

2、数据集成:将多个数据源合并存放在一个一致的数据存储中的过程。在数据集成时,来自多个数据源的现实世界实体的表达形式是不一样的,有可能不匹配,要考虑实体识别问题和属性冗余问题,从而将源数据在最低层上加以转换、提炼和集成。

大数据的4v特征、数据预处理

3、数据变换: 主要是对数据进行规范化处理,将数据转换成适当的形式,以适用于挖掘任务以及算法的需要。

大数据的4v特征、数据预处理

 4、数据归约:在大数据集上进行复杂的数据分析和挖掘需要很长时间。数据规约产生更小但保持原数据完整性的新数据集。

大数据的4v特征、数据预处理

以上简要介绍数据预处理中包含的内容,仅为自己学习需要,仅供参考。 文章来源地址https://www.toymoban.com/news/detail-469675.html

到了这里,关于大数据的4v特征、数据预处理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包