一、大数据概述
1、大数据时代的数据特点
一般认为,大数据主要具有 四方面的典型特征——规模性(Volume)、多样性(Variety)、高速性(Velocity)和价值性(Value), 即所谓的"4V“。
- volume(大量):目前处理的数据量基本为PB、EB级别
- velocity(高速):在极短的一段时间内能产出大量数据(秒杀活动等)
- variety(多样):数据种类比较多,如日志文件、音频、视频、地理位置信息等
- value(低价值密度):数据本身的价值比较低,通过对数据分析出有价值的东西
(1)规模性:即大数据具有相当的规模,其数据量非常巨大。
淘宝网近4亿的会员每天产生的商品交易数据约20TB, Facebook (脸书)约10亿的用户每天产生的日志数据超过300TB。数据 的数量级别可划分为B、KB、MB、GB、TB、PB、EB、ZB等,而数据的数量级别为PB级别的 才能称得上是大数据。根据IDC公司的最新研究,未来10年,全球的数据总量将会增长50倍, 以此推算,数据产生的速度越来越快,而且数据总量将呈现指数型的爆炸式增长。
(2)多样性:即大数据的数据类型呈现多样性。文章来源:https://www.toymoban.com/news/detail-480651.html
数据类型繁多,不仅包括结构化数据,还包 括非结构化数据和半结构化数据。其中,结构化数据即音频、图片、文本、视频、网络日志、地理 位置信息等。传统的数据处理对象基本上都是结构化数据,而在现实中非结构化数据也是大量存在 的,所以既要分析结构化数据又要分文章来源地址https://www.toymoban.com/news/detail-480651.html
到了这里,关于CDH-CM大数据管理平台详解 附CDH离线安装包的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!