第1章 概述
1、简述大数据发展现状与历史
1.1.1国外发展现状
(1)国家及国际组织方面:
2009年,联合国就启动了“全球脉动计划”。
2009 年至今, 美国Data.gov(美国政府数据库)全面开放了40 万政府原始数据集, 大数据已成为美国国家创新战略、国家安全战略以及国家信息网络安全战略的交叉领域和核心领域。
2012 年3 月,美国政府提出“大数据研究和发展倡议”, 发起全球开放政府数据运动, 把大数据放在重要的战略位置。
英国政府也将大数据作为重点发展的科技领域。
2014 年7月,欧盟委员会也呼吁各成员国积极发展大数据, 迎接“大数据” 时代到来,并将采取具体措施发展大数据业务。
欧美等国家对大数据的探索和发展给予了及大地重视,各国政府已将大数据发展提升至战略高度。
(2)学术方面:
美国麻省理工大学计算机科学与人工智能实验室建立了大数据科学技术中心,且与多所大学合作,以此实现数据挖掘、共享、存储和操作大数据的解决方案。
英国牛津大学成立了首个综合运用大数据的医药卫生科研中心,该中心的成立有望带给英国医学研究和医疗服务的革命性变化。
欧洲核子中心也在匈牙利科学院魏格纳物理学研究中心建设了一座超宽带数据中心。
(3)企业方面:
IBM、Microsoft、EMC、DELL、HP 等信息技术企业纷纷提出了各自的大数据解决方案及应用技术。
1.1.2国内发展现状
(1)政府方面:
科技部“十二五”部署了关于物联网、云计算的相关专项。
地方政府也对大数据战略高度重视。
(2)学术方面:
在学术研究方面,国内许多高等院校和研究所开始成立大数据的研究机构. 与此同时,国内有关大数据的学术组织和活动也纷纷成立和开展。
1.1.3大数据发展历史
(1)几个单位
Megabyte(MB):210×210bytes
Gigabyte(GB):210×210×210bytes
Terabyte(TB):210×210×210×210bytes
Petabyte(PB):210×210×210×210×210bytes
Exabyte(EB):210×210×210×210×210×210bytes
(2)从Megabyte 到Gigabyte
20 世纪70 年代到80 年代,商业数据从Megabyte 达到Gigabyte的量级。
(3)从Gigabyte 到Terabyte
上世纪80 年代末,数字化的发展导致了数据容量从Gigabyte 达到Terabyte 级别。
(4)从Terabyte 到Petabyte
上世纪90 年代末,Web 1.0将人们带入了互联网时代。随之带来的是巨量的数据,半结构化和无结构的网页数据达到Petabyte 级。
(5)从Petabyte 到Exabyte
从现有趋势来看,存储和分析的数据将在不久后从Petabyte 级别达到Exabyte 级别。
2、大数据定义:
属性定义:“大数据技术描述了一个技术和体系的新时代,被设计于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值”。这个定义刻画了大数据的4 个显著特点, 即容量(volume)、多样性(variety)、速度(velocity) 和价值(value),即“4V”。
比较定义:超过了典型数据库软件工具捕获、存储、管理和分析数据能力的数据集”。这种定义是一种主观定义,没有描述与大数据相关的任何度量机制,但从时间和跨领域的角度来看,该定义中包含了一种发展的观点,说明了什么样的数据集才能被认为是大数据。
体系定义:美国国家标准和技术研究院NIST 则认为“大数据是指数据的容量、数据的获取速度或者数据的表示限制了使用传统关系方法对数据的分析处理能力, 需要使用水平扩展的机制以提高处理效率”。
3、大数据形式:结构化、半结构化和无结构化。
4、大数据主要应用领域有:智能电网、智慧医疗、物联网、公用事业、交通与物流、政治服务和政府监督等。
5、大数据所面临的挑战主要有:大数据管理、大数据清洗、大数据聚合、不平衡系统的容量、大数据的不平衡、大数据分析。
6、大数据机器学习:
数据流学习:在当前的实际应用中如传感器网络、信用卡交易、股票管理、博文以及网络流量产生了巨量的数据集。数据挖掘方法对于发现有趣的模式和提取隐藏在如此巨量数据集和数据集中的价值非常重要。
面临的挑战:传统的数据挖掘技术如关联挖掘、聚类和分类,当应用于动态环境中的大数据时,它缺乏效率、可扩展性和准确性。此外,输入数据流的多变性带来不可预测分布式事例的变化。这个变化影响了基于来自于过去事例的分类训练模型的精度。
深度学习:当前,在机器学习和模式识别中,深度学习是一个非常活跃的研究领域。在在诸如计算机视觉、语音识别和自然语言处理等预测分析应用中扮演着重要的角色。深度学习是解决数据分析和在巨量数据集中学习问题发现的强大工具。它有助于从大容量的、无监督的、以及非分类原始数据中自动地提取复杂问题的表达。
面临的挑战:(1)巨量的大数据的挑战
训练阶段对于一般大数据的学习是一个不容易的任务,尤其是深度学习。这是因为学习算法的迭代计算非常难于并行化。因此,依然需要产生有效的和可扩展的并行算法来改进深度模型的训练阶段。
(2)异构性挑战
高容量的数据对深度学习提出了巨大的挑战。这意味着处理大量的输入样本,种类繁多的输出类型、以及非常高的维度属性。因此,分析解决方案必须解决运行时间的复杂度和模型复杂度问题。另外,如此大的数据量使得用中央处理器和存储器来训练深度学习算法是不可行的。
(3)有噪标记以及非平稳分布的挑战
由于大数据的源分散性和异构性,深度学习依然要面对如数据不完整、标记丢失和有噪标记的其他挑战。
(4)高速性的挑战
数据以极快的速度产生并应实时处理。除了高速外,数据常常是非平稳的,并要面对时间分布的挑战。
增量学习和集成学习:增量学习和集成学习构成两种学习动态策略。他们是来自于具有概念漂移的大数据流的学习中的基本方法。增量学习和集成学习被频繁地应用于数据流和大数据中。他们克服了如处理数据的可用性、资源限制问题。
面临的挑战:此外,并不是所有的分类算法都可以用于增量学习,但是几乎所有的分类算法都可以应用到集成算法中。因此,建议将增量算法应用到无概念漂移或概念漂移是平滑的应用中。相反,推荐将集成算法应用到巨型概念漂移或突发概念漂移中的精度保证。
粒度计算:粒度计算在最近成为各种大数据领域中较为流行的应用。在智能数据分析、模式识别、机器学习和大数据集的不确定推理方面显示出了许多优点。
面临的问题:粒度计算可通过多种技术实现,如:模糊集、粗糙集、随机集等。模糊集技术提供了一个新颖的方式来研究并表示集合与集合中成员间的关系。这是通过考虑隶属度,即隶属函数(类似于人的识别)来实现的。模糊信息粒度是由粒度化对象导出的模糊粒度池,而不是单个的模糊粒度。
7、大数据与Hadoop生态系统的关系:Apache Hadoop是一个著名的大数据技术,其设计目标是:解决传统技术处理和分析大数据时所遇到低性能与复杂性。Hadoop是在并行的集群上和分布式文件系统上实现快速处理大数据集的。与传统技术不同,Hadoop不会在内存中复制整个远程数据来执行计算,而是在数据储存处执行任务。Hadoop还能在保证分布式环境中的容错性的同时高效地运行程序。为确保容错性,Hadoop通过复制服务器上的数据来防止数据丢失。
8、两个组件:Hadoop平台的能力主要基于两个组件:Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce框架。另外,用户可以根据需要,根据其目标以及应用需求(例如,容量、性能、可靠性、可扩展性、安全性)在Hadoop顶部添加模块。
(1)HDFS基于主—从架构。它将大数据分布到不同的集群中。事实上,集群拥有一个唯一的管理文件系统操作的主机(NameNode,名称节点)和许多管理和协调单个计算节点上的数据存储的从机(DataNodes,数据节点)。为了提供数据的可利用性,Hadoop依赖于数据备份。
(2)HBase是一个分布式非关系数据库。它是一个构建在HDFS之上的开源项目。是为低时延操作而设计的。HBase是基于面向列的键/值数据模型的。它具有支持高更新速率表和分布式集群水平扩展的能力。在BigTable的格式中,HBase提供了一个灵活的结构化的、能托管非常大的表的功能。
(3)MapReduce是由程序设计模型及其实现组成的一个框架,是新一代大数据管理和分析工具的第一个必要步骤之一。MapReduce通过它有效、经济的机制,简化了海量数据的处理。它使得所写的程序能够支持并行处理。
9、发行版本:IBM InfoSphere BigInsights旨在简化Hadoop在企业环境中的使用。它具有满足大数据存储,处理,高级分析和可视化方面的企业需求的潜力。IBM InfoSphere BigInsights的基本版包括HDFS、HBase、MapReduce、Hive、Mahout、Oozie、Pig、ZooKeeper、Hue和其他一些开源工具。
第2章 大数据系统基础
1、大数据架构四个部分:数据生成、数据获取、数据存储、数据分析
2、大数据系统三个层次:基础设施层、计算层和应用层。
这种分层结构对于大数据系统的分布式演进具有非常重要的意义,也就是只要能够保持各层间的输入、输出稳定即可实现分层演进。
3、大数据数据源:数据生成的模式可分为3个顺序的阶段,第一阶段,从20世纪90 年代开始。第二阶段,始于Web 系统的普及。第三阶段,由诸如智能手机、平板电脑、传感器和无线传感网络等移动设备的普及而引发。可以发现,数据生成模式是从第一阶段的被动记录到第二阶段的数据主动生成,再到第三阶段的自动生成。
这三个领域在对大数据的处理方面具有不同的技术需求。
(1)商业数据:近几十年来,信息技术和数字数据的应用对商业领域的繁荣发展起到了至关重要作用。
(2)网络数据:包括互联网、移动网络和物联网在内的网络已经成为人们的生活的一部分。如搜索、社交网络服务、电子邮件服务、即时通信和点击流等网络应用是典型的大数据源。
(3)科研数据:越来越多的科学应用正在产生海量的数据集,若干学科的发展极度依赖于对这些海量数据的分析。
4、大数据数据类型:结构化数据:关系数据;半结构化数据:XML数据;非结构化数据:词、PDF、文本、媒体日志。
5、非结构化数据例子:
卫星图像:这包括气象数据或政府捕获的卫星监测图像。只要想一下Google地球,你便可以获得图片。
科学数据:这包括地震图像、大气数据和高能物理数据。
照片和视频:这包括安全、监视和交通视频。
下面列举一些人类产生的非结构化数据的例子:
企业内部文本:考虑所有文本内的文档、日志、调查结果和e-mail。当今世界,企业信息实际上占据了文本信息的大部分比例。
社交媒体数据:该数据产自于社交媒体平台,如YouTube、Facebook、Twitter等。
移动数据:这包括如文本消息与位置信息等。
网站内容:这来自于任何其他网站传送的非结构化内容,如YouTube等。
6、大数据属性
美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)提出了大数据的5 种属性。(1)容量:数据集的大小;(2)速度:数据生成速率和实时需求。(3)多样性:结构化、半结构化和无结构的数据形式。(4)水平扩展性;合并多数据集的能力。(5)相关限制:包含特定的数据形式和查询。数据的特定形式包括时间数据和空间数据;查询则可以是递归或其他方式。
7、数据采集方法:传感器、日志文件和web 爬虫。
8、数据预处理:(1)数据集成(Data integration)由3个步骤构成:提取、变换和装载。(2)数据清洗(Data cleansing)数据清洗是指在数据集中发现不准确、不完整或不合理数据,并对这些数据进行修补或移除以此提高数据质量的过程。(3)冗余消除(Redundancy elimination)数据冗余是指数据的重复或过剩,这是许多数据集的常见问题。
9、云计算特点:廉价、剪裁、弹性、可靠性。与大数据的关系:数据存储解决的是大规模数据的持久存储和管理问题。为了分析存储的数据及其数据交互,存储系统应提供访问、操作功能接口、快速查询和其他编程模型。一般,由云计算承担数据存储的基础设施功能。文章来源:https://www.toymoban.com/news/detail-486628.html
10、大数据分析方法:结构化数据分析、文本分析、web 数据分析、多媒体数据分析、社交网络数据分析和移动数据分析。文章来源地址https://www.toymoban.com/news/detail-486628.html
到了这里,关于大数据技术⑤ |大数据第1章·概述|第2章·大数据系统基础|21:50~22:22的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!