大数据技术⑤ |大数据第1章·概述|第2章·大数据系统基础|21:50~22:22

这篇具有很好参考价值的文章主要介绍了大数据技术⑤ |大数据第1章·概述|第2章·大数据系统基础|21:50~22:22。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

第1章 概述

1、简述大数据发展现状与历史

1.1.1国外发展现状

(1)国家及国际组织方面:

2009年,联合国就启动了“全球脉动计划”。

2009 年至今, 美国Data.gov(美国政府数据库)全面开放了40 万政府原始数据集, 大数据已成为美国国家创新战略、国家安全战略以及国家信息网络安全战略的交叉领域和核心领域。

2012 年3 月,美国政府提出“大数据研究和发展倡议”, 发起全球开放政府数据运动, 把大数据放在重要的战略位置。

英国政府也将大数据作为重点发展的科技领域。

2014 年7月,欧盟委员会也呼吁各成员国积极发展大数据, 迎接“大数据” 时代到来,并将采取具体措施发展大数据业务。

欧美等国家对大数据的探索和发展给予了及大地重视,各国政府已将大数据发展提升至战略高度。

(2)学术方面:

美国麻省理工大学计算机科学与人工智能实验室建立了大数据科学技术中心,且与多所大学合作,以此实现数据挖掘、共享、存储和操作大数据的解决方案。

英国牛津大学成立了首个综合运用大数据的医药卫生科研中心,该中心的成立有望带给英国医学研究和医疗服务的革命性变化。

欧洲核子中心也在匈牙利科学院魏格纳物理学研究中心建设了一座超宽带数据中心。

(3)企业方面:

IBM、Microsoft、EMC、DELL、HP 等信息技术企业纷纷提出了各自的大数据解决方案及应用技术。

1.1.2国内发展现状

(1)政府方面:

科技部“十二五”部署了关于物联网、云计算的相关专项。

地方政府也对大数据战略高度重视。

(2)学术方面:

在学术研究方面,国内许多高等院校和研究所开始成立大数据的研究机构. 与此同时,国内有关大数据的学术组织和活动也纷纷成立和开展。

1.1.3大数据发展历史

(1)几个单位

Megabyte(MB):210×210bytes

Gigabyte(GB):210×210×210bytes

Terabyte(TB):210×210×210×210bytes

Petabyte(PB):210×210×210×210×210bytes

Exabyte(EB):210×210×210×210×210×210bytes

(2)从Megabyte 到Gigabyte

20 世纪70 年代到80 年代,商业数据从Megabyte 达到Gigabyte的量级。

(3)从Gigabyte 到Terabyte

上世纪80 年代末,数字化的发展导致了数据容量从Gigabyte 达到Terabyte 级别。

(4)从Terabyte 到Petabyte

上世纪90 年代末,Web 1.0将人们带入了互联网时代。随之带来的是巨量的数据,半结构化和无结构的网页数据达到Petabyte 级。

(5)从Petabyte 到Exabyte

从现有趋势来看,存储和分析的数据将在不久后从Petabyte 级别达到Exabyte 级别。

2、大数据定义:

属性定义大数据技术描述了一个技术和体系的新时代,被设计于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值”。这个定义刻画了大数据的4 个显著特点, 即容量(volume)、多样性(variety)、速度(velocity) 和价值(value),即“4V”。

比较定义超过了典型数据库软件工具捕获、存储、管理和分析数据能力的数据集”。这种定义是一种主观定义,没有描述与大数据相关的任何度量机制,但从时间和跨领域的角度来看,该定义中包含了一种发展的观点,说明了什么样的数据集才能被认为是大数据。

体系定义美国国家标准和技术研究院NIST 则认为“大数据是指数据的容量、数据的获取速度或者数据的表示限制了使用传统关系方法对数据的分析处理能力需要使用水平扩展的机制以提高处理效率”。

3、大数据形式结构化、半结构化和无结构化。

4、大数据主要应用领域有:智能电网、智慧医疗、物联网、公用事业、交通与物流、政治服务和政府监督等。

5、大数据所面临的挑战主要有:大数据管理、大数据清洗、大数据聚合、不平衡系统的容量、大数据的不平衡、大数据分析。

6、大数据机器学习

数据流学习:在当前的实际应用中如传感器网络、信用卡交易、股票管理、博文以及网络流量产生了巨量的数据集。数据挖掘方法对于发现有趣的模式和提取隐藏在如此巨量数据集和数据集中的价值非常重要。

面临的挑战:传统的数据挖掘技术如关联挖掘、聚类和分类,当应用于动态环境中的大数据时,它缺乏效率、可扩展性和准确性。此外,输入数据流的多变性带来不可预测分布式事例的变化。这个变化影响了基于来自于过去事例的分类训练模型的精度。

深度学习:当前,在机器学习和模式识别中,深度学习是一个非常活跃的研究领域。在在诸如计算机视觉、语音识别和自然语言处理等预测分析应用中扮演着重要的角色。深度学习是解决数据分析和在巨量数据集中学习问题发现的强大工具。它有助于从大容量的、无监督的、以及非分类原始数据中自动地提取复杂问题的表达。

面临的挑战:(1)巨量的大数据的挑战

训练阶段对于一般大数据的学习是一个不容易的任务,尤其是深度学习。这是因为学习算法的迭代计算非常难于并行化。因此,依然需要产生有效的和可扩展的并行算法来改进深度模型的训练阶段。

(2)异构性挑战

高容量的数据对深度学习提出了巨大的挑战。这意味着处理大量的输入样本,种类繁多的输出类型、以及非常高的维度属性。因此,分析解决方案必须解决运行时间的复杂度和模型复杂度问题。另外,如此大的数据量使得用中央处理器和存储器来训练深度学习算法是不可行的。

(3)有噪标记以及非平稳分布的挑战

由于大数据的源分散性和异构性,深度学习依然要面对如数据不完整、标记丢失和有噪标记的其他挑战。

(4)高速性的挑战

数据以极快的速度产生并应实时处理。除了高速外,数据常常是非平稳的,并要面对时间分布的挑战。

增量学习和集成学习:增量学习和集成学习构成两种学习动态策略。他们是来自于具有概念漂移的大数据流的学习中的基本方法。增量学习和集成学习被频繁地应用于数据流和大数据中。他们克服了如处理数据的可用性、资源限制问题。

面临的挑战此外,并不是所有的分类算法都可以用于增量学习,但是几乎所有的分类算法都可以应用到集成算法中。因此,建议将增量算法应用到无概念漂移或概念漂移是平滑的应用中。相反,推荐将集成算法应用到巨型概念漂移或突发概念漂移中的精度保证。

粒度计算:粒度计算在最近成为各种大数据领域中较为流行的应用。在智能数据分析、模式识别、机器学习和大数据集的不确定推理方面显示出了许多优点。

面临的问题:粒度计算可通过多种技术实现,如:模糊集、粗糙集、随机集等。模糊集技术提供了一个新颖的方式来研究并表示集合与集合中成员间的关系。这是通过考虑隶属度,即隶属函数(类似于人的识别)来实现的。模糊信息粒度是由粒度化对象导出的模糊粒度池,而不是单个的模糊粒度。

7、大数据与Hadoop生态系统的关系Apache Hadoop是一个著名的大数据技术,其设计目标是:解决传统技术处理和分析大数据时所遇到低性能与复杂性。Hadoop是在并行的集群上和分布式文件系统上实现快速处理大数据集的。与传统技术不同,Hadoop不会在内存中复制整个远程数据来执行计算,而是在数据储存处执行任务。Hadoop还能在保证分布式环境中的容错性的同时高效地运行程序。为确保容错性,Hadoop通过复制服务器上的数据来防止数据丢失。

8、两个组件Hadoop平台的能力主要基于两个组件:Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce框架。另外,用户可以根据需要,根据其目标以及应用需求(例如,容量、性能、可靠性、可扩展性、安全性)在Hadoop顶部添加模块。

(1)HDFS基于主—从架构。它将大数据分布到不同的集群中。事实上,集群拥有一个唯一的管理文件系统操作的主机(NameNode,名称节点)和许多管理和协调单个计算节点上的数据存储的从机(DataNodes,数据节点)。为了提供数据的可利用性,Hadoop依赖于数据备份。

(2)HBase是一个分布式非关系数据库。它是一个构建在HDFS之上的开源项目。是为低时延操作而设计的。HBase是基于面向列的键/值数据模型的。它具有支持高更新速率表和分布式集群水平扩展的能力。在BigTable的格式中,HBase提供了一个灵活的结构化的、能托管非常大的表的功能。

(3)MapReduce是由程序设计模型及其实现组成的一个框架,是新一代大数据管理和分析工具的第一个必要步骤之一。MapReduce通过它有效、经济的机制,简化了海量数据的处理。它使得所写的程序能够支持并行处理。

9、发行版本IBM InfoSphere BigInsights旨在简化Hadoop在企业环境中的使用。它具有满足大数据存储,处理,高级分析和可视化方面的企业需求的潜力。IBM InfoSphere BigInsights的基本版包括HDFS、HBase、MapReduce、Hive、Mahout、Oozie、Pig、ZooKeeper、Hue和其他一些开源工具。


第2章 大数据系统基础

1大数据架构四个部分数据生成、数据获取、数据存储、数据分析

2大数据系统三个层次基础设施层、计算层和应用层。

这种分层结构对于大数据系统的分布式演进具有非常重要的意义,也就是只要能够保持各层间的输入、输出稳定即可实现分层演进。

3、大数据数据源数据生成的模式可分为3个顺序的阶段,第一阶段,从20世纪90 年代开始。第二阶段,始于Web 系统的普及。第三阶段,由诸如智能手机、平板电脑、传感器和无线传感网络等移动设备的普及而引发。可以发现,数据生成模式是从第一阶段的被动记录到第二阶段的数据主动生成,再到第三阶段的自动生成。

这三个领域在对大数据的处理方面具有不同的技术需求。

(1)商业数据:近几十年来,信息技术和数字数据的应用对商业领域的繁荣发展起到了至关重要作用。

(2)网络数据:包括互联网、移动网络和物联网在内的网络已经成为人们的生活的一部分。如搜索、社交网络服务、电子邮件服务、即时通信和点击流等网络应用是典型的大数据源。

(3)科研数据:越来越多的科学应用正在产生海量的数据集,若干学科的发展极度依赖于对这些海量数据的分析。

4、大数据数据类型结构化数据:关系数据;半结构化数据:XML数据;非结构化数据:词、PDF、文本、媒体日志。

5、非结构化数据例子

卫星图像:这包括气象数据或政府捕获的卫星监测图像。只要想一下Google地球,你便可以获得图片。

科学数据:这包括地震图像、大气数据和高能物理数据。

照片和视频:这包括安全、监视和交通视频。

下面列举一些人类产生的非结构化数据的例子:

企业内部文本:考虑所有文本内的文档、日志、调查结果和e-mail。当今世界,企业信息实际上占据了文本信息的大部分比例。

社交媒体数据:该数据产自于社交媒体平台,如YouTube、Facebook、Twitter等。

移动数据:这包括如文本消息与位置信息等。

网站内容:这来自于任何其他网站传送的非结构化内容,如YouTube等。

6、大数据属性

美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)提出了大数据的种属性。(1)容量:数据集的大小;(2)速度:数据生成速率和实时需求。(3)多样性:结构化、半结构化和无结构的数据形式。(4)水平扩展性;合并多数据集的能力。(5)相关限制:包含特定的数据形式和查询。数据的特定形式包括时间数据和空间数据;查询则可以是递归或其他方式。

7、数据采集方法传感器、日志文件和web 爬虫。

8、数据预处理(1)数据集成(Data integration)由3个步骤构成:提取、变换和装载。(2)数据清洗(Data cleansing)数据清洗是指在数据集中发现不准确、不完整或不合理数据,并对这些数据进行修补或移除以此提高数据质量的过程。(3)冗余消除(Redundancy elimination)数据冗余是指数据的重复或过剩,这是许多数据集的常见问题。

9、云计算特点廉价、剪裁、弹性、可靠性。与大数据的关系:数据存储解决的是大规模数据的持久存储和管理问题。为了分析存储的数据及其数据交互,存储系统应提供访问、操作功能接口、快速查询和其他编程模型。一般,由云计算承担数据存储的基础设施功能。

10、大数据分析方法结构化数据分析、文本分析、web 数据分析、多媒体数据分析、社交网络数据分析和移动数据分析。文章来源地址https://www.toymoban.com/news/detail-486628.html

到了这里,关于大数据技术⑤ |大数据第1章·概述|第2章·大数据系统基础|21:50~22:22的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 商城小程序源码开发流程、技术架构简述,商城系统前端代码分析

    小程序的兴起,为电商行业带来了全新的机遇。商城小程序源码的开发,是一项非常重要的技术工作。本文将从商城小程序的开发流程、技术架构、代码实现等方面进行讲解。 一、商城小程序的开发流程 商城小程序的开发流程包括需求分析、界面设计、后台开发、前端开发

    2024年02月10日
    浏览(28)
  • [架构之路-236]:目标系统 - 纵向分层 - 数据库 - 数据库系统基础与概述:三阶段模型(概念模型、逻辑模型、物理模型)、三级模式结构(外模式、模式、内模式)

    目录 一、数据库设计阶段性模型:概念模型、逻辑模型、物理模型 1.1 概念模型(Conceptual Model)- 业务模型: 实体:entity 属性或特征: key键值/码: 域(Domain): 实体类型:entity type 实体集合: 联系: 1.2 逻辑模型(Logical Model)- 内存模型(最核心): 1.3 物理模型(Phys

    2024年02月02日
    浏览(38)
  • Kubernetes概述架构与工作流程简述

    Kubernetes 是一个可移植、可扩展的开源平台,用于管理容器化的工作负载和服务,可促进声明式配置和自动化。 Kubernetes 拥有一个庞大且快速增长的生态,其服务、支持和工具的使用范围相当广泛。 Kubernetes 这个名字源于希腊语,意为“舵手”或“飞行员”。k8s 这个缩写是因

    2024年02月07日
    浏览(31)
  • 物联网智能家居系统概述和相关技术

        物联网的发展和形成方方面面涉及了很多相关的技术。随着物联网的逐渐成熟,物联网的分层体系也趋于统一,现阶段普遍接受一种三层结构的物联网,即由下至上依次为:感知层、网络层、应用层。   图1-1 物联网体系结构图 所以,物联网的相关技术也就大致分为3个方

    2024年02月06日
    浏览(44)
  • 大数据入门-大数据技术概述(一)

    大数据入门系列文章 大数据入门-大数据是什么 大数据技术是指在构架大数据平台的时候需要的技术。包含存储系统,数据库,数据仓库,资源调度,查询引擎,实时框架等。下面以我目前所了解到的一些技术做简要介绍。目前之介绍简单概念。 1.架构 Hadoop是一个由Apache基金

    2024年02月10日
    浏览(43)
  • 系统架构设计师笔记第28期:信息物理系统技术概述

    信息物理系统(Cyber-Physical Systems)是指将信息处理与物理过程相结合的系统。它是计算机科学、控制论、通信技术和物理学等多个领域的交叉学科,旨在通过将信息处理和计算能力与物理系统的感知、控制和执行能力相结合,实现更智能、自适应和高效的系统。 信息物理系

    2024年02月12日
    浏览(31)
  • 大数据技术栈概述

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 主要解决,海量数据的存储和海量数据的分析计算问题。 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 1.2.1 HDFS Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。 1.2.2 HDFS概述 1.2.3 HDFS优缺

    2023年04月08日
    浏览(29)
  • 【网络技术设备安全】BGP 基础与概述-2-中转 AS 中的 IBGP 路由传递

    参考该图: 上图,我们模拟一个 1.0 的路由通过 AS 65101 来传递 1:通过图可知,A 与 B 之间的 Peer 为 EBGP,B 与 E 之间为 Peer IBGP,E 与 F 之间为 Peer EBGP 邻接 2:A 通告 1.0 路由给 EBGP 邻居 B,那么 B 则跨 OSPF 路由 TCP 通信传递给 E,E再通过 EBGP 邻接关系传递给 F 注意:该路由为

    2024年02月04日
    浏览(42)
  • linuxOPS基础_操作系统概述

    第一台计算机是1946 年2 月14 日诞生日,第一台名称ENIAC。体积一间屋子的大小,重量高达28t。 第一代:1946 – 1958 = 12 年 (电子管) 第二代:1958 – 1964 = 6 年 (晶体管) 第三代:1964 – 1970 = 6 年 (集成电路) 第四代:1970 – 至今 (大规模集成电路) CPU、内存、风扇、硬盘

    2024年02月06日
    浏览(27)
  • 大数据技术之Spark(一)——Spark概述

    大数据技术之Spark(一)——Spark概述 Apache Spark是一个开源的、强大的分布式 查询和处理引擎 ,它提供MapReduce的灵活性和可扩展性,但速度明显要快上很多;拿数据存储在内存中的时候来说,它比Apache Hadoop 快100倍,访问磁盘时也要快上10倍。 Spark 是一种由 Scala 语言开发的快

    2024年02月14日
    浏览(26)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包