探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维

这篇具有很好参考价值的文章主要介绍了探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一 数据导论

  • 数据:一种可以被鉴别的对客观事件进行记录的符号。简单来说就是:对人类的行为及产生的事件的一种记录。
  • 数据的价值:数据的背后都会隐藏着巨大的价值,丰富的数据支撑可以让我们更好的了解,事和物在现实世界的运行规律

  • 大数据时代:当下时代已经是数据的时代,数据非常重要并且蕴含巨大的价值
  • 大数据技术栈:对超大规模的数据进行处理并挖掘出数据背后的价值的技术体系

二 大数据的诞生

  • 大数据的诞生和信息化以及互联网的发展是密切相关的。
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
  • 早期的计算机(上世纪70年代之前)大多数是相互独立的,各自处理各自的数据
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
  • 上世纪70年代后,逐步出现了基于TCP/IP协议的小规模的计算机互联互通。但多数是军事、科研等用途
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
  • 上世纪90年代左后,全球互联的互联网出现。个人、企业均可参与其中,真正逐步的实现了全球互联
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
  • 在2000年后,互联网上的商业行为剧增。在互联网参与者众多的前提下,商业公司、科研单位等,所能获得的数据量也是剧增。
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
  • 剧增的数据量,和羸弱的单机性能,让许多科技公司开始尝试以数量来解决问题。
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
  • 2008年之前,这些在当时较为”高端”的分布式技术基本上还处于大企业内部专用且不够成熟。
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
  • 2008年 Apache Hadoop开源广大企业拥有了成熟的、开源的、分布式数据处理解决方案

Apache Hadoop 是一款开源的分布式处理技术栈为业界提供了

  • 基于Hadoop HDFS的:分布式数据存储技术
  • 基于Hadoop MapReduce的:分布式数据计算技术
  • 基于Hadoop YARN的:分布式资源调度技术
    Apache Hadoop的出现具有非常重大的意义:
  • 为业界提供了”第一款”企业级开源大数据分布式技术解决方案
  • 从Hadoop开始,大数据体系逐步建成,各类大数据技术不断出现
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据

三 大数据概论

  • 大数据的出现,本质上是为了解决海量数据的处理难题。
  • 大数据就是:使用分布式技术完成海量数据的处理,得到数据背后蕴含的价值。
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
  • 狭义上:大数据是一类技术栈,是一种用来处理海量数据的软件技术体系。
  • 广义上:大数据是数字化时代、信息化时代的基础(技术)支撑,以数据为生活赋能。

3.1 大数据的5V特征

探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据

3.2 大数据的工作核心

  • 大数据的核心工作其实就是:从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据

四 大数据软件生态

探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
大数据的核心工作:

  • 存储:妥善保存海量待处理数据
  • 计算:完成海量数据的价值挖掘
  • 传输:协助各个环节的数据传输
  • 所以大数据软件生态也是围绕工作重心展开的

4.1 数据存储软件

  • Apache Hadoop - HDFS
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
    Apache Hadoop框架内的组件HDFS是大数据体系中使用最为广泛的分布式存储技术

  • Apache HBase
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
    Apache HBase是大数据体系内使用非常广泛的NoSQL KV型数据库技术HBase是基于HDFS之上构建的。

  • Apache KUDU
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
    Apache Kudu同样为大数据体系中使用较多的分布式存储引擎

  • 云平台存储组件
    各大云平台厂商也有相应的大数据存储组件,如阿里云的OSS、UCloud的US3、AWS的S3、金山云的KS3等等

4.2 数据计算软件

  • Apache Hadoop - MapReduce
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
    • Apache Hadoop的MapReduce组件是最早一代的大数据分布式计算引擎对大数据的发展做出了卓越的贡献

  • Apache Hive
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
    • Apache Hive是一款以SQL为要开发语言的分布式计算框架。其底层使用了Hadoop的MapReduce技术
    • Apache Hive至今仍活跃在大数据一线,被许多公司使用

  • Apache Spark
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
    • Apache Spark是目前全球范围内最火热的分布式内存计算引擎。是大数据体系中的明星计算产品

  • Apache Flink
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
    • Apache Flink同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算(流计算)领域,Flink占据了大多数的国内市场。

4.3 数据传输软件

  • Apache Kafka
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
    • Apache Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。
    • Apache Kafka在大数据领域也是明星产品

  • Apache Pulsar
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
    • Apache Pulsar同样是一款分布式的消息系统。在大数据领域同样有非常多的使用者。

  • Apache Flume
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
    • Apache Flume是一款流式数据采集工具,可以从非常多的数据源中完成数据采集传输的任务。

  • Apache Sqoop
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
    • Apache Sqoop是一款ETL工具,可以协助大数据体系和关系型数据库之间进行数据传输

五 Apache Hadoop概述

探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据

5.1 Apache Hadoop框架

  • Hadoop是Apache软件基金会下的顶级开源项目,用以提供:分布式数据存储、分布式数据计算、分布式资源调度为一体的整体解决方案。
  • Apache Hadoop是典型的分布式软件框架,可以部署在1台乃至成千上万台服务器节点上协同工作。个人或企业可以借助Hadoop构建大规模服务器集群,完成海量数据的存储和计算。

5.2 Hadoop的功能

  • 通常意义上,Hadoop是一个整体,其内部还会细分为三个功能组件,分别是:
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
  • Hadoop是一个集合了:存储、计算、资源调度为一体的大数据分布式框架

5.3 Hadoop的发展

  • Hadoop创始人:Doug Cutting
    探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据
  • Hadoop起源于Apache Lucene子项目:Nutch
    • Nutch的设计目标是构建一个大型的全网搜索引擎。
    • 遇到瓶颈:如何解决数十亿网页的存储和索引问题
  • Google三篇论文
    • 《The Google file system》:谷歌分布式文件系统GFS
    • 《MapReduce: Simplified Data Processing on Large Clusters》:谷歌分布式计算框架MapReduce
    • 《Bigtable: A Distributed Storage System for Structured Data》:谷歌结构化数据存储系统

探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据

5.4 Hadoop发行版本

探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维,大数据修炼之旅,分布式,大数据文章来源地址https://www.toymoban.com/news/detail-661378.html

  • Apache开源社区版本
  • 商业发行版本
    • CDH(Cloudera’s Distribution, including Apache Hadoop) Cloudera公司出品,目前使用最多的商业版
    • HDP(Hortonworks Data Platform),Hortonworks公司出品,目前被Cloudera收购
    • 星环,国产商业版,星环公司出品,在国内政企使用较多

到了这里,关于探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 分布式I/O,IT和OT融合少不了它

    长期以来信息技术IT和操作运营技术OT是相互隔离的,随着大数据分析和边缘计算业务的对现场级实时数据的采集需求,IT和OT有了逐渐融合的趋势。IT与OT融合,它赋予工厂的管理者监控运行和过程的能力大为增强,甚至可以预测到可能发生的任何意想不到的事件,未雨绸缪。

    2024年02月15日
    浏览(35)
  • 多传感器分布式融合算法——多传感器网络协同目标跟踪和定位

    应用: 原创不易,路过的各位大佬请点个赞 主要讲解算法:          多传感器集中式融合算法/分布式融合算法/序贯融合算法          多速率多传感器异步融合算法          多传感器网络分布式一致滤波 应用于: 多传感器网络协同跟踪/定位/导航 联系WX: ZB823618313    

    2024年01月20日
    浏览(50)
  • 【信息融合与状态估计】基于Kalman滤波和现代时间序列分析方法,利用集中式融合估计、分布式融合估计(按矩阵加权、按对角阵加权、按标量加权)、 协方差交叉融合等方法实现对状态的融合估计(Matlab)

    💥💥💞💞 欢迎来到本博客 ❤️❤️💥💥 🏆博主优势: 🌞🌞🌞 博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️ 座右铭: 行百里者,半于九十。 📋📋📋 本文目录如下: 🎁🎁🎁 目录 💥1 概述 📚2 运行结果 2.1 改进的CI融合估值器 2.2 基于现代时间

    2024年01月15日
    浏览(52)
  • 【分布式训练】基于Pytorch的分布式数据并行训练

    简介: 在PyTorch中使用DistributedDataParallel进行多GPU分布式模型训练 加速神经网络训练的最简单方法是使用GPU,它在神经网络中常见的计算类型(矩阵乘法和加法)上提供了比CPU更大的加速。随着模型或数据集变得越来越大,一个GPU很快就会变得不足。例如,像BERT和GPT-2这样的

    2024年02月17日
    浏览(49)
  • 分布式系统架构设计之分布式数据存储的扩展方式、主从复制以及分布式一致性

    在分布式系统中,数据存储的扩展是为了适应业务的增长和提高系统的性能。分为水平扩展和垂直扩展两种方式,这两种方式在架构设计和应用场景上有着不同的优势和局限性。 水平扩展是通过增加节点或服务器的数量来扩大整个系统的容量和性能。在数据存储领域,水平扩

    2024年02月03日
    浏览(70)
  • 分布式服务框架_Zookeeper--管理分布式环境中的数据

    安装和配置详解 本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础,最新的版本可以通过官网   http://hadoop.apache.org/zookeeper/ 来获取, Zookeeper 的安装非常简单,下面将从单机模式和集群模式两个方面介绍 Zookeeper 的安装和配置。 单机模式

    2024年02月12日
    浏览(39)
  • 解释什么是分布式数据库,列举几种常见的分布式数据库系统

    敏感信息和隐私保护是指在收集、存储和使用个人数据时,需要采取一系列措施来保护这些数据的安全和机密性,防止数据被未经授权的第三方访问、使用或泄露。这些措施包括加密、访问控制、数据脱敏、数据加密、隐私政策等。 在隐私保护的技术手段方面,常用的技术包

    2024年02月08日
    浏览(53)
  • 分布式系统架构设计之分布式数据存储的安全隐私和性能优化

    在前面分布式系统部分,有对安全性做过介绍,如前面所述,在分布式系统中,确保系统的安全性和隐私是至关重要的。安全性关注系统的防护措施,而隐私是关注用户的个人信息保护。 身份认证:确保用户和系统组件的身份是合法的,通过通过密码、令牌或证书实现 授权

    2024年02月02日
    浏览(57)
  • 分布式数据(文件)存储

    在分布式存储里面,比较常见的有kafka,Hbase,HDFS,fastDFS等,这里面涉及到文件的分布式存储以及数据的分布式存储。分布式存储的背景:就是将数据文件分散的存储到分布式集群的每一个节点,提升了存储的容量(大数据化);同时尽量凸显分布式的检索能力。分布式存储的原

    2024年02月07日
    浏览(46)
  • 【分布式】数据冗余

    当我们拥有了许多的存储服务器,且通过将数据在网关进行一致性哈希或者哈希桶的分发之后,我们拥有了一个具有基本负载均衡的系统,但是,此时我们又有新的问题产生了:我们所有的数据只有一份,如果这一份数据丢失了,将造成不可逆的后果,因此,我们要考虑将数

    2024年02月02日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包