大数据核心技术概论

这篇具有很好参考价值的文章主要介绍了大数据核心技术概论。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大数据核心技术概述

大数据基石三大论文:GFS(Hadoop HDFS)、BigTable(Apache HBase)、MapReduce(Hadoop MapReduce)。

搜索引擎的核心任务:一是数据采集,也就是网页的爬取;二是数据搜索,也就是索引的构建。 数据采集离不开存储,索引的构建也需要大量计算,所以存储容器和计算能力贯穿搜索引擎的整个更迭过程。

Google在 2003/2004/2006 年相继发布谷歌分布式文件系统 GFS(被Hadoop HDFS借鉴)、大数据分布式计算框架 MapReduce(被Hadoop MapReduce借鉴)、大数据 NoSQL数据库 BigTable (被Apache Hbase借鉴),这三篇论文奠定了大数据技术的基石。

大数据基石三大论文——GFS

大数据核心技术概论,大数据,大数据

 GFS解决复杂工程问题的设计细节如下:

  • 简化系统元信息:Master 中维持了两个重要的映射,分别是文件路径到逻辑数据块,逻辑块与其多副本之间的关系。
  • 较大的数据块:选择了当时看来相当大的 64M 作为数据存储的基本单位,以此来减少元信息。
  • 放宽的一致性:允许多副本间内容不一致来简化实现、提高性能,通过读校验来保证损坏数据对用户不可见。
  • 高效副本同步:在多副本同步时分离控制流和数据流,利用网络拓扑提高同步效率。
  • 租约分散压力:Master 通过租约将部分权力下放给某个 Chunkserver ,负责某个块的多副本间的读写控制。
  • 追加并发优化:多客户端对同一文件进行并发追加,保证数据原子性及At Least Once的语义。
  • 快速备份支持:使用 COW(Copy on Write) 策略实现快照操作,并通过块的引用计数来进行写时拷贝。
  • 逐节点锁控制:对于每个操作,需要沿着文件路径逐节点获取读锁,叶子节点获取读锁或者写锁,当然文件路径会进行前缀压缩。
  • 异步垃圾回收:将数据删除与其他一些主节点的维护操作(损坏块清除,过期数据块移除)统一起来,成为一个定期过程。
  • 版本号标记:帮助客户端识别过期数据。
  • 数据块校验和:针对每 64KB 的小块打上 32 bit 的校验和。

大数据基石三大论文——BigTable

大数据核心技术概论,大数据,大数据

 大数据核心技术概论,大数据,大数据

大数据基石三大论文——MapReduce 

大数据核心技术概论,大数据,大数据

大数据技术体系——以Hadoop为例

Hadoop1.0

大数据核心技术概论,大数据,大数据

Hadoop2.0

大数据核心技术概论,大数据,大数据文章来源地址https://www.toymoban.com/news/detail-839866.html

Hadoop的优势 

  • 易用性(低成本):Hadoop开源,软件使用成本低;Hadoop可以运行在廉价机器构成的大型集群上,硬件使用成本低。
  • 高可靠性(高容错性):Hadoop能够保存数据的多个副本,自动检测处理节点失败的情况,并能够自动重新分配失败的任务。
  • 高效性:Hadoop能够在节点之间动态的移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
  • 高扩展性:Hadoop在计算机集群上分配数据并完成计算任务,计算机集群中可以增设节点。

到了这里,关于大数据核心技术概论的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据知识图谱解码:从核心概念到技术实战

    知识图谱是近年来人工智能和数据科学领域的焦点。本文深入探索了知识图谱的核心概念、发展历程、研究内容以及其在表示、存储、获取、构建和推理方面的技术细节。结合Python和PyTorch示例代码,文章旨在为读者提供一个全面、深入且实用的知识图谱概览,帮助广大技术爱

    2024年02月04日
    浏览(31)
  • 【大数据入门核心技术-Impala】(一)Impala简介

    目录 一、Impala介绍 二、Impala优势 三、Impala主要功能         Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程

    2024年02月16日
    浏览(26)
  • 《Hadoop核心技术》Hbase集群部署,创建表,删除表,插入数据,查询数据

    额前言:         我是一名正在学习《Hadoop核心技术》的学生,今天跟大家分享一下在虚拟机上在Hadoop集群中用Hbase进行简单的增删查 可以进行随机访问的存取和检索数据的存储平台         HBase 是一个开源的、分布式的、版本化的 NoSQL 数据库(也即非关系型数据库

    2024年02月03日
    浏览(33)
  • 【大数据入门核心技术-Doris】(三)Doris基本Shell和数据模型

    参考 【大数据入门核心技术-Doris】(二)Doris安装部署_forest_long的博客-CSDN博客 一、DCL 1、登录 mysql  -h FE_HOST -P9030 -uroot 2、修改密码 SET PASSWORD FOR \\\'root\\\' = PASSWORD(\\\'your_password\\\'); 3、创建新用户 CREATE USER \\\'test\\\' IDENTIFIED BY \\\'test_passwd\\\'; 后续登录时就可以通过下面链接命令登录: mysql

    2024年02月02日
    浏览(37)
  • 【大数据入门核心技术-ElasticSearch】(二)ElasticSearch整体架构和重要工作原理

    目录 一、整体架构图 二、重要工作原理 1、文档写入原理 2、文档检索原理

    2024年02月05日
    浏览(32)
  • 【大数据入门核心技术-Hadoop】(六)Hadoop3.2.1高可用集群搭建

    目录 一、Hadoop部署的三种方式 1、Standalone mode(独立模式) 2、Pseudo-Distributed mode(伪分布式模式) 3、Cluster mode(集群模式) 二、准备工作 1、先完成zk高可用搭建 2、/etc/hosts增加内容 3、各台服务器分别创建目录 4、关闭防火墙和禁用swap交换分区 5、三台机器间免密 6、安装

    2023年04月20日
    浏览(76)
  • 尚硅谷大数据技术Spark教程-笔记05【SparkCore(核心编程,累加器、广播变量)】

    视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01【SparkCore(概述、快速上手、运行环境、运行架构)】 尚硅谷大数据技术Spark教程-笔记02【SparkCore(核心编程,RDD-核心属性-执行原理-基础编程-并行度与分区-转换算子)】 尚硅

    2024年02月01日
    浏览(74)
  • 低代码信创开发核心技术(三):MDA模型驱动架构及元数据系统设计

    写最后一篇文章的时候,我本人其实犹豫了半年,在想是否发布出这篇文章,因为可能会动了很多人的利益。所以这篇文章既是整个低代码信创开发的高度总结,也是最为精华的一部分,它点明了低代码中最为核心的技术。虽然你在读这篇文章的时候会有犹抱琵琶半遮面的感

    2024年02月04日
    浏览(33)
  • 【数据库概论】第一章 数据库概论

    数据 数据是数据库中存储的基本对象,一般数据是描述事物的符号记录,这种符号记录可以输数字,也可以是文字、图形、音频等。 数据库 数据库是长期存储在计算机内有组织的,可共享的大量数据的集合。数据库中的数据按照一定的数据模型组织、描述和存储,基友较小

    2024年02月05日
    浏览(28)
  • 003 第一季SpringBoot2核心技术-核心功能2:数据访问、单元测试、指标监控、原理解析:@Value、命令行参数、手动获取bean、自定义starter

    说明 :在SpringBoot中想要操作数据库完成增删改差,按照以往的经验: 原理 : 首先 导入数据开发的场景starter(依赖)---- 这个场景会又会自动导入数据库相关的配置类---- 这个配置类又会导入相关的组件,如:数据源----》 数据源组件中又有相关的数据库配置项:用户名、密码

    2024年01月22日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包