大数据核心技术概论

8月前作者：不要em0啦分类：Toy博客阅读(35) 违法举报

这篇具有很好参考价值的文章主要介绍了大数据核心技术概论。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

大数据核心技术概述

大数据基石三大论文：GFS（Hadoop HDFS）、BigTable（Apache HBase）、MapReduce（Hadoop MapReduce）。

搜索引擎的核心任务：一是数据采集，也就是网页的爬取；二是数据搜索，也就是索引的构建。数据采集离不开存储，索引的构建也需要大量计算，所以存储容器和计算能力贯穿搜索引擎的整个更迭过程。

Google在 2003/2004/2006 年相继发布谷歌分布式文件系统 GFS(被Hadoop HDFS借鉴)、大数据分布式计算框架 MapReduce（被Hadoop MapReduce借鉴）、大数据 NoSQL数据库 BigTable (被Apache Hbase借鉴)，这三篇论文奠定了大数据技术的基石。

大数据基石三大论文——GFS

大数据核心技术概论,大数据,大数据

GFS解决复杂工程问题的设计细节如下：

简化系统元信息：Master 中维持了两个重要的映射，分别是文件路径到逻辑数据块，逻辑块与其多副本之间的关系。
较大的数据块：选择了当时看来相当大的 64M 作为数据存储的基本单位，以此来减少元信息。
放宽的一致性：允许多副本间内容不一致来简化实现、提高性能，通过读校验来保证损坏数据对用户不可见。
高效副本同步：在多副本同步时分离控制流和数据流，利用网络拓扑提高同步效率。
租约分散压力：Master 通过租约将部分权力下放给某个 Chunkserver ，负责某个块的多副本间的读写控制。
追加并发优化：多客户端对同一文件进行并发追加，保证数据原子性及At Least Once的语义。
快速备份支持：使用 COW（Copy on Write）策略实现快照操作，并通过块的引用计数来进行写时拷贝。
逐节点锁控制：对于每个操作，需要沿着文件路径逐节点获取读锁，叶子节点获取读锁或者写锁，当然文件路径会进行前缀压缩。
异步垃圾回收：将数据删除与其他一些主节点的维护操作（损坏块清除，过期数据块移除）统一起来，成为一个定期过程。
版本号标记：帮助客户端识别过期数据。
数据块校验和：针对每 64KB 的小块打上 32 bit 的校验和。

大数据基石三大论文——BigTable

大数据核心技术概论,大数据,大数据

大数据核心技术概论,大数据,大数据

大数据基石三大论文——MapReduce

大数据核心技术概论,大数据,大数据

大数据技术体系——以Hadoop为例

Hadoop1.0

大数据核心技术概论,大数据,大数据

Hadoop2.0

大数据核心技术概论,大数据,大数据文章来源地址https://www.toymoban.com/news/detail-839866.html

Hadoop的优势

易用性（低成本）：Hadoop开源，软件使用成本低；Hadoop可以运行在廉价机器构成的大型集群上，硬件使用成本低。
高可靠性（高容错性）：Hadoop能够保存数据的多个副本，自动检测处理节点失败的情况，并能够自动重新分配失败的任务。
高效性：Hadoop能够在节点之间动态的移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
高扩展性：Hadoop在计算机集群上分配数据并完成计算任务，计算机集群中可以增设节点。

到了这里，关于大数据核心技术概论的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【大数据入门核心技术-Impala】（一）Impala简介

目录一、Impala介绍二、Impala优势三、Impala主要功能 Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程

2024年02月16日
浏览(35)
大数据知识图谱解码：从核心概念到技术实战

知识图谱是近年来人工智能和数据科学领域的焦点。本文深入探索了知识图谱的核心概念、发展历程、研究内容以及其在表示、存储、获取、构建和推理方面的技术细节。结合Python和PyTorch示例代码，文章旨在为读者提供一个全面、深入且实用的知识图谱概览，帮助广大技术爱

2024年02月04日
浏览(42)
《Hadoop核心技术》Hbase集群部署，创建表，删除表，插入数据，查询数据

额前言：我是一名正在学习《Hadoop核心技术》的学生，今天跟大家分享一下在虚拟机上在Hadoop集群中用Hbase进行简单的增删查可以进行随机访问的存取和检索数据的存储平台 HBase 是一个开源的、分布式的、版本化的 NoSQL 数据库（也即非关系型数据库

2024年02月03日
浏览(53)
【大数据入门核心技术-Doris】（三）Doris基本Shell和数据模型

参考【大数据入门核心技术-Doris】（二）Doris安装部署_forest_long的博客-CSDN博客一、DCL 1、登录 mysql -h FE_HOST -P9030 -uroot 2、修改密码 SET PASSWORD FOR \\\'root\\\' = PASSWORD(\\\'your_password\\\'); 3、创建新用户 CREATE USER \\\'test\\\' IDENTIFIED BY \\\'test_passwd\\\'; 后续登录时就可以通过下面链接命令登录： mysql

2024年02月02日
浏览(47)
【大数据入门核心技术-ElasticSearch】（二）ElasticSearch整体架构和重要工作原理

目录一、整体架构图二、重要工作原理 1、文档写入原理 2、文档检索原理

2024年02月05日
浏览(44)
【大数据入门核心技术-Hadoop】（六）Hadoop3.2.1高可用集群搭建

目录一、Hadoop部署的三种方式 1、Standalone mode（独立模式） 2、Pseudo-Distributed mode（伪分布式模式） 3、Cluster mode（集群模式）二、准备工作 1、先完成zk高可用搭建 2、/etc/hosts增加内容 3、各台服务器分别创建目录 4、关闭防火墙和禁用swap交换分区 5、三台机器间免密 6、安装

2023年04月20日
浏览(88)
尚硅谷大数据技术Spark教程-笔记05【SparkCore（核心编程，累加器、广播变量）】

视频地址：尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01【SparkCore（概述、快速上手、运行环境、运行架构）】尚硅谷大数据技术Spark教程-笔记02【SparkCore（核心编程，RDD-核心属性-执行原理-基础编程-并行度与分区-转换算子）】尚硅

2024年02月01日
浏览(83)
低代码信创开发核心技术（三）：MDA模型驱动架构及元数据系统设计

写最后一篇文章的时候，我本人其实犹豫了半年，在想是否发布出这篇文章，因为可能会动了很多人的利益。所以这篇文章既是整个低代码信创开发的高度总结，也是最为精华的一部分，它点明了低代码中最为核心的技术。虽然你在读这篇文章的时候会有犹抱琵琶半遮面的感

2024年02月04日
浏览(49)
【数据库概论】第一章数据库概论

数据数据是数据库中存储的基本对象，一般数据是描述事物的符号记录，这种符号记录可以输数字，也可以是文字、图形、音频等。数据库数据库是长期存储在计算机内有组织的，可共享的大量数据的集合。数据库中的数据按照一定的数据模型组织、描述和存储，基友较小

2024年02月05日
浏览(42)
003 第一季SpringBoot2核心技术-核心功能2：数据访问、单元测试、指标监控、原理解析：@Value、命令行参数、手动获取bean、自定义starter

说明：在SpringBoot中想要操作数据库完成增删改差，按照以往的经验：原理：首先导入数据开发的场景starter(依赖)---- 这个场景会又会自动导入数据库相关的配置类---- 这个配置类又会导入相关的组件，如：数据源----》数据源组件中又有相关的数据库配置项：用户名、密码

2024年01月22日
浏览(40)