Hadoop学习一(初识大数据)

这篇具有很好参考价值的文章主要介绍了Hadoop学习一(初识大数据)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一 什么是大数据?

二 大数据特征

三 分布式计算

四 Hadoop是什么?

五 Hadoop发展及版本

六 为什么要使用Hadoop

七 Hadoop vs. RDBMS

八 Hadoop生态圈

九 Hadoop架构 


一 什么是大数据?

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据技术要解决的问题:海量数据存储和海量数据计算

Hadoop学习一(初识大数据),大数据,hadoop,学习Hadoop学习一(初识大数据),大数据,hadoop,学习

 文章来源地址https://www.toymoban.com/news/detail-665840.html

二 大数据特征

  • 4V特征
    • Volume(大数据量):90% 的数据是过去两年产生
    • Velocity(速度快):数据增长速度快,
    • 时效性高 Variety(多样化):数据种类和来源多样化 结构化数据(如表形式的数据)、半结构化数据(如 json)、非结构化数据(如日志信息)
    • Value(价值密度低):需挖掘获取数据价值
  • 固有特征
    • 时效性
    • 不可变性

三 分布式计算

分布式计算将较大的数据分成小的部分进行处理。

传统分布式计算

新的分布式计算 - Hadoop

计算方式

将数据复制到计算节点

在不同数据节点并行计算

可处理数据量

小数据量

大数据量

CPU性能限制

受CPU限制较大

受单台设备限制小

提升计算能力

提升单台机器计算能力

扩展低成本服务器集群

 

四 Hadoop是什么?

  • Hadoop是一个开源分布式系统架构,解决海量数据存储和海量数据计算的问题
  • 处理海量数据的架构首选
  • 非常快得完成大数据计算任务
  • 已发展成为一个Hadoop生态圈

Hadoop学习一(初识大数据),大数据,hadoop,学习

五 Hadoop发展及版本

  •  Hadoop起源于搜索引擎Apache Nutch
    • 创始人:Doug Cutting
    • 2004年 - 最初版本实施
    • 2008年 - 成为Apache顶级项目
  • Hadoop发行版本
    • 社区版:Apache Hadoop
    • Cloudera发行版:CDH
    • Hortonworks发行版:HDP

六 为什么要使用Hadoop

  • 高扩展性
    • 在集群间分配任务数据,可方便的扩展数以千计的节点
  • 高可靠性
    • Hadoop底层维护多个数据副本
  • 高容错性
    • Hadoop框架能够自动将失败的任务重新分配
  • 低成本
    • Hadoop架构允许部署在廉价的机器上
  • 灵活,可存储任意类型数据
  • 开源,社区活跃

七 Hadoop vs. RDBMS

Hadoop与关系型数据库对比

RDBMS

Hadoop

格式

写数据时要求

读数据时要求

速度

读数据速度快

写数据速度快

数据监管

标准结构化

任意结构数据

数据处理

有限的处理能力

强大的处理能力

数据类型

结构化数据

结构化、半结构化、非结构化

应用场景

交互式OLAP分析

ACID事务处理

企业业务系统

处理非结构化数据

海量数据存储计算

 

八 Hadoop生态圈

 

九 Hadoop架构 

  • HDFS(Hadoop Distributed File System)
    • 分布式文件系统,解决分布式存储
  • MapReduce
    • 分布式计算框架
  • YARN
    • 分布式资源管理系统 在Hadoop 2.x中引入
  • Common
    • 支持所有其他模块的公共工具程序Hadoop学习一(初识大数据),大数据,hadoop,学习

     

到了这里,关于Hadoop学习一(初识大数据)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据Hadoop教程-学习笔记06【Hadoop生态综合案例:陌陌聊天数据分析】

    视频教程:哔哩哔哩网站:黑马大数据Hadoop入门视频教程,总时长:14:22:04 教程资源:https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g,提取码:6666 【P001-P017】大数据Hadoop教程-学习笔记01【大数据导论与Linux基础】【17p】 【P018-P037】大数据Hadoop教程-学习笔记02【Apache Hadoop、HDFS】【20p】

    2024年02月02日
    浏览(44)
  • 大数据学习-Hadoop

    1.大数据概念 现状分析:实时计算 原因分析:离线计算 预测分析:机器学习(对未来趋势进行预测) 2.分布式与集群 分布式:多台机器,不同组件 分布式存储,分布式集群,多台机器 集群:多台机器,相同组件 3.Hadoop(卡大爷创建) hadoop简介 4.docker搭建hadoop集群 hadoop-clust

    2024年02月05日
    浏览(34)
  • 大数据学习(1)-Hadoop

    大数据学习 🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门 💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞 Hadoop的运行机制基于分布式计算的概念,即将大规模的计算任务分解为多个小任务,并在多台计算机上并行处

    2024年02月07日
    浏览(30)
  • 【大数据学习篇2】Hadoop集群安装

    IP 机器名 root密码 用户名 密码 进程 192.168.20.44 master hd hd hd namenode,ResourceManager,SecondaryNameNode 192.168.20.45 slave01 hd hd hd datanode,NodeManager 192.168.20.46 slave02 hd hd hd datanode,NodeManager 密码统一设置成:hd 或者 123456 设置网卡为静态的地址 Linux常用的命令 使用vi编辑器,在/etc/profile增

    2024年02月04日
    浏览(49)
  • 大数据技术之Hadoop学习(七)——Hive数据仓库

    目录 素材 一、数据仓库简介 1、数据仓库的认识 (1)数据仓库是面向主题的。 (2)数据仓库是随时间变化的。 (3)数据仓库相对稳定 (4)OLTP和OLAP 2、数据仓库的结构 (1)数据源 (2)数据存储及管理 (3)OLAP 服务器 (4)前端工具 3、数据仓库的数据模型 (1)星状模

    2024年02月17日
    浏览(42)
  • 大数据学习第十二天(hadoop概念)

    1、服务器之间数据文件传递         1)服务器之间传递数据,依赖ssh协议         2)http协议是web网站之间的通讯协议,用户可已通过http网址访问到对应网站数据         3)ssh协议是服务器之间,或windos和服务器之间传递的数据的协议。支持shell指令的传输         4)在

    2024年04月14日
    浏览(40)
  • 大数据学习1 - hadoop环境搭建及操作

    目录 目录 一、什么是大数据? 二、什么是hadoop? 1.Hadoop核心组件 2.HDFS架构 3.MapReduce  3.Yarn架构  ​编辑  三、Hadoop的集群模式 1.完全分布模式  2.伪分布模式 3.独立模式 四、Hadoop创建伪分布式模式 1.获取安装Hadoop 2.修改Hadoop配置文件 3.启动hadoop 4.运行WerdCount测试 五、完全

    2024年02月03日
    浏览(46)
  • hadoop生态圈-- 个人笔记学习04 数据迁移

    数据迁移场景 冷热集群数据同步、分类存储 集群数据整体迁移 准实时同步 双备份 线上把集群切向B的同步集群 要素考量 bandwdith performance 1… 单机?分布式? data-increment 可以配合HDFS快照等技术实现增量数据同步。 syncable .数据指定周期内未完成同步,下一周期开始,无法做

    2024年02月12日
    浏览(48)
  • 0201hdfs集群部署-hadoop-大数据学习

    下面我们配置下单namenode节点hadoop集群,使用vmware虚拟机环境搭建。vmware虚拟机的配置,在下面链接2有,或者自行查阅文档。hadoop安装包可到官网下载,当前相关软件环境如下: 软件 版本 说明 hadoop 3.3.4 jar包 vmware 15.5 虚拟机 centos 7.6 服务器操作系统 xshell 6 远程连接 jdk 1.8

    2024年02月11日
    浏览(45)
  • 0401hive入门-hadoop-大数据学习.md

    Apache Hive是一个开源的数据仓库查询和分析工具,最初由Facebook开发,并后来捐赠给Apache软件基金会。Hive允许用户使用SQL语言来查询和分析存储在Hadoop分布式文件系统(HDFS)中的大规模数据集。它的设计目标是使非技术用户能够轻松地在Hadoop集群上执行数据查询和分析任务,

    2024年02月09日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包