Hadoop学习一（初识大数据）

9月前作者：超爱慢分类：Toy博客阅读(31) 违法举报

这篇具有很好参考价值的文章主要介绍了Hadoop学习一（初识大数据）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

目录

一什么是大数据？

二大数据特征

三分布式计算

四 Hadoop是什么?

五 Hadoop发展及版本

六为什么要使用Hadoop

七 Hadoop vs. RDBMS

八 Hadoop生态圈

九 Hadoop架构

一什么是大数据？

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据技术要解决的问题：海量数据存储和海量数据计算

Hadoop学习一（初识大数据）,大数据,hadoop,学习

文章来源地址https://www.toymoban.com/news/detail-665840.html

二大数据特征

4V特征
- Volume(大数据量)：90% 的数据是过去两年产生
- Velocity(速度快)：数据增长速度快，
- 时效性高 Variety(多样化)：数据种类和来源多样化结构化数据（如表形式的数据）、半结构化数据（如 json）、非结构化数据（如日志信息）
- Value(价值密度低)：需挖掘获取数据价值
固有特征
- 时效性
- 不可变性

三分布式计算

分布式计算将较大的数据分成小的部分进行处理。

	传统分布式计算	新的分布式计算 - Hadoop
计算方式	将数据复制到计算节点	在不同数据节点并行计算
可处理数据量	小数据量	大数据量
CPU性能限制	受CPU限制较大	受单台设备限制小
提升计算能力	提升单台机器计算能力	扩展低成本服务器集群

四 Hadoop是什么?

Hadoop是一个开源分布式系统架构，解决海量数据存储和海量数据计算的问题
处理海量数据的架构首选
非常快得完成大数据计算任务
已发展成为一个Hadoop生态圈

Hadoop学习一（初识大数据）,大数据,hadoop,学习

五 Hadoop发展及版本

Hadoop起源于搜索引擎Apache Nutch
- 创始人：Doug Cutting
- 2004年 - 最初版本实施
- 2008年 - 成为Apache顶级项目
Hadoop发行版本
- 社区版：Apache Hadoop
- Cloudera发行版：CDH
- Hortonworks发行版：HDP

六为什么要使用Hadoop

高扩展性
- 在集群间分配任务数据，可方便的扩展数以千计的节点
高可靠性
- Hadoop底层维护多个数据副本
高容错性
- Hadoop框架能够自动将失败的任务重新分配
低成本
- Hadoop架构允许部署在廉价的机器上
灵活，可存储任意类型数据
开源，社区活跃

七 Hadoop vs. RDBMS

Hadoop与关系型数据库对比

	RDBMS	Hadoop
格式	写数据时要求	读数据时要求
速度	读数据速度快	写数据速度快
数据监管	标准结构化	任意结构数据
数据处理	有限的处理能力	强大的处理能力
数据类型	结构化数据	结构化、半结构化、非结构化
应用场景	交互式OLAP分析 ACID事务处理企业业务系统	处理非结构化数据海量数据存储计算

八 Hadoop生态圈

九 Hadoop架构

HDFS(Hadoop Distributed File System)
- 分布式文件系统，解决分布式存储
MapReduce
- 分布式计算框架
YARN
- 分布式资源管理系统在Hadoop 2.x中引入
Common
- 支持所有其他模块的公共工具程序

到了这里，关于Hadoop学习一（初识大数据）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

大数据Hadoop教程-学习笔记06【Hadoop生态综合案例：陌陌聊天数据分析】

视频教程：哔哩哔哩网站：黑马大数据Hadoop入门视频教程，总时长：14:22:04 教程资源：https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g，提取码：6666 【P001-P017】大数据Hadoop教程-学习笔记01【大数据导论与Linux基础】【17p】【P018-P037】大数据Hadoop教程-学习笔记02【Apache Hadoop、HDFS】【20p】

2024年02月02日
浏览(48)
大数据学习(1)-Hadoop

大数据学习 🔥系列专栏： 👑哲学语录: 承认自己的无知，乃是开启智慧的大门 💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞 Hadoop的运行机制基于分布式计算的概念，即将大规模的计算任务分解为多个小任务，并在多台计算机上并行处

2024年02月07日
浏览(33)
大数据学习-Hadoop

1.大数据概念现状分析：实时计算原因分析：离线计算预测分析：机器学习（对未来趋势进行预测） 2.分布式与集群分布式：多台机器，不同组件分布式存储，分布式集群，多台机器集群：多台机器，相同组件 3.Hadoop(卡大爷创建) hadoop简介 4.docker搭建hadoop集群 hadoop-clust

2024年02月05日
浏览(34)
【大数据学习篇2】Hadoop集群安装

IP 机器名 root密码用户名密码进程 192.168.20.44 master hd hd hd namenode,ResourceManager，SecondaryNameNode 192.168.20.45 slave01 hd hd hd datanode，NodeManager 192.168.20.46 slave02 hd hd hd datanode，NodeManager 密码统一设置成：hd 或者 123456 设置网卡为静态的地址 Linux常用的命令使用vi编辑器，在/etc/profile增

2024年02月04日
浏览(53)
大数据技术之Hadoop学习(七)——Hive数据仓库

目录素材一、数据仓库简介 1、数据仓库的认识（1）数据仓库是面向主题的。（2）数据仓库是随时间变化的。（3）数据仓库相对稳定（4）OLTP和OLAP 2、数据仓库的结构（1）数据源（2）数据存储及管理（3）OLAP 服务器（4）前端工具 3、数据仓库的数据模型（1）星状模

2024年02月17日
浏览(45)
大数据学习1 - hadoop环境搭建及操作

目录目录一、什么是大数据？二、什么是hadoop？ 1.Hadoop核心组件 2.HDFS架构 3.MapReduce 3.Yarn架构编辑三、Hadoop的集群模式 1.完全分布模式 2.伪分布模式 3.独立模式四、Hadoop创建伪分布式模式 1.获取安装Hadoop 2.修改Hadoop配置文件 3.启动hadoop 4.运行WerdCount测试五、完全

2024年02月03日
浏览(48)
hadoop生态圈-- 个人笔记学习04 数据迁移

数据迁移场景冷热集群数据同步、分类存储集群数据整体迁移准实时同步双备份线上把集群切向B的同步集群要素考量 bandwdith performance 1… 单机？分布式？ data-increment 可以配合HDFS快照等技术实现增量数据同步。 syncable .数据指定周期内未完成同步，下一周期开始，无法做

2024年02月12日
浏览(49)
0201hdfs集群部署-hadoop-大数据学习

下面我们配置下单namenode节点hadoop集群，使用vmware虚拟机环境搭建。vmware虚拟机的配置，在下面链接2有，或者自行查阅文档。hadoop安装包可到官网下载，当前相关软件环境如下：软件版本说明 hadoop 3.3.4 jar包 vmware 15.5 虚拟机 centos 7.6 服务器操作系统 xshell 6 远程连接 jdk 1.8

2024年02月11日
浏览(47)
大数据学习第十二天（hadoop概念）

1、服务器之间数据文件传递 1）服务器之间传递数据，依赖ssh协议 2）http协议是web网站之间的通讯协议，用户可已通过http网址访问到对应网站数据 3）ssh协议是服务器之间，或windos和服务器之间传递的数据的协议。支持shell指令的传输 4）在

2024年04月14日
浏览(41)
大数据学习02-Hadoop分布式集群部署

操作系统：centos7 软件环境：jdk8、hadoop-2.8.5 1.下载VMware,建议支持正版 2.安装到Widows目录下任意位置即可，安装目录自定义。打开VMware，界面如下： 3.创建虚拟机创建虚拟机—选择自定义这一步按照默认的配置就好选择系统，安装程序光盘映像文件iso，这里需要下载cenos镜像

2024年02月16日
浏览(63)