这篇具有很好参考价值的文章主要介绍了【新星计划】Hadoop入门介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。
目录
一、 大数据概述
1.1 大数据是什么
1.2 大数据的特点
1.3大数据的应用场景
1.4 大数据生态圈
1.5 开发工具补充:
二、 Hadoop介绍
2.1 Hadoop是什么
2.2 Hadoop的背景
2.3 Hadoop就业前景
一、 大数据概述
1.1 大数据是什么
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、
管理
和处理的数据集合。
大数据技
术,是指从各种各样类型的
数据
中,快速获得有价值信息的
能力
。适用于大数据的
技术
,包括大规模并行处理(MPP
)数据库,数据挖掘电网,
分布式文件系统
,分布式数据库,
云计算平台
,
互联网
,和可 扩展的存储系统。
大数据主要解决的问题是:采集
,
存储
,
处理
。
1.2 大数据的特点
具体来说,大数据的基本特征可以归纳为
4V
:
一是数据体量巨大(Volume
)。
百度资料表明,其新首页导航每天需要提供的数据超过
1.5PB
(
1PB=1024TB
),这些数据如果打印出来将超过
5
千亿张
A4
纸。有资料证实,到目前为止,人类生产的所有印刷材料的
数据量
仅为
200PB
。
数据量单位
二是多样性(Variety
)。
现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。另一方面,数据的来源的是多样性的,我们采集的数据它通过不同的渠道,不同平台产生的多样化。
三是处理速度快(Velocity
)。
数据处理遵循
“1
秒定律
”
,可从各种类型的数据中快速获得高价值的信息。
四是价值密度低(Value
)。
以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。
1.3大数据的应用场景
众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。大数据技术可以帮助您处理从客户体验到分析的一系列业务活动。这里仅举几例。
1. 可视化分析。大数据分析的使用者有大数据分析专。家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
2. 产品开发。
Netflix
和宝洁(
Procter & Gamble
)等公司使用大数据来预测客户需求。他们通过对过去和当前产品或服务的关键属性进行分类,并对这些属性与产品的商业成功之间的关系进行建模,为新产品和服务构建预测模型。此外,宝洁使用来自焦点小组、社交媒体、测试市场和早期商店推出的数据和分析来规划、生产和推出新产品。
3. 客户体验。
争夺客户的竞赛正在进行中。现在比以往任何时候都更有可能更清楚地了解客户体验。大数据使您能够从社交媒体、Web
访问、通话记录和其他来源收集数据,以改善交互体验并最大化交付的价值。开始提供个性化优惠,减少客户流失,并主动处理问题。
4. 机器学习。
机器学习是目前的热门话题。数据(尤其是大数据)是原因之一。我们现在能够教机器,而不是给它们编程。大数据的可用性用于训练机器学习模型使这成为可能。
1.4 大数据生态圈
数据采集工具:
日志收集框架:
Flume
、
Logstash
、
Filebeat
数据迁移工具:
Sqoop
数据存储工具:
分布式文件存储系统:
Hadoop HDFS
数据库系统:
Mongodb
、
HBase
数据处理工具:
分布式计算框架:
批处理框架:Hadoop MapReduce
流处理框架:Storm
混合处理框架:Spark
、
Flink
查询分析框架
:
Hive
、
Spark SQL
、
Flink SQL
、
Pig
、
Phoenix
资源和任务管理:集群资源管理器
:
Hadoop YARN
分布式协调服务:
Zookeeper
任务调度框架:
Azkaban
、
Oozie
集群部署和监控:
Ambari
、
Cloudera Manager
上面列出的都是比较主流的大数据框架,社区都很活跃,学习资源也比较丰富。建议从
Hadoop
开始入门学习,因为它是整个大数据生态圈的基石,其它框架都直接或者间接依赖于 Hadoop
。
1.5 开发工具补充:
大数据生态圈中有非常多组件是使用Java
进行开发,因此学习大数据的过程比较多使用
Java
语言进行开发。除此之外,大数据讲究的就是分布式数据的存储与处理,因此在学习大数据框架的过程中需要用虚拟机搭建集群和服务,并要连接集群中的服务器进行操作。这里推荐一些大数据学习常用的开发工具:
JavaIDE
:
IDEA
、
Eclipse
。
虚拟机管理软件:
VMWare
、
VirtualBox
、
VMWare Fusion
终端连接工具:
MobaXterm
、
Xshell
二、 Hadoop介绍
2.1 Hadoop是什么
1.
Apache Hadoop
是
Apache
软件基金会下用
Java
语言开发的一个
开源分布式系统基础架构平台
。。
2. Hadoop
提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对
海量数据进行分布式处理 。
3. Hadoop
的核心组件有:
1. HDFS
(
Hadoop Distributed File System
): 分布式文件系统,提供对应用程序数据的高吞吐量访问。
2. YARN
:任务分配和集群资源管理调度模块。
3. MapReduce
:基于
Hadoop Yarn
,为大数据提供并行计算的模块。
4. 广义上来说,
Hadoop
通常是指一个更广泛的概念
——Hadoop
生态圈
2.2 Hadoop的背景
1. Hadoop
最早起源于
Nutch
。
Nutch
的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、 索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题
——
如何解决数十亿网页的存储和索引 问题。
2. 2003-2004
年,
谷歌发表的两篇论文为该问题提供了可行的解决方案
。
---分布式文件系统(
GFS
),可用于处理海量网页的
存储
。
---分布式计算框架
MapReduce
,可用于处理海量网页的
索引计算
问题。
3. Nutch
的开发人员完成了相应的
开源实现
HDFS
和
MapReduce
,并从
Nutch
中剥离成为独立项目Hadoop
,到
2008
年
1
月,
Hadoop
成为
Apache
顶级项目,迎来了它的快速发展期。
2.3 Hadoop就业前景
Hadoop
就业整体情况
大数据产业已纳入国家十三五规划
各大城市都在进行智慧城市项目
建设,而智慧城市的根基就是大数据综合平台
互联网时代数据的种类,增长都呈现爆发式增长
,各行业对数据的价值日益重视
相对于传统 JAVAEE
技术领域来说,大数据领域的
人才相对稀缺
随着现代社会的发展,数据处理和数据挖掘的重要性只会增不会减,因此,大数据技术是一个尚在蓬勃发展且具有长远前景的领域
Hadoop
就业职位要求
大数据是个复合专业,包括应用开发、软件平台、算法、数据挖掘等,因此,
大数据技术领域的就
业选择是多样的
,但就
Hadoop
而言,通常都需要具备以下技能或知识:
Hadoop 分布式集群的平台搭建
Hadoop 分布式文件系统
HDFS
的原理理解及使用
Hadoop 分布式运算框架
MapReduce
的原理理解及编程
Hive 数据仓库工具的熟练应用
Flume、
sqoop
、
oozie
等辅助工具的熟练使用
Shell/python 等脚本语言的开发能力
Hadoop
相关职位的薪资水平
大数据技术或具体到
Hadoop
的就业需求目前主要集中在北上广深一线城市,
薪资待遇普遍高于传
统
JAVAEE
开发人员
,以广州为例:
关注博主下篇更精彩
一键三连!!!
一键三连!!!
一键三连!!!
感谢一键三连!!!
文章来源:https://www.toymoban.com/news/detail-521633.html
文章来源地址https://www.toymoban.com/news/detail-521633.html
到了这里,关于【新星计划】Hadoop入门介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!