什么是大数据？Hadoop概述、Hadoop基础

这篇具有很好参考价值的文章主要介绍了什么是大数据？Hadoop概述、Hadoop基础。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

通俗来说就是海量的数据，但是也可泛指大数据技术、大数据行业、大数据应用等。

大数据技术，主要解决海量数据的存储和海量数据的分析计算问题。

数据采集：ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。
数据存取：关系数据库、NOSQL、SQL等
基础架构：云存储、分布式文件存储等
数据处理：
统计分析：假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析（最优尺度分析）、bootstrap技术等
数据挖掘：分类、估计、预测、相关性分组或关联规则、聚类、描述和可视化、复杂数据类型挖掘
模型预测：预测模型、机器学习、建模仿真
结果呈现：云计算、标签云、关系图等

什么是大数据？Hadoop概述、Hadoop基础

狭义来说，Hadoop是一个由apache基金会开发的分布式系统基础架构。

广义来说，Hadoop通常指的是Hadoop生态圈。这个生态圈围绕着海量数据的存储和分析计算而发展。

NameNode (NN)：

存储文件的元数据，如文件名、文件目录结构、文件属性（生成时间、副本数、文件权限等），以及每个文件的快列表和块所在的DataNode等
DataNode (DN)：

在本地文件系统存储文件块数据，以及块数据的校验。
Secondary NameNode (2NN)：

每隔一段时间对NameNode元数据备份。

MapReduce将计算过程分为两个阶段：Map和Reduce

sbin目录：存放启动或停止Hadoop相关服务的脚本

存放的是我们管理脚本的所在目录，重要是对hdfs和yarn的各种开启和关闭和单线程开启和守护

脚本名称	作用
hadoop-daemon.sh	通过执行hadoop命令来启动/停止一个守护进程(daemon)；他可以单独开启一个进程也可以使用hadoop-daemons来开启多个进程，这样我们在某台机器挂掉时，就不用全部重新开启了
start-all.sh	调用 start-dfs.sh和start-yarn.sh（官方不建议使用）
stop-all.sh	调用 stop-dfs.sh和stop-yarn.sh（官方不建议使用）
start-dfs.sh	启动NameNode、SecondaryNamenode、DataNode这些进程
start-yarn.sh	启动ResourceManager,nodeManager 这些进程
stop-dfs.sh	关闭NameNode、SecondaryNamenode、DataNode这些进程
stop-yarn.sh	关闭ResourceManager、nodeManager 这些进程
stop-balancer.sh	停止balancer
stop-mapred.sh	停止MapReduce

etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件

文件名称	作用
core-site.xml	Hadoop核心全局配置文件，可以其他配置文件中引用该文件中定义的属性，如在hdfs-site.xml及mapred-site.xml中会引用该文件的属性；该文件的模板文件存在于$HADOOP_HOME/src/core/core-default.xml，可将模板文件复制到conf目录，再进行修改。
hadoop-env.sh	Hadoop环境变量
hdfs-site.xml	HDFS配置文件，该模板的属性继承于core-site.xml；该文件的模板文件存于$HADOOP_HOME/src/hdfs/hdfs-default.xml，可将模板文件复制到conf目录，再进行修改
mapred-site.xml	MapReduce的配置文件，该模板的属性继承于core-site.xml；该文件的模板文件存于$HADOOP_HOME/src/mapred/mapredd-default.xml，可将模板文件复制到conf目录，再进行修改
yarn-site.xml	Yarn的相关配置