大数据计算分析技术：批处理、流计算、OLAP引擎

9月前作者：青果HA 分类：Toy博客阅读(47) 违法举报

这篇具有很好参考价值的文章主要介绍了大数据计算分析技术：批处理、流计算、OLAP引擎。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

目录

一、批处理的基石：MapReduce

1.工作流程

2.实例分析

二、流计算的代表：storm、spark streaming和flink

1.storm

2.spark streaming

3.flink

4.storm、spark streaming和flink 对比

三、OLAP引擎：Hive、Impala、Presto

1.Hive

1）Hive系统架构

2）Hive和传统数据库的区别

四离线数据、批量计算、实时计算和流失计算的区别

大数据计算：指的是面向业务需求对海量数据的并行处理、分析和挖掘
大数据计算的手段：通过对海量数据分片、多个计算节点并行执行、实现高性能、高可靠的数据处理

大数据计算分析技术：批处理、流计算、OLAP引擎,大数据处理技术和大数据测试,批处理和流计算

一、批处理的基石：MapReduce

1.工作流程

思想是：分而治之，将一个大的数据集，拆分成多个小数据集，然后再多台机器上并行map和reduce

大数据计算分析技术：批处理、流计算、OLAP引擎,大数据处理技术和大数据测试,批处理和流计算

2.实例分析

大数据计算分析技术：批处理、流计算、OLAP引擎,大数据处理技术和大数据测试,批处理和流计算

两个数据块block1和block2，MapReduce启动两个map进行处理，分别读入数据
map函数对数据进行分词处理，输出<每个单词,1>
MapReduce框架进行shuffle操作，相同的key发送到同一个reduce进程，将相同的key和value 合并成一个列表，作为reduce的输入
reduce对1进行求和操作，得到每个单词的频次

二、流计算的代表：storm、spark streaming和flink

流计算：实时处理不同数据源、连续到达的流数据、分析处理输出有价值的分析结果

流计算特性：高性能、海量式、分布式、易用性、可靠性

1.storm

遵循主从结构，由1个主节点、协调集群zookeeper和1个或多个工作节点组成
主节点：负责资源分配（向工作节点分配计算任务）、任务调度和监控工作节点的状态
zookeeper：负责主节点和工作节点之间的所有协调工作
工作节点：接受主节点的任务，启动和暂停工作进程

大数据计算分析技术：批处理、流计算、OLAP引擎,大数据处理技术和大数据测试,批处理和流计算

2.spark streaming

将实时输入的数据按照时间进行分段，一个时间段的数据合并在一起，当作一批数据，交给spark处理
分段时间足够段，每段的数据量就比较小，这样的话 spark engine 对数据的处理速度足够快

驱动器：运行应用的main()函数
集群管理器：资源管理器，是主节点控制整个集群，监控工作节点
工作节点：计算节点，启动执行
执行器：某个应用运行在工作节点上的一个进程

大数据计算分析技术：批处理、流计算、OLAP引擎,大数据处理技术和大数据测试,批处理和流计算

3.flink

flink同时支持批处理和流计算
client提交任务给jobManger，jobManger再将各个任务调度到taskManger去执行，taskManger将心跳和统计信息汇总给jobManger，taskManger之间以流的形式进行数据传输
client：提交job的客户端，可以运行在任何机器上，只需要和jobManger环境打通即可，提交job后，可以结束进行并返回，也可以不结束进程直接结果返回
jobManger：负责调度job，协调task设置checkpoint
taskManger：启动的时候，设置好槽位（slot）数，每个slot只能启动一个线程task，从jobManger接受需要启动的task，并完成数据处理

大数据计算分析技术：批处理、流计算、OLAP引擎,大数据处理技术和大数据测试,批处理和流计算

4.storm、spark streaming和flink 对比

大数据计算分析技术：批处理、流计算、OLAP引擎,大数据处理技术和大数据测试,批处理和流计算

三、OLAP引擎：Hive、Impala、Presto

准实时或实时的大规模数管理和查询分析技术

1.Hive

建立在Hadoop之上的数据仓库，本身不存储和处理数据，当将MapReduce作为执行引擎时，Hive通过自身组件把HiveQL语句转化成MapReduce任务，快速实现数据仓库的分析统计

1）Hive系统架构

大数据计算分析技术：批处理、流计算、OLAP引擎,大数据处理技术和大数据测试,批处理和流计算

A. 用户接口模块：

a.用户可以直接使用Hive提供的CTL工具执行交互式的SQL语句

b.Hive提供了纯Java的JDBC驱动，使Java应用程序可以指定端口连接运行中的Hive服务器

c.用户可以通过web GUI即浏览器的方式输入SQL进行执行

B. 驱动模块：

包含编译器、优化器和执行器；对用户的输入内容进行解析、编译、计算优化，然后按照指定的步骤运行（启动MapReduce任务来执行）

C. 元数据模块：

存储在一个独立的关系型数据库中，通常使用Mysql或Derby数据库；元数据主要保存表模式和其他系统元数据，如表名称，表的列和属性，表的分区和属性及表属性和表中数据所在位置信息；

2）Hive和传统数据库的区别

大数据计算分析技术：批处理、流计算、OLAP引擎,大数据处理技术和大数据测试,批处理和流计算

四离线数据、批量计算、实时计算和流失计算的区别

大数据计算分析技术：批处理、流计算、OLAP引擎,大数据处理技术和大数据测试,批处理和流计算

文章来源地址https://www.toymoban.com/news/detail-569774.html

到了这里，关于大数据计算分析技术：批处理、流计算、OLAP引擎的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

mysql数据备份批处理文件正式版已测试通过

中心思想找到源文件（.ibd）备份到目的地成.sql文件 1.比如备份 test1和test2 表 2.加载部分表后续更新说明：备份的文件并非一定要求后缀名为.sql，例如后缀名为.txt的文件也是可以的。示范

2024年02月11日
浏览(66)
大数据-Spark批处理实用广播Broadcast构建一个全局缓存Cache

在Spark中，broadcast是一种优化技术，它可以将一个只读变量缓存到每个节点上，以便在执行任务时使用。这样可以避免在每个任务中重复传输数据。

2024年02月15日
浏览(53)
批处理命令大全 | Windows批处理教程 - ChatGPT

批处理以.bat或.cmd文件的形式存在，在Windows命令提示符下运行，也可以通过双击批处理文件来运行。批处理文件由一系列命令组成，可以按照顺序执行，也可以根据条件或循环控制选择性地执行。在Windows上创建一个批处理文件非常简单，在编辑器中输入一系列命令并保存为

2024年02月04日
浏览(87)
redis批处理优化

一个命令在网络传输的时间往往是远大于在redis中执行命令的时间的，如果每条命令都要逐条经历网络传输，耗时将会大大增加，我们不妨将命令多量少次的传输给redis，这样就大大减少了因为网络传输时间，大大提高的效率 2.1.单机模式下的批处理 2.2.集群模式下的批处理这

2024年01月19日
浏览(46)
Windows批处理

@ echo off ：关闭命令的回显功能，这样在执行脚本时不会显示每条命令的具体执行过程。建议将此行放在批处理脚本的首行。 rem ：用于添加注释，后面可以跟上注释内容。注释的作用是对脚本进行说明或提醒，不会被执行。 pause ：暂停批处理的运行，直到用户按下任意键才

2024年02月07日
浏览(50)
【Sql】sql server数据库提示：执行Transact-SQL语句或批处理时发生了异常。无法打开数据库msdb，错误：926。

【问题描述】打开sql server2008r2数据库的时候，系统提示执行Transact-SQL语句或批处理时发生了异常。无法打开数据库msdb，错误：926。【概念理解】首先MSDB数据库是的作用：用于给SQL Server代理提供必要的信息来运行调度警报、作业及记录操作。同时也会记录数据库的备份和

2024年02月04日
浏览(74)
JDBC p4 批处理

基本介绍：当需要成批插入或者更新记录时。可以采用Java的批量更新机制，这一机制允许多条语句一次性提交给数据库批量处理。通常情况下比单独提交处理更有效率。 JDBC的批量处理语句包括下面方法： addBatch()：添加需要批量处理的SQL语句或参数； executeBatch()：执行批量

2024年02月15日
浏览(42)
【bat】批处理脚本大全

目录 1.概述 2.变量 3.运算符 3.2.重定向运算符 3.3.多命名运算符 3.4.管道运算符 4.命令 4.1.基本命令 4.2.参数传递 4.3.查看脚本内容 4.4.注释 4.5.日期和时间 4.6.启动脚本 4.7.调用其他bat 4.8.任务管理 4.8.1.任务列表查看 4.8.2.任务终止 4.9.文件夹 4.10.关机 4.11.环境变量 4.12.目录 4.12.1

2024年02月04日
浏览(54)
BAT 批处理脚本教程

第一节常用批处理内部命令简介批处理定义：顾名思义，批处理文件是将一系列命令按一定的顺序集合为一个可执行的文本文件，其扩展名为BAT或者CMD。这些命令统称批处理命令。小知识：可以在键盘上按下Ctrl+C组合键来强行终止一个批处理的执行过程。了解了大概意思后

2024年02月02日
浏览(51)
初探Flink的Java实现流处理和批处理

端午假期，夏日炎炎，温度连续40度以上，在家学习Flink相关知识，记录下来，方便备查。开发工具：IntelliJ Idea Flink版本：1.13.0 本次主要用Flink实现批处理（DataSet API）和流处理（DataStream API）简单实现。第一步、创建项目与添加依赖 1）新建项目打开Idea，新建Maven项目

2024年02月10日
浏览(52)