一文了解大数据生态

9月前作者：程序员白总分类：Toy博客阅读(38) 违法举报

这篇具有很好参考价值的文章主要介绍了一文了解大数据生态。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

大数据一词最早指的是传统数据处理应用软件无法处理的过于庞大或过于复杂的数据集。

现在，对“大数据”一词的使用倾向于使用预测分析、用户行为分析或者其他一些从大数据中提取价值的高级数据分析方法，很少用于表示特定规模的数据集。

定义

大数据是指规模巨大、种类繁多、产生速度快的数据集合，通常超出了传统数据处理软件工具的处理能力范围。

大数据的特点主要可以归纳为以下几个方面：

Volume：数据量大，通常在 TB、PB 甚至 EB 级别。
Velocity：数据的产生速度非常快，需要被实时处理。
Variety：数据类型多，包含结构化数据、非结构化数据和半结构化数据。
Veracity：数据的可靠性高。
Value：数据包含的价值大。

大数据生态

一文了解大数据生态,flink,大数据,大数据,学习,分布式系统,分布式

数据采集

日志数据采集：
- Apache Flume：支持的场景更多（半结构化和非结构化数据采集）
- Logstash：ELK 场景推荐使用 Logstash，可以和 Elastic、Kibana 无缝集成
- Filebeat：性能更高
关系型数据库数据采集：Sqoop、DataX、Canal、Maxwell、Debezium、FlinkCDC

数据存储

分布式文件存储系统：Hadoop HDFS
数据库系统：Mongodb、HBase
消息队列中间件：Kafka

数据计算

离线计算：Hadoop MapReduce、Spark
实时计算：Storm、Spark Streaming、Flink

数据分析

离线数据分析：Hive、Impala、Kylin
实时数据分析：ClickHouse、Druid、Doris

任务调度框架

Apache Oozie

分布式资源管理

Hadoop YARN
Kubernates
Mesos

管理和协调

Zookeeper：分布式协调服务
Apache Ambari：安装、部署、配置和管理工具

学习路线

大数据生态的工具和技术组件虽然多，但是每类只需要重点学习一个就可以了。
可以按照下面的学习路线：文章来源地址https://www.toymoban.com/news/detail-836607.html

学习 Hadoop，包括 HDFS、MapReduce、YARN 三个主要组件
了解 Hive
了解 Kafka
学习 Spark 用于离线数据计算
学习 Spark Streaming 或者 Flink 用于实时数据计算
了解 Oozie、Zookeeper、Ambari 的用法

到了这里，关于一文了解大数据生态的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

一文拿捏分布式、分布式缓存及其问题解决

1.集中式传统的计算模型通常是集中式的，所有的计算任务和数据处理都由单一的计算机或服务器完成。然而，随着数据量和计算需求的增加，集中式系统可能会面临性能瓶颈和可靠性问题。故而引出了分布式↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓

2024年02月07日
浏览(45)
分布式：一文吃透分布式事务和seata事务

什么是事务事务是并发控制的单位，是用户定义的一个操作序列。事务特性原子性(Atomicity)：事务是数据库的逻辑工作单位，事务中包括的诸操作要么全做，要么全不做。一致性(Consistency)：事务执行的结果必须是使数据库从一个一致性状态变到另一个一致性状态。一致性

2024年02月07日
浏览(62)
了解分布式Session

大家好，我这名 CRUD工程师又来了，最近我的一个同事突然在看分布式 Seesion 的问题，然后我们两个也是互相讨论了一下，今天我就想着把分布式 Session 的知识点好好的梳理一下。在很多系统中，用户的登录功能都是用 Session 去实现的，客户端填写好用户名和密码，发送一个

2023年04月18日
浏览(36)
【分布式缓存】一文详解 Memcached

Memcached 是一个开源的，支持高性能，高并发的分布式内存缓存系统，由 C 语言编写，总共 2000 多行代码。从软件名称上看，前 3 个字符 Mem 就是内存的意思，而接下来的后面 5 个字符 cache 就是缓存的意思，最后一个字符 d ，是 daemon 的意思，代表的是服务器端守护进程模式服

2024年02月04日
浏览(50)
Asynq: 基于Redis实现的Go生态分布式任务队列和异步处理库

Asynq [1] 是一个Go实现的分布式任务队列和异步处理库，基于redis，类似Ruby的 sidekiq [2] 和Python的 celery [3] 。Go生态类似的还有 machinery [4] 和goworker 同时提供一个WebUI asynqmon [5] ，可以源码形式安装或使用Docker image, 还可以和Prometheus集成 docker run --rm --name asynqmon -p 8080:8080 hibiken/as

2024年02月14日
浏览(43)
分布式内存计算Spark环境部署与分布式内存计算Flink环境部署

目录分布式内存计算Spark环境部署 1. 简介 2. 安装 2.1【node1执行】下载并解压 2.2【node1执行】修改配置文件名称 2.3【node1执行】修改配置文件，spark-env.sh 2.4 【node1执行】修改配置文件，slaves 2.5【node1执行】分发 2.6【node2、node3执行】设置软链接 2.7【node1执行】启动Spark集群

2024年02月08日
浏览(76)
一文看懂分布式存储架构

目录一、集中存储结构二、分布式存储 1 、分布式存储的兴起 2 、分布式存储的重要性 3 、分布式存储的种类和比较三、分布式理论浅析 1 、一致性和可用性 2 、数据分布 3 、复制 4 、分布式协议 5、跨机房部署四、分布式文件系统 1、 Google 文件系统（ GFS ） 2、 Taobao 文件

2023年04月09日
浏览(41)
大数据学习06-Spark分布式集群部署

配置好IP vim /etc/sysconfig/network-scripts/ifcfg-ens33 修改主机名 vi /etc/hostname 做好IP映射 vim /etc/hosts 关闭防火墙 systemctl status firewalld systemctl stop firewalld systemctl disable firewalld 配置SSH免密登录 ssh-keygen -t rsa 下载Scala安装包配置环境变量添加如下配置使环境生效验证 Spark官网解压上

2024年02月10日
浏览(70)
大数据学习02-Hadoop分布式集群部署

操作系统：centos7 软件环境：jdk8、hadoop-2.8.5 1.下载VMware,建议支持正版 2.安装到Widows目录下任意位置即可，安装目录自定义。打开VMware，界面如下： 3.创建虚拟机创建虚拟机—选择自定义这一步按照默认的配置就好选择系统，安装程序光盘映像文件iso，这里需要下载cenos镜像

2024年02月16日
浏览(63)
【分布式和微服务1】一篇文章详细了解分布式和微服务的基本概念

🍀 通俗一点说，高可用的意思是：在高并发的情况下，系统仍然是可用的 🍀 高可用的目的：保障业务的连续性（实现在用户眼里，业务永远是正常对外提供服务的） 🍀 🍬 【上图】一个 SpringBoot 项目（ apple.jar ）被部署到服务器上运行，可向其发送网络请求对数据

2024年02月02日
浏览(69)