一句话介绍大数据各种名词及其特点-Toy模板网

这篇具有很好参考价值的文章主要介绍了一句话介绍大数据各种名词及其特点。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

大数据：传统PC无法处理的。数据大、数据类型繁多、处理速度快、价值密度低。
Hadoop：能够对大数据进行分布式处理的软件框架、这种处理具有高效、可靠、可伸缩的特点。Hadoop的特点：高效率、高可靠、高容错、高可拓展。成本低、Linux运行支持多语言。
SSH:建立在应用层和传输层之间的传输协议。SSH可以防止远程管理过程中的信心泄露问题。
HDFS:是Hadoop的一种分布式文件系统。用于分布式储存大规模数据。将数据分割为小块存储在集群的多个节点上。
HDFS缺点：不适合低延迟数据访问、不能高效存储大量小文件、不支持多用户修改/写入。
HBase：是一个高可靠、高性能、可伸缩、面向列的分布式数据库。用来存储非/半结构化数据。可以水平拓展、用廉价计算机存储亿级行和百万列组成的表。
MapReduce：是一种用来处理和生成大数据的编程模型。Map阶段将输入数据映射为键值对；Reduce将相同的键值对进行合并和计算。
Spark：基于内存的分布式计算框架。RDD为其数据结构，代表弹性分布式数据集。
特点：处理数据快、支持多种数据处理。性能高（存储在内存），适用迭代算法、复杂计算。
Scala：多范式编程语言，语法简洁提供API、运行在JVM，兼容JAVA语言。
特点：强大并发性、函数式编程、支持分布式系统、语法简洁、兼容Java运行速度快。
NoSQL：非关系型数据库，适用于大规模和动态数据、与云计算紧密融合。
特点：数据库灵活、可拓展，可以处理非/半结构化数据。
MongoDB：基于分布式文件存储的数据库系统。将数据存储为文档，数据结构为键值对。
特点：可以添加节点来提高服务器性能。字段值可以包含其他文档、数组、文档数组。
事务ACID：原子：要么全部改要么都不改；一致：完成时数据状态一致、
隔离：事务修改不影响其他并发修改；持久：事务完成产生影响是永久性的。
云数据库：部署和虚拟化在云计算环境中的数据库。新兴共享基础架构的方法。
特点：高扩展、高可用、低成本、高性能。免维护、安全。支持资源有效分发等。
Hive：建立在Hadoop上的数据仓库工具，提供HQL类似SQL的查询语言，用于分析/处理大规模分布式数据。
特点：依赖HDFS存储数据、依赖MapReduce处理数据。本身不存储和处理数据。
数据仓库：存储和管理企业数据的中心化系统。维度表包含用于查询和分析的维度信息。而事实表包含于业务事件相关的度量。
特点：与数据湖相比更注重数据结构和存储预先处理的数据。
流数据:以大量、快速、时变的流形式持续到达。来源众多、复杂顺序颠倒。
特点：不关注存储、一旦处理，要么归档存储，要么丢弃。
流计算：实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值信息。
特点：高性能、海量式、实时性（低延迟）、分布式、易用性。可靠性。
Storm：免费开源的分布式实时计算系统，可以简单、高效、可靠的处理流数据。
特点：支持多种语言可整合：与队列、数据系统。简易API。可扩展。高容错重启故障节点。
Spark Streaming：将事实输入数据流以时间片为单位进行拆分为Dstream，每一段数据软化为Spark中RDD，Spark以类批处理的方式处理每个时间片的数据。
特点对比：SS不能实现毫秒级流计算、Storm可以。SS中的RDD数据集可以高效容错处理。得益于类批量处理，SS适用需要历史数据和实时数据联合分析的场合。

Hadoop有了HDFS和MapReduce为什么需要HBase？
Hadoop不能满足大规模数据事实处理的需求。HDFS面向批量访问，不支持随机访问。
传统数据库又面对大规模数据有不能扩展、性能不够、数据结构变化时一般需要停机维护。
因此出现了面向半结构化数据存储/处理的可拓展、低写入/延迟的Hbase。
Hadoop与Spark对比：
H适合批任务、大规模静态数据、S支持批处理、流处理、交互查询等多种场景。
相比H，S更加易用。
对于迭代算法和交互查询H性能较差（依赖磁盘存储）。
相比于S，H的实时处理支持比较差。
NoSQL与关系数据库的区别：
关系数据库:以关系代数为基础，有严格的标准，支持事务ACID，借助索引提升查询效率。扩展性较差，不支持海量数据存储，数据模型死板。不支持Web2.0应用。
NoSQL支持大规模存储、数据模型灵活，支持Web2.0 扩展性好。
复杂查询性能不高。不能事务强一致性。很难实现数据完整性。
Hive与传统数据库的区别：
插入：传统库支持单条和批量；Hive仅支持批量导入。
更新：传统支持；Hive数据仓库工具不支持更新，数据仓库存放静态数据。
索引：0.7后支持索引。没有键的概念。Hive创建的索引保存在另一个表中。
延迟：因构建在HDFS和MapReduce上相比之下延迟较高。普通SQL延迟1s Hive分钟级
扩展：Hive扩展性由于传统数据库。
所谓的CAP指的是：
C（Consistency）：一致性，是指任何一个读操作总是能够读到之前完成的写操作的结果，也就是在分布式环境中，多点的数据是一致的，或者说，所有节点在同一时间具有相同的数据
A:（Availability）：可用性，是指快速获取数据，可以在确定的时间内返回操作结果，保证每个请求不管成功或者失败都有响应；
P（Tolerance of Network Partition）：分区容忍性，是指当出现网络分区的情况时（即系统中的一部分节点无法和其他节点进行通信），分离的系统也能够正常运行，也就是说，系统中任意信息的丢失或失败不会影响系统的继续运作。
CAP理论告诉我们，一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求，最多只能同时满足其中两个，正所谓“鱼和熊掌不可兼得”。文章来源地址https://www.toymoban.com/news/detail-767834.html