大数据:传统PC无法处理的。数据大、数据类型繁多、处理速度快、价值密度低。
Hadoop:能够对大数据进行分布式处理的软件框架、这种处理具有高效、可靠、可伸缩的特点。Hadoop的特点:高效率、高可靠、高容错、高可拓展。成本低、Linux运行支持多语言。
SSH:建立在应用层和传输层之间的传输协议。SSH可以防止远程管理过程中的信心泄露问题。
HDFS:是Hadoop的一种分布式文件系统。用于分布式储存大规模数据。将数据分割为小块存储在集群的多个节点上。
HDFS缺点:不适合低延迟数据访问、不能高效存储大量小文件、不支持多用户修改/写入。
HBase:是一个高可靠、高性能、可伸缩、面向列的分布式数据库。用来存储非/半结构化数据。可以水平拓展、用廉价计算机存储亿级行和百万列组成的表。
MapReduce:是一种用来处理和生成大数据的编程模型。Map阶段将输入数据映射为键值对;Reduce将相同的键值对进行合并和计算。
Spark:基于内存的分布式计算框架。RDD为其数据结构,代表弹性分布式数据集。
特点:处理数据快、支持多种数据处理。性能高(存储在内存),适用迭代算法、复杂计算。
Scala:多范式编程语言,语法简洁提供API、运行在JVM,兼容JAVA语言。
特点:强大并发性、函数式编程、支持分布式系统、语法简洁、兼容Java运行速度快。
NoSQL:非关系型数据库,适用于大规模和动态数据、与云计算紧密融合。
特点:数据库灵活、可拓展,可以处理非/半结构化数据。
MongoDB:基于分布式文件存储的数据库系统。将数据存储为文档,数据结构为键值对。
特点:可以添加节点来提高服务器性能。字段值可以包含其他文档、数组、文档数组。
事务ACID: 原子:要么全部改要么都不改; 一致:完成时数据状态一致、
隔离:事务修改不影响其他并发修改;持久:事务完成产生影响是永久性的。
云数据库:部署和虚拟化在云计算环境中的数据库。新兴共享基础架构的方法。
特点:高扩展、高可用、低成本、高性能。免维护、安全。支持资源有效分发等。
Hive:建立在Hadoop上的数据仓库工具,提供HQL类似SQL的查询语言,用于分析/处理大规模分布式数据。
特点:依赖HDFS存储数据、依赖MapReduce处理数据。本身不存储和处理数据。
数据仓库:存储和管理企业数据的中心化系统。维度表包含用于查询和分析的维度信息。而事实表包含于业务事件相关的度量。
特点:与数据湖相比更注重数据结构和存储预先处理的数据。
流数据:以大量、快速、时变的流形式持续到达。来源众多、复杂顺序颠倒。
特点:不关注存储、一旦处理,要么归档存储,要么丢弃。
流计算:实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值信息。
特点:高性能、海量式、实时性(低延迟)、分布式、易用性。可靠性。
Storm:免费开源的分布式实时计算系统,可以简单、高效、可靠的处理流数据。
特点:支持多种语言可整合:与队列、数据系统。简易API。可扩展。高容错重启故障节点。
Spark Streaming:将事实输入数据流以时间片为单位进行拆分为Dstream,每一段数据软化为Spark中RDD,Spark以类批处理的方式处理每个时间片的数据。
特点对比:SS不能实现毫秒级流计算、Storm可以。SS中的RDD数据集可以高效容错处理。得益于类批量处理,SS适用需要历史数据和实时数据联合分析的场合。
Hadoop有了HDFS和MapReduce为什么需要HBase?
Hadoop不能满足大规模数据事实处理的需求。HDFS面向批量访问,不支持随机访问。
传统数据库又面对大规模数据有不能扩展、性能不够、数据结构变化时一般需要停机维护。
因此出现了面向半结构化数据存储/处理的可拓展、低写入/延迟的Hbase。
Hadoop与Spark对比:
H适合批任务、大规模静态数据、S支持批处理、流处理、交互查询等多种场景。
相比H,S更加易用。
对于迭代算法和交互查询H性能较差(依赖磁盘存储)。
相比于S,H的实时处理支持比较差。
NoSQL与关系数据库的区别:
关系数据库:以关系代数为基础,有严格的标准,支持事务ACID,借助索引提升查询效率。扩展性较差,不支持海量数据存储,数据模型死板。不支持Web2.0应用。
NoSQL支持大规模存储、数据模型灵活,支持Web2.0 扩展性好。
复杂查询性能不高。不能事务强一致性。很难实现数据完整性。
Hive与传统数据库的区别:
插入:传统库支持单条和批量;Hive仅支持批量导入。
更新:传统支持;Hive数据仓库工具不支持更新,数据仓库存放静态数据。
索引:0.7后支持索引。没有键的概念。Hive创建的索引保存在另一个表中。
延迟:因构建在HDFS和MapReduce上相比之下延迟较高。普通SQL延迟1s Hive分钟级
扩展:Hive扩展性由于传统数据库。
所谓的CAP指的是:
C(Consistency):一致性,是指任何一个读操作总是能够读到之前完成的写操作的结果,也就是在分布式环境中,多点的数据是一致的,或者说,所有节点在同一时间具有相同的数据
A:(Availability):可用性,是指快速获取数据,可以在确定的时间内返回操作结果,保证每个请求不管成功或者失败都有响应;
P(Tolerance of Network Partition):分区容忍性,是指当出现网络分区的情况时(即系统中的一部分节点无法和其他节点进行通信),分离的系统也能够正常运行,也就是说,系统中任意信息的丢失或失败不会影响系统的继续运作。
CAP理论告诉我们,一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求,最多只能同时满足其中两个,正所谓“鱼和熊掌不可兼得”。文章来源地址https://www.toymoban.com/news/detail-767834.html
文章来源:https://www.toymoban.com/news/detail-767834.html
到了这里,关于一句话介绍大数据各种名词及其特点的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!