作者:禅与计算机程序设计艺术文章来源:https://www.toymoban.com/news/detail-736724.html
1.简介
随着互联网和大数据的普及以及处理器性能的提升,当时的技术已经远远超过了当时能够想象的范围。这段时间MapReduce计算框架已经成为一个主流的开源计算框架,包括Hadoop、Pig、Hive、Mahout、Storm等。
2010年Apache Spark横空出世,基于内存计算框架,是当前最火的大数据分析引擎之一,基于Scala语言实现,是Hadoop MapReduce的替代者。Spark支持Java、Python、R等多种编程语言,其快速的计算速度让其广受欢迎。
2014年Facebook开发Hive,支持HQL(Hive Query Language)语法查询大数据,成为目前最流行的大数据分析工具。Hive自带数据倾斜解决方案、复杂SQL语句自动优化和分区表支持等功能均十分强大。
2017年谷歌开发了Google Cloud Dataproc,为用户提供云端运行Hadoop、Spark和Hive集群的能力,解决由于Hadoop单点故障导致业务无法正常运行的问题。
2018年,微软发布了Azure HDInsight,作为服务于企业的Hadoop、Spark、Hive集群管理平台,帮助客户轻松创建、删除和配置计算资源,提升大数据工作负载的效率。此外,还有更多的平台提供大数据服务,例如Cloudera、Databricks、Amazon EMR等。
2020年,蚂蚁集团宣布开源了达摩院开源项目Druid,其是一个开源分布式时间序列数据库,能够满足海量数据、高速查询需求。该项目拥有来自世界各地的开发者提交的代码贡献,是一个拥有活跃社区和庞大的生态系统的优秀开源项目。
2021年,阿里巴巴宣布开源了Nebula Graph,其是一个兼具图数据库和分布式键值文章来源地址https://www.toymoban.com/news/detail-736724.html
到了这里,关于Hadoop、Spark和Hive调优优化原理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!