2016大数据小盘点

这篇具有很好参考价值的文章主要介绍了2016大数据小盘点。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

今天是2017年春节大年初一。记忆中,从上初中起,我就对过年不怎么感冒了。时间永不停歇,过年只是人为的加上了个标识。既然是标识,对个人而言,生日的意义也许更胜于过年。

然而过去的2016年,如果在许多年后回过头来看看,在工作、学习、生活上,方方面面,也许都是非常重要的一个时间节点。用三个词来总结我的2016年,那就是——成长、新生、价值。党和国家在全面深化改革,个人也在不断提升。从“要么流芳百世,要么遗臭万年”的轻狂,到后来“保持平常心,水利万物而不争”的虚无,再到如今“关注成长,自我精进”的价值取向,生命不会一成不变,生活也没有一劳永逸。加上时间这条线,成长才变得清晰。

这一年一下子体会到不少道理,这些道理早有人对我说过却不自知。也许没有过往的经历,可能也难以理解这些道理,更谈不上去践行。和菜头说,“任何一个人面对这个世界的时候,都需要自己去头破血流地碰撞,在这个碰撞中找寻世界的真相”。人生的路,要自己去走,从中所得到的一切,才属于自己。每个人出生的时候都是原创,不要活着活着,就一不小心成了盗版。

话题扯远了,有点跑偏,还是言归正传。

2016大数据小盘点
大数据小盘点

人工智能(AI)重新崛起

2016 年的科技界,不得不提人工智能。 AlphaGo 4:1 战胜李世石,60 连胜横扫网络围棋快棋,沉寂了数十年的人工智能再次走上前台大放异彩。未来,机器的智能一定会超过人类,对我们的生活产生颠覆性的影响。

让机器拥有更高智能的钥匙是大数据。大数据与人工智能的结合可以说是 2016 年最受瞩目的技术之一,并且在一些企业得到成功应用。有了大数据这个基础,较之以往,现在的人工智能不再是“像人一样的去思考和行动”,而是“以完全超过常人的状态去思考和行动”。

除了人工智能重新崛起之外,大数据在风起云涌的2016年还有以下一些事情值得关注:

商业智能(BI)巨头衰落

十多年前,SAP BO、Oracle BIEE、IBM Cognos 等老牌BI巨头的出现,赋予了数据利用一个新概念。数据库内容可以打通,数据得到整合,数据能可视化展现。可最后商业利用的程度远不及当初设想的那样,使用复杂、领导学不会,BI最终仍沦为一个报表展现工具。

Tableau和QlikView的出现产生了突破。Tableau是桌面系统中最简单的商业智能工具软件,帮助任何人快速分析、可视化并分享信息。2011年,Tableau被美国高德纳咨询公司(Gartner)评为世界上发展速度最快的商业智能公司。QlikView是一个完整的商业分析软件,使开发者和分析者能够构建和部署强大的分析应用。作为QlikTech的旗舰产品,曾长期成为全球增长率最快的BI产品,Gartner把它列在Leaders象限并称为Magic Product。

然而,2016年2月,Tableau发布财报,业绩令人大失所望,其市值在一天之内被腰斩。几个月后,风暴再起,QlikTech的股价暴跌一半多,在2016年6月被Thoma Bravo以大约30亿美元的价格收购。

Hadoop十一岁了

2016年1月28日是Hadoop的十岁生日。今天,Hadoop11岁了。Haddop的诞生开启了大数据时代的大门,改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己极其火爆的技术生态圈,受到广泛应用。

2006年,Yahoo!构建10个节点规模的Hadoop机群用于Webmap业务。雅虎工程师们最初只希望这个10节点的集群能够持续运行一整天,根本没想到Hadoop后来会成为大数据计算的代表,每家财富100强企业必备的IT工具。

虽然近两年 Spark 的火爆使得 Hadoop 犹如昨日黄花,但 Hadoop 并没有停止自己的发展脚步。在 2016 年,Hadoop 3.0 的 alpha1 版本面世。随着 Hadoop 3.0 正式版本发布的日益临近,Hadoop的近100位Committer在积极的为Hadoop谋划未来,让我们拭目以待。

Spark大行其道

在 2016 年,Spark 迎来了最近两年的一个最大的版本——Spark 2.0的发布。从2016年年初开始,Spark 就在对 Spark 2.0 进行预热,可是 Spark 2.0 的发布并不如预期来的顺利。5 月份 Spark 2.0 Preview Release 发布,时隔两个月到 2016 年 7 月份,Spark 2.0 的正式版本发布。

Spark 是一种与 Hadoop 相似的开源集群计算环境,Spark在早期发展阶段通过全面兼容Hadoop而借力于后者成熟的生态系统。但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark正在挑战Hadoop的权威,因为Spark已经将发展目标定位在取代Hadoop。有些人认为,Spark在应用和受欢迎程度方面终将超越Hadoop,甚至已经超越。

随着 Spark 的日益普及,降低开发难度,提高易用性变成了 Spark社区的很重要的事情。摒弃掉 Shark,引入自己的 SQL 引擎,借鉴其他的数据平台抽象出 DataFrame 进而抽象出 DataSet,Spark 无疑变得对于普通程序员越来越友好,对于新晋 Spark 开发者来讲,会 SQL就可以非常方便的开发大数据应用了。

不过,Spark 2.0的正式版本也并没有完全达到预期,仍旧有很多的bug,而结构化流式仍旧处于实验性阶段,一直到十一月发布的 2.0.2,还是 2.0 的 bug fix。

Flink和Beam引人关注

在 2016 年,大数据流式处理技术取得了飞速的发展,并且逐渐变成大数据处理的新趋势。在这个大数据流式处理大潮中,Flink和Beam两个关键的开源项目逐渐取得了人们的注意。

Spark基本上已经取代了Hadoop的批处理引擎MapReduce,更别说Spark的SQL、机器学习和流处理能力。但永不满足的大数据界希望改进这套得到Databricks公司支持、用Scala语言编写的多用途框架。于是Apache Flink和Apache Beam应运而生,成为了Spark在大数据框架之战中的劲敌。

Apache Flink 并不是一个新的开源项目,但是随着大数据流式处理的日益重要,Flink 因为其对流式处理的支持能力,得到了越来越多的人的重视。在 2016 年,几乎所有的大数据技术大会上,都能够看到 Flink的身影。在 Flink 的设计理念中,数据流是一等公民,而批量操作仅仅是流式处理的一种特殊形式。同 Spark 一样,Flink 也是期望基于它的核心打造一个大数据的生态系统。

Apache Beam是一个仍旧在孵化器中的项目,但是其出发点和背景使得我们必须在早期就对它保持持续的关注。Beam 本身不是一个流式处理平台,而是一个统一的编程框架。在大数据处理和计算平台百花齐放的今天,开发者不得不面对Spark, Flink, Storm, Apex 等等不同的计算框架,而这些计算框架各自有不同的开发 API,如何能够屏蔽底层的差异,使得上层有一个统一的表达,对于大数据应用开发者来讲就变得非常有意义了。

而这个时候,Beam 就给了我们这个答案。Beam 系出名门,是由Google 开源出来的,并且得到了 Spark、Flink等等社区的大力支持。Apache Beam是目前很有前途的大数据框架,其目标之一是用同一组API进行实时交互的批处理,并且通过“Runner”支持Spark、Flink和Google Dataflow。

黑客入侵阴云笼罩

时代周刊2016年的年度人物评选中,第一名是川普,第二名希拉里,而第三名是黑客。黑客上榜并非无厘头。2016年发生了多起引人注目的数据泄露事件,比如美国民主党全国委员会的电子邮件服务器被攻陷,雅虎10亿用户的数据被黑。

黑客入侵美国司法部、国税局,可能还有国家安全局。他们偷走或试图将包括Adult FriendFinder,LinkedIn,Mail.ru和Yahoo的数据卖给私人公司。他们泄露了优秀运动员Simone Biles、Serena和Venus Williams的保密医疗记录,发布喜剧演员Leslie Jones等名人的私人照片, 还发现,亿万富翁黑客马克·扎克伯格,竟然使用 “dadada”这么简单的字母作为他的密码。

根据英国保险公司劳合社(Lloyd's)的数据,全球范围内,企业因为黑客付出了至少4000亿美元,这个数字也肯定被低估了。因为黑客的活动周期比常规罪犯长得多,今年最大的违规行为很可能还没有出现。这种巨大的不确定性促使了网络防御、网络取证和网络保险业的蓬勃发展,预计到2020年,这些行业估值将达到2000亿美元。

大数据资源管理与开发日趋重要

随着大数据在不同的领域越来越多的应用场景的发现,如何对数据资产进行管理并开发利用就变得越来越重要。由此也产生和发展出很多的创业公司和开源项目。

WhereHows是领英公司(LinkedIn)在 2016 年开源的一套用于大数据发现和管理的工具,集成了所有主要的数据处理系统,可以进行分类收集和元数据操作。

收到普遍欢迎的大数据总线Apache Kafka在2016年如鱼得水,这要归功于对分析高速移动数据的新要求。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。由于人们对实时分析的兴趣高涨,这个开源项目的采用率正在飙升。

从EMC和VMware拆分出来的Pivotal也拆分出来新的公司——SnappyData,现从Pivotal、、通用电气创投(GE Ventures)和GTD Capital融得数额为365万美元的资金。SnappyData产品的根本基础是开源Spark框架和Gemfire,公司的目标就是:开发一款可处理在线交易、分析和数据流的单一产品,加快分析大数据的过程。

区块链技术是2016年的新兴技术热点。区块链鉴证公司Coinalytics2016年宣布更名为Skry,公开了新的商标,聘请IBM专家研究区块链。Skry联合创始人和首席执行官Fabio Federici说该公司正努力把区块链技术、大数据和人工智能合并成一个产品——“我们相信使用机器学习和人工智能实时服务能让用户更好的预测未来走向。”

展望

国家《大数据产业发展规划(2016-2020年)》已经正式印发。我们不知道2017年将为大数据世界带来些什么,也许会推出更多的数据分析和实时预测工具,也许会发生更多数据安全和隐私泄露问题,也许智能分析的应用会更加广泛、用户体验更加美好,也许我们将目睹那些改变着人类生活的核心技术遭遇意想不到的突破或令人震惊的失败。

尽管基于大数据和高性能运算的智能时代必将到来,但若缺少人文精神,数字科技终究不能产生智慧。国家发展大数据产业,建设智慧城市,仍需“以人文本”,获取“灵魂”。

正如新春之际,大家还是要放下手机平板笔记本,一家老小共享天伦才是正确的姿势。文章来源地址https://www.toymoban.com/news/detail-402424.html

2016大数据小盘点
新春大吉

到了这里,关于2016大数据小盘点的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Sql server 2016数据库卸载

    目录 一、停止sql server正在运行的服务 二、卸载sql server 三、删除注册表 四、删除文件 五、卸载管理工具   温馨提示:卸载之前,请确保备份数据库中的数据,以免数据丢失。 其它sql server版本卸载类似,只是2016版本以下管理工具不需要单独卸载,而2016以上版本需单独卸载

    2024年02月05日
    浏览(26)
  • 使用 JavaScript 创建一个兔年春节倒数计时器

    💂 个人网站:【 海拥】【神级代码资源网站】【办公神器】 🤟 基于Web端打造的:👉轻量化工具创作平台 💅 想寻找共同学习交流的小伙伴,请点击【全栈技术交流群】 给大家安利一个免费且实用的轻量化工具创作平台,👉点击跳转到网站。 我们可以通过多种方式构建

    2024年01月23日
    浏览(42)
  • 春节期间你可能会遇到的一些电脑小知识

           激动啊!还有几天就要放假过春节啦!!!朋友们是不是都已经蠢蠢欲动啦?别急,吴师傅给大家分享了几个春节期间你可能会遇到的一些电脑小知识;比如说:WiFi密码忘记了怎么办?电脑长时间不关机是不是可行?熊孩子乱玩你的电脑怎么办?拷贝数据直接拔出

    2024年02月19日
    浏览(27)
  • 盘点数据仓库建设需要知道的那些事

    @ 目录 建设规范 为何要有规范 规范如何落地 有哪些规范 数仓分层 分层原则 常见分层 主题域划分原则 数据模型设计原则 数据类型规范 数据冗余规范 表规范 处理规范 命名规范 生命周期管理 指标管理 指标定义 指标构成 指标分类 命名规范 无规矩不成方圆,建立规范的目

    2024年02月04日
    浏览(69)
  • 盘点:保护企业数据安全的10种方法

    即便是大型企业也无法防止网络攻击导致的数据泄露,但有多种保护数据安全的方法。 许多公司谨慎处理敏感信息,包括客户个人信息、企业财务记录和账户,以及企业暂时不想泄露的绝密项目,保持数据的安全至关重要。 全球知名企业发生了许多重大数据泄露事件,包括

    2023年04月08日
    浏览(66)
  • Sql Server获取表中今天、昨天、本周、上周、本月、上月等数据

    DATEDIFF ( datepart , startdate , enddate ) 释义:计算时间差 datepare值:year | quarter | month | week | day | hour | minute | second | millisecond startdate:开始日期 enddate :结束日期 GetDate() --用法 select datediff(year, 开始日期,结束日期); --(结束日期-开始日期)间隔年 select datediff(quarter, 开始日期,结束

    2024年02月10日
    浏览(35)
  • 金融数据密码机国密标准GMT0045-2016

            金融数据密码机是在金融领域内,用于确保金融数据安全,并符合金融磁条卡、IC卡月特定的,主要实现PIN加密、PIN转加密、MAC产生和校验、数据加解密、签名验证以及密钥管理等密码服务功能的密码设备,也称为HSM主机加密机。相关标准包括:         GMT 0045

    2024年02月13日
    浏览(28)
  • 盘点五种主流的大数据计算框架

    以下是五种主流的大数据计算框架: Apache Hadoop:Apache Hadoop是最著名的大数据计算框架之一,它包括Hadoop Distributed File System(HDFS)和MapReduce。HDFS是一个可扩展的分布式文件系统,用于存储大规模数据集。MapReduce是一种分布式计算框架,用于在集群中并行处理大规模数据。 Apac

    2024年04月26日
    浏览(24)
  • 模型训练遇到数据量太大而导致内存不够问题?今天教你一招

    在比赛和工作中,我们经常会遇到数据量太大而导致内存不够的问题。这里可以细分为两种情况: 情况1:数据太大,无法加载到内存; 情况2:加载数据但训练时内存不够; 针对情况1可以考虑使用 Spark 或者 Dask 来逐步完成计算。对于情况2,则需要考虑从模型的角度入手。

    2024年02月04日
    浏览(33)
  • 春节专题|产业7问:区块链厂商的现在和未来——混合技术厂商

    2023转瞬即逝,不同于加密领域沉寂一整年后在年末集中爆发,对于我国的区块链厂商而言,稳中求胜才是,在平稳发展的基调下,产业洗牌也悄无声息的到来。 从产业总体而言,在经过了接近3年的快速发展后,政策红利释放逐步走向末期,我国区块链产业基础设施逐

    2024年02月19日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包