【架构即未来】海量数据

这篇具有很好参考价值的文章主要介绍了【架构即未来】海量数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

毫无疑问,数据是价值非凡的,但是我们也不能否认数据的价值随着时间的流逝而逐渐减少。
——ljl

数据的成本

数据是昂贵的
很多人下意识会想要反驳,我们每个人都能感受到存储介质(机械硬盘,固态硬盘)价格越来越低,容量越来越高,怎么能说数据是昂贵的呢。
俗话说“免费的才是最贵的”,对于企业来说真的是消减了成本吗?存储成本下降50%,但是我们有没有把价格下降带来的好处转化为收益呢。甚至我们可能会让数据的存储量增长一倍,因为它“便宜”。

“云存储”这个概念近年来被炒的风生水起,价格很便宜,但终究“完全免费”和“几乎免费”不是一回事。

当然,数据成本不仅仅只有存储系统。存储的规模越大,所需的管理就越多,这也会带来增加的费用(或者还有电费,场地租金什么的)。我们不能只关注直接成本,数据量的增加会带来更长的查询时间,要知道没有一个查询算法的时间复杂度是减小的!这可能带来性能损失,用户使用体验变差,用户流失,用户流向对手企业,游戏结束!

可能你会说,更快的处理器、更大的缓存会带来更好的使用体验,但是你依然无法解决根本问题:数据增多,处理时间增长

毋庸置疑,你需要定期对数据进行备份。随着数据量的增长,“全量备份”(full backup)的工作量随之增加,并且数据会不断重复。尽管你可以使用“增量备份”(只备份修改过的数据)缓解这个问题,但还可能需要定期进行“全量备份”,以降低“全量备份”上叠加多个“增量备份”的成本。如果你只进行“增量备份”,那么当你想要恢复存储系统的某些部分时,灾难恢复的时间一定不会短!

讨论至此,希望你已经拜托关于存储系统的错误想法。存储设备的成本在下降,但那仅仅只是存储信息、数据和知识的真正成本的一部分。

数据存储的6种成本
* 数据的存储资源
* 管理存储的人员和软件
* 使存储系统正常运行所需的电力和空间
* 确保适当电力基础设施正常运行的投入(防止突然停电导致事故)
* 遍历数据的处理能力
* 备份的时间和成本

数据的成本价值困局

数据的成本价值困局(cost-value data dilemma):随着时间流逝,数据成本逐渐增加和数据价值逐渐减少的矛盾。

这是可以理解的,互联网产生的大多数都是垃圾,现在不是垃圾也会随着时间的流逝变成垃圾,而且垃圾还会重复出现。
随着存储成本的下降,我们想保存更多数据的野心逐渐膨胀。几乎所有人都说过“如果我保存了那个数据”,对于过去没有保存某些数据的遗憾成为我们永久保存所有数据的接口。对于企业来说也许保持战略竞争力是其理由,拥有数据毫无疑问的会提升你的竞争力,不过比永久保存数据更为合理的是比你的竞争对手更久的保存数据。( ̄︶ ̄)

单位存储成本下降 != 总存储成本下降

数据产生利润

保存带来利润的数据,删除其他数据。下面会阐述驱动数据膨胀的因素,然后寻找能使得数据存储成本和本身价值相匹配的方法。

选项价值

每种选择方案都有一定的价值。你的选择方案是否有利用数据呢,问问自己下面的问题:

* 我们过去经常依靠数据做出有价值的决定吗
* 在那个决定中,我们用到的数据有多旧
* 我们最终创造的价值是多少
* 维护这些数据的成本是多少
* 最终的结果是盈利吗

可以通过对数据对选择影响程度来决定是否保留数据。

战略竞争差异化

保留数据保持竞争力。
然而无限的数据不意味着无限的价值,之前谈到的数据的“折旧”和对成本的影响。意味着企业必须做点什么来决定什么数据要被抛弃,也许你们可以对数据做价值评估,找出“零价值点”。

分层存储解决方案

假设一个公司确认一部分数据有价值,但是存储成本大于其价值时,就该考虑分层存储了。
其实就是把不变的、价值低的数据放在云存储系统或者是静态存储中。依据价值分层存储。

这可能造成额外的管理成本,但是相信这会是利大于弊的!

数据转换

ETL,代表“提取、转换、加载”(Extract, Transform, Load),是数据处理过程中一个重要的环节。在数据从原始源系统提取后,ETL 过程负责数据的转换和清洗,然后将数据加载到目标系统或数据仓库中。
以下是ETL过程的三个主要步骤:

  • 提取 (Extract):这一步涉及从各种源(如数据库、文件、API等)中提取数据。
  • 转换 (Transform):在这一步,将从源系统提取的数据进行必要的处理和转换,以使其满足业务需求和规范。这可能包括数据清洗、验证、重新格式化或合并等操作。
  • 加载 (Load):最后,处理后的数据被加载到目标系统或数据仓库中,以便于报告、分析和查询。
    ETL是数据集成和大数据处理的关键部分,特别是在构建数据仓库时。使用ETL工具,可以自动化数据迁移和数据质量保证的过程,从而提高数据处理效率并确保数据的准确性和一致性。

对于实际业务来说,合适的数据转换可以大大提升在面对需求时的响应时间。如,在网购平台中将每一条原始的数据转化为用户记录,预处理推荐商品的信息。

处理大量的数据

化简并减少
分析+计算,映射+规约。

大数据

大数据是指一个数据的集合,这个数据的集合如此庞大和复杂以致很难用传统的数据处理技术处理。

NoSQL

使用NoSQL旨在完全或部分消除结构化查询语言的问题,放松对于ACID的讨论。
当然,具体使用什么你需要考虑实际情况。
NoSQL解决方案分为四类:

  1. 键值存储(Key-Value store)
  2. 列存储
  3. 文件存储 - JSON(JavaScript Object Notation)
  4. 图形存储(技术上来说并不算是)

结论

讨论数据成本、价值。文章来源地址https://www.toymoban.com/news/detail-800355.html

到了这里,关于【架构即未来】海量数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 读书笔记-《数据结构与算法》-摘要8[桶排序]

    桶排序和归并排序有那么点点类似,也使用了归并的思想。大致步骤如下: 设置一个定量的数组当作空桶。 Divide - 从待排序数组中取出元素,将元素按照一定的规则塞进对应的桶子去。 对每个非空桶进行排序,通常可在塞元素入桶时进行插入排序。 Conquer - 从非空桶把元素

    2024年01月18日
    浏览(43)
  • 数据中台浅析——概念、架构以及未来

    在当今的数字化时代,数据被誉为\\\"新的石油\\\",越来越多的企业和组织开始深度挖掘数据的价值。在这个过程中,数据中台逐渐成为了数据管理和分析的核心架构,让我们来深入了解一下它。 1.1 数据中台的概念和价值 数据中台 是一个提供统一、标准化数据服务的平台,它负

    2024年02月08日
    浏览(44)
  • 《C++并发编程实战》读书笔记(2):线程间共享数据

    在C++中,我们通过构造 std::mutex 的实例来创建互斥量,调用成员函数 lock() 对其加锁,调用 unlock() 解锁。但通常更推荐的做法是使用标准库提供的类模板 std::lock_guard ,它针对互斥量实现了RAII手法:在构造时给互斥量加锁,析构时解锁。两个类都在头文件 mutex 里声明。 假设

    2024年02月10日
    浏览(43)
  • 《斯坦福数据挖掘教程·第三版》读书笔记(英文版)Chapter 11 Dimensionality Reduction

    来源:《斯坦福数据挖掘教程·第三版》对应的公开英文书和PPT Let M be a square matrix. Let λ be a constant and e a nonzero column vector with the same number of rows as M . Then λ is an eigenvalue of M and e is the corresponding eigenvector of M if M e = λ e Me = λe M e = λ e . Start with any unit vector v of the appropriate lengt

    2024年02月07日
    浏览(49)
  • 《斯坦福数据挖掘教程·第三版》读书笔记(英文版) Chapter 6 Frequent Itemsets

    来源:《斯坦福数据挖掘教程·第三版》对应的公开英文书和PPT The market-basket model of data is used to describe a common form of many-many relationship between two kinds of objects. On the one hand, we have items , and on the other we have baskets, sometimes called “ transactions .” Each basket consists of a set of items (an items

    2024年02月06日
    浏览(56)
  • 爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库

    1.终端运行scrapy startproject scrapy_read,创建项目 2.登录读书网,选择国学(随便点一个) 3.复制链接(后面修改为包括其他页)  4.创建爬虫文件,并打开  5.滑倒下方翻页处,右键2,点击检查,查看到a标签网址,复制 6.修改爬虫文件规则allow(正则表达式),\\\'d\\\'表示数字,\\\'+\\\'表示多个,\\\'.\\\'使\\\'.\\\'生效

    2024年02月19日
    浏览(48)
  • 《斯坦福数据挖掘教程·第三版》读书笔记(英文版)Chapter 12 Large-Scale Machine Learning

    来源:《斯坦福数据挖掘教程·第三版》对应的公开英文书和PPT Algorithms called “machine learning” not only summarize our data; they are perceived as learning a model or classifier from the data, and thus discover something about data that will be seen in the future. The term unsupervised refers to the fact that the input data does

    2024年02月10日
    浏览(54)
  • 读改变未来的九大算法笔记01_数据压缩

    1.1.1.1. 1948年论文创建信息理论领域的贝尔实验室科学家 1.2.1.1. 法诺的一位学生 2.2.1.1. 这意味着下载和转移文件的速度要比不压缩时快数倍 7.2.1.1. b27c8 7.3.2.1. 数回2个字母,直至抄到第14个字母 7.3.2.2. b2c14 7.3.2.3. FG-b2c14 11.2.1.1. 每个方块都会被单独压缩 11.3.2.1. 有些种类

    2024年02月07日
    浏览(54)
  • 《斯坦福数据挖掘教程·第三版》读书笔记(英文版) Chapter 2 MapReduce and the New Software Stack

    来源:《斯坦福数据挖掘教程·第三版》对应的公开英文书和PPT Computing cluster means large collections of commodity hardware, including conventional processors (“ compute nodes ”) connected by Ethernet cables or inexpensive switches . The software stack begins with a new form of file system, called a “ distributed file system ,”

    2024年02月04日
    浏览(50)
  • 读改变未来的九大算法笔记02_数据库

      2.1.1. 当一个程序崩溃时,它会丢掉所有正在处理的东西 2.1.2. 只有安放在计算机文件系统中的信息会得到保存 2.1.3. 崩溃相当宽泛:包括任何可能导致计算机停止运行进而损失数据的事 2.1.3.1. 可能的事件包括断电、硬盘出错、其他硬件出错,以及操作系统或应用程序中的

    2024年02月08日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包