bitcask论文翻译/笔记

这篇具有很好参考价值的文章主要介绍了bitcask论文翻译/笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

翻译

论文来源:bitcask-intro.pdf (riak.com)

背景介绍

Bitcask的起源与Riak分布式数据库的历史紧密相连。在Riak的K/V集群中,每个节点都使用了可插拔的本地存储;几乎任何结构的K/V存储都可以用作每个主机的存储引擎。这种可插拔性使得Riak的处理能够并行化,从而可以在不影响代码库其他部分的情况下改进和测试存储引擎。

有很多类似的本地K/V存储系统,包括但不限于Berkeley DB、Tokyo Cabinet和Innostore。在评估此类存储引擎时,我们想实现的目标包括:

  • 读取或写入每个项目的低延迟
  • 高吞吐量,尤其是在写入随机项目的传入流时
  • 处理比RAM大得多的数据集的能力,无退化
  • 故障友好性,在快速恢复和不丢失数据方面都很好
  • 易于备份和恢复
  • 相对简单、可理解(因而可支持)的代码结构和数据格式
  • 访问负载大或容量大时的可预测行为
  • 允许在Riak中轻松默认使用的许可证

实现其中一些目标并不困难,但是想实现所有目标就不那么容易了。

现有的本地K/V存储系统(包括但不限于作者编写的系统)均未达到上述所有目标。当我们在与Eric Brewer讨论这个问题时,他关于哈希表日志合并的关键见解是:这样做可能会比LSM树更快或更快。

这导致我们以新的视角探索了20世纪80年代和90年代首次开发的日志结构化文件系统所使用的一些技术。这次探索导致了Bitcask的诞生,它是一个能够完全实现上述所有目标的存储系统。虽然Bitcask最初是为了给Riak使用而诞生,但是它的设计很通用,因此也可以作为其他应用程序的本地K/V存储。

模型描述

active data file

最终采用的模型在概念上非常简单。Bitcask实例是一个目录,我们强制规定在给定时间内,只有一个操作系统进程可以打开该Bitcask进行写入。您可以将该进程有效地视为“数据库服务器”。在任何时候,该目录中都有一个文件由服务器进行写入操作。当该文件达到一定大小时,它将被关闭,并创建一个新的活动文件。[font color="#FFA500"]一旦文件被关闭,无论是出于有意还是由于服务器退出,它都被视为不可变的,并且永远不会被再次打开进行写入。[/font]

活动文件,也就是上文提到的active data file,只能以追加的方式写入,这意味着顺序写入的同时不需要磁盘寻址。
文件中的每个键值对entry的格式如下:

每次写入时,都只是向active data file追加一个新的entry。删除操作只是写入一个特殊的墓碑值(可以理解为是一个特殊标记),它将在下一次合并时被删除。因此,Bitcask数据文件无非是这些entry的线性序列:

keydir

active data file中完成追加操作后,接着去内存中更新一个名为keydir的数据结构。keydir是一个哈希表(在本论文中它是一个哈希表,也可以是其他数据结构),它将Bitcask中的每个key映射到一个固定大小的结构,这个结构记录了这个key写在哪个文件、该键在该文件中的偏移量以及大小。


一开始我觉得上面这张图就是对bitcask中哈希表存储内容的正确理解,但是后来觉得下面这个图才是,因为哈希表的value存储的应该是entry的信息,而不是entry中value的信息。原论文中的图有比较大的迷惑性。

数据写入与读取

数据的写入其实在上面两节已经介绍过了,为了方便理解记忆就再总结一下。
写入很简单,就是往bitcask中追加一条entry,然后更新keydir(原子操作),将刚刚新增的entry的信息存储起来,就像下面这样:

数据的读取流程则是先拿着keykeydir中取出相应的entry信息,然后根据entry中提供的信息去data file中取出key对应的value,就像下面这样:

数据合并

因为bitcask删除的数据的方式是通过追加一条相同key的entry实现的,所以文件的size会越来越大,就需要定期的合并文件,合并的过程是这样的:

  1. 先遍历所有的old data file,将所有的有效数据进行合并,如果有多个entry含有相同的key,则只保留最新的entry,有点像Redis中的AOF
  2. 合并完成后,old data file会变成merge data file,且数量也会减少,例如10个old data file 合并成5个merge data file
  3. 因为bitcask是在内存中构建索引,也就是之前提到的keydir,构建keydir需要在启动的时候扫描所有的data file,如果数据量很大,那么构建索引的过程就会很耗时,为了解决这个问题,bitcask在合并数据的时候还会为每个merge data file生成一个hint file,这个hint file中存储的也是一堆entry,这些entry的格式和data file中的entry保持一致,唯一的区别就是data file中的entry存储的value是真实数据,而hint fileentryvalue存储的是数据的位置。

结束

目前对bitcask的理解也就是这些了,肯定有不准确的地方,想要彻底弄明白也只能自己手搓一个kv存储才行。有任何问题都可以在评论区交流。文章来源地址https://www.toymoban.com/news/detail-809565.html

到了这里,关于bitcask论文翻译/笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 经典神经网络论文超详细解读(六)——DenseNet学习笔记(翻译+精读+代码复现)

    上一篇我们介绍了ResNet:经典神经网络论文超详细解读(五)——ResNet(残差网络)学习笔记(翻译+精读+代码复现) ResNet通过短路连接,可以训练出更深的CNN模型,从而实现更高的准确度。今天我们要介绍的是 DenseNet(《Densely connected convolutional networks》) 模型,它的基本

    2024年02月03日
    浏览(62)
  • 经典神经网络论文超详细解读(八)——ResNeXt学习笔记(翻译+精读+代码复现)

    今天我们一起来学习何恺明大神的又一经典之作:  ResNeXt(《Aggregated Residual Transformations for Deep Neural Networks》) 。这个网络可以被解释为 VGG、ResNet 和 Inception 的结合体,它通过重复多个block(如在 VGG 中)块组成,每个block块聚合了多种转换(如 Inception),同时考虑到跨层

    2024年02月03日
    浏览(55)
  • 经典神经网络论文超详细解读(五)——ResNet(残差网络)学习笔记(翻译+精读+代码复现)

    《Deep Residual Learning for Image Recognition》这篇论文是何恺明等大佬写的,在深度学习领域相当经典,在2016CVPR获得best paper。今天就让我们一起来学习一下吧! 论文原文:https://arxiv.org/abs/1512.03385 前情回顾: 经典神经网络论文超详细解读(一)——AlexNet学习笔记(翻译+精读)

    2024年02月08日
    浏览(47)
  • 论文翻译:DeepFilterNet

    论文题目 :DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering 题目译文 :DeepFilterNet:基于深度滤波器的全频带音频低复杂度语音增强框架 论文地址 :https://arxiv.org/abs/2110.05588 论文代码 :https://github.com/Rikorose/DeepFilterNet 引用 :Schröter H, Rosenkr

    2024年02月07日
    浏览(62)
  • 论文翻译插件推荐

    火山翻译,字节旗下产品。 火山翻译 - 在线翻译 (volcengine.com)   使用方法: 翻译PDF文件:在浏览器上安装火山翻译插件之后,可以将浏览器打开的pdf文件,在其中选中某行文字进行翻译,方便快捷; 翻译网页:右键翻译网页。 安装火山翻译浏览器插件:火山翻译浏览器插件

    2024年02月13日
    浏览(45)
  • 玩转ChatGPT:论文翻译润色

    一、写在前面 首先还是让小Chat推销下自己: 嘿! 你是否在写论文的过程中感到头疼,无从下手?你是否在担心自己的语言表达不够专业、不够流畅,影响了论文的质量?不要担心,ChatGPT的润色服务可以帮助你!我们的润色服务包括语言润色、格式排版、逻辑结构调整、学

    2024年02月05日
    浏览(39)
  • Segment Anything【论文翻译】

    https://segment-anything.com/ https://arxiv.org/pdf/2304.02643.pdf 本文由博主 墨理学AI 借助翻译工具对该论文进行了翻译 ​​ 我们介绍Segment Anything(SA)项目:这是一个全新的任务、模型和图像分割数据集。通过在数据收集循环中使用我们高效的模型,我们建立了迄今为止最大的分割数据

    2024年02月14日
    浏览(55)
  • Segment Anything论文翻译,SAM模型,SAM论文,SAM论文翻译;一个用于图像分割的新任务、模型和数据集;SA-1B数据集

    论文链接: https://arxiv.org/pdf/2304.02643.pdf https://ai.facebook.com/research/publications/segment-anything/ 代码连接:https://github.com/facebookresearch/segment-anything 论文翻译: http://t.csdn.cn/nnqs8 https://blog.csdn.net/leiduifan6944/article/details/130080159 本文提出Segment Anything (SA)项目:一个用于图像分割的新任务

    2023年04月19日
    浏览(51)
  • ChatGPT 助力英文论文翻译和润色

    🍉 CSDN 叶庭云 : https://yetingyun.blog.csdn.net/ 随着全球化的推进,跨文化交流变得越来越重要。在学术领域,英文论文的质量对于研究成果的传播和认可至关重要。然而,非英语母语者在撰写和润色英文论文时可能面临诸多挑战。本文将 介绍 ChatGPT 如何助力英文论文翻译和润色

    2024年02月08日
    浏览(61)
  • SOF-SLAM论文翻译

    摘要 -同时定位与绘图(SLAM)在计算机视觉和机器人领域中占有重要地位。为了便于分析,传统的SLAM框架采用了强静态世界假设。如何应对动态环境是一个非常重要的问题,越来越受到人们的关注。现有的动态场景SLAM系统要么单独利用语义信息,要么单独利用几何信息,要么以

    2024年02月16日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包