专栏首页arxiv.org翻译专栏学习如何在基于LSM的键值存储中学习(CS DG)
原创

学习如何在基于LSM的键值存储中学习(CS DG)

在本文中,我们介绍了BOURBON,一种日志结构合并(LSM)树,它利用机器学习提供快速查找功能。我们在设计和实施BOURBON的基础上,对LSM设计进行了仔细分析并基于经验总结出了一些原则。BOURBON使用贪婪的分段线性回归来学习密钥分布,以最小的计算量实现快速查找,并应用成本效益策略来决定什么值得学习。我们对合成数据集和真实数据集进行了一系列实验,结果表明,与最先进的生产LSM相比,BOURBON的查找性能提高了1.23倍到1.78倍。

原文题目:Learning How To Learn Within An LSM-based Key-Value Store

原文:We introduce BOURBON, a log-structured merge (LSM) tree that utilizes machine learning to provide fast lookups. We base the design and implementation of BOURBON on empirically grounded principles that we derive through careful analysis of LSM design. BOURBON employs greedy piecewise linear regression to learn key distributions, enabling fast lookup with minimal computation, and applies a cost-benefit strategy to decide when learning will be worthwhile. Through a series of experiments on both synthetic and real-world datasets, we show that BOURBON improves lookup performance by 1.23x-1.78x as compared to state-of-the-art production LSMs.

原文作者:Yifan Dai, Yien Xu, Aishwarya Ganesan, Ramnatthan Alagappan, Brian Kroth, Andrea C. Arpaci-Dusseau, Remzi H. Arpaci-Dusseau

原文链接:https://arxiv.org/abs/2005.14213

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • lsm派系(不仅lsm tree)存储模型概述(上篇)

    虽然分为上下篇介绍,但两篇文章的内容之间比较独立,完全可以单独阅读。 下篇链接如下: lsm派系(不仅lsm tree)存储模型概述(下篇)

    jaydenwen123
  • lsm派系(不仅lsm tree)存储模型概述(下篇)

    这部分内容主要回答我们在文章开头提到的第二个问题。第二个问题展开其实是一连串的问题。例如:lsm派系难道只有lsm tree这一类存储模型吗?如果答案是否定的,...

    jaydenwen123
  • 数据蒋堂 | 遍历复用

    本文共2500字,建议阅读7分钟。 减少外存(硬盘)访问量一直是提高大数据计算性能的永恒话题。

    数据派THU
  • 改进反向传播算法实现高效训练,端到端的目标跟踪结构,微型机器人的新视觉系统 | AI一周学术

    呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!

    大数据文摘
  • LevelDB Java&Go实践

    最近学习出现了一个分叉:levelDB,前进的路上总有意外,经过短暂学习已经掌握了基本使用,并没有阻碍太长时间。

    FunTester
  • 数据库内部存储结构探索

     本文是左耳耗子推荐的Medium上的一篇关于MySQL的文章Some study on database storage internals,本人觉得文章十分...

    程序员历小冰
  • NoSQL概述-从Mongo和Cassandra谈谈NoSQL

    NoSQL: non-relational,Not-Only SQL,致力于解决关系型数据库扩展的问题

    方丈的寺院
  • 一篇综述带你全面了解领域泛化(Domain Generalization)

    「领域泛化 (Domain Generalization, DG)」 是近几年非常热门的一个研究方向。它研究的问题是从若干个具有不同数据分布的数据集(领域)中学...

    AI科技评论
  • 深入理解什么是LSM-Tree

    十多年前,谷歌发布了大名鼎鼎的"三驾马车"的论文,分别是GFS(2003年),MapReduce(2004年),BigTable(2006年),为开源界在大数据...

    我是攻城师
  • 学习泛化能力:用于领域泛化的元学习

    域偏移(Domain shift)是指在一个源域中训练的模型在应用于具有不同统计量的目标域时表现不佳的问题。领域泛化(Domain Generalization...

    智能生信
  • 设计数据密集型应用(3):Storage and Retrieval

    Hash Index 是一种相对简单的索引结构。几乎每一种程序设计语言都有提供内存数据结构 hash map/table 的标准库,比如 C++ 中的 std:...

    linjinhe
  • Linux Security Module逆向分析实战

    本文记录了对某发行版Linux中一个安全模块(LSM)的逆向过程,该LSM对系统中待运行的程序进行安全校验,数据流穿越内核态与用户态,涉及系统内核及系统服务。此...

    FB客服
  • 数据库底层数据结构 B树B+树LSM树 详解对比与总结

    我们熟知常用数据库MySQL MongoDB HBase等底层存储都用了各种树结构,如B树LSM树,不过为什么要用这些结构呢?

    大鹅
  • 数据库选型时必知的存储引擎基础

    在评估和选型数据库的时候,人们往往将重点放在数据建模的灵活性,一致性保证,线性可伸缩性,容错性,低延迟,高吞吐量和易于管理等方面。但怎么才能评判出这些指标呢?很...

    ImportSource
  • ClickHouse|MergeTree引擎之数据分区

    前面通过 一文了解ClickHouse 介绍过ClickHouse,特性,结构,使用场景。自己并未完全深入学习clickhouse,因为公司打算小范围使用Cl...

    用户1278550
  • LSM-tree 基本原理及应用

    LSM-tree 在 NoSQL 系统里非常常见,基本已经成为必选方案了。今天介绍一下 LSM-tree 的主要思想,再举一个 LevelDB 的例子。

    Apache IoTDB
  • LSM与TSM原理分析

    点击上方蓝字,发现更多精彩 导语 LSM作为一种重要的数据存储结构方式,被许多大型开源存储系统应用为底层引擎的存储结构。同时由于influxDB的不断改良,一...

    腾讯VTeam技术团队
  • 【推荐】非常棒的大数据学习资源

    今天为大家推荐一些翻译整理的大数据相关的非常棒的学习资源,希望能给大家一些帮助。 ? 服务编程Akka Toolkit:JVM中分布性、容错事件驱动应用程序的运...

    机器人网
  • 多维度谈OLAP与OLTP数据库

    Online analytical processing (OLAP) is a system for performing multi-dimensional...

    用户4906026

扫码关注云+社区

领取腾讯云代金券