前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【前沿】谷歌大脑Jeff Dean最新工作:用机器学习索引替代B-Trees,性能提升3倍

【前沿】谷歌大脑Jeff Dean最新工作:用机器学习索引替代B-Trees,性能提升3倍

作者头像
WZEARW
发布2018-04-11 16:48:20
1.3K0
发布2018-04-11 16:48:20
举报
文章被收录于专栏:专知

【导读】最近谷歌Jeffrey Dean等人发表工作《The Case for Learned Index Structures》:用机器学习来学习数据分布,从而替代B-Trees、哈希索引和布隆过滤器减少索引的大小,结果表明新方法3x性能提升和10-100x空间缩小。

▌知乎网友相关回答


摘抄自知乎网友Huijun Wu的回答

链接:https://www.zhihu.com/question/263916416/answer/27

这篇文章应当是一个引领新潮流的工作。如果将ML理解为一个建模方法,那么用其来应对复杂多变的workload其实是很吸引人的idea。杂多变的workload其实是很吸引人的idea。从近期计算机系统和数据库类的会议文章来看,人们也慢慢开始用ML来解决传统的系统设计经验带来的sub-optimal solution的问题。在索引、缓存算法还是负载均衡等问题中,高性能往往来源于算法本身对workload的假设与实际情况的高度契合。以缓存算法为例,脱离workload特性谈某种缓存策略更优都是耍流氓,那如果AI能够准确建模当前workload特性,那么对于选择甚至构造一种最优策略都大有裨益。

但用ML解决此类问题依然存在显著问题。建模复杂问题往往需要复杂模型,而复杂模型的计算存储效率依然是问题,ML community自己也在研究模型压缩等问题。如果说仅仅进行预测的计算量还不算大的话,训练开销则不可忽视。类似于这篇文章中的假设,对于负载相对不变的情况,模型是不需要重新训练,训练开销也许不是什么大事,但是个人觉得这类问题对于ML的需求其实比较弱。更多的实际情况应该是workload在变化,怎么识别concept drift并高效调整模型,从而给出更优的策略。

总的来说,ML对诸多研究领域都带来许多新机会和新挑战。有ML这个新工具,很多问题得以更精确建模和解决。ML本身的问题,比如对硬件性能的高需求,算法的可靠性可解释性也使得在真正使用之前还需要做很多工作。

▌论文


论文:The Case for Learned Index Structures

摘要:索引是模型:B-Tree-Index可以被看作是一个模型,用于将键映射到排序数组中的记录的位置,哈希索引也是一格模型,将键映射到未排序数组的记录位置,一个BitMap-Index作为模型来指示数据记录是否存在。在本文的探索性研究中,我们从这个前提出发,假设所有现有的索引结构(index structures)都可以用其他类型的模型来代替,包括深度学习模型,我们称之为索引学习(learned indexed)。关键的思想是,一个模型可以学习排序顺序或查找键的结构,并使用这个信号来有效地预测记录的位置或记录是否存在。从理论上分析了索引学习在哪些条件下表现优于传统索引结构,并描述了索引学习结构设计中的主要挑战。最初的结果表明,通过使用神经网络,我们能获得比用缓存优化(cache-optimized)的B树高出70%的速度,同时在几个真实数据集上的内存占用节省了一个数量级。更重要的是,我们相信通过学习模型取代数据管理系统核心组件的想法对未来的系统设计有着深远的影响,而且这项工作只是相关工作的冰山一角。

参考链接:

https://www.arxiv-vanity.com/papers/1712.01208v1/

https://www.zhihu.com/question/263916416/answer/275010943

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-12-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 专知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
负载均衡
负载均衡(Cloud Load Balancer,CLB)提供安全快捷的流量分发服务,访问流量经由 CLB 可以自动分配到云中的多台后端服务器上,扩展系统的服务能力并消除单点故障。负载均衡支持亿级连接和千万级并发,可轻松应对大流量访问,满足业务需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档