专栏首页Reinvent Data Science万物皆可embedding,AI应用神器Milvus登顶数据库顶会SIGMOD

万物皆可embedding,AI应用神器Milvus登顶数据库顶会SIGMOD

Milvus 团队期待能打通 embedding 空间的相关技术,比如中间层、中间层的神经网络模型。落实到具体场景应用上,则期待看到综合场景下搜索技术的突破,对不同模态的数据进行高效准确的关联搜索。

身处万物皆可 embedding 的 AI 时代,Milvus 团队有什么技术见解,研发工作遵循什么方法,关于 AI 和数据库这一交叉领域又有怎样的思考?跟着这篇 AI 科技评论的专访,咱们深入了解一下。

AI 科技评论报道

编辑 | 陈大鑫

想象一下,一位计算神经科学家正在引导数百只小老鼠在迷宫运动,还用上了最新技术对实验对象的神经元进行成像。小白鼠们没兜几圈,TB 级的视频数据和大脑数据就产生了。

接下来,科学家还要把庞杂的图像信息转化成深度语义,计算数据之间的关系,做出关于行为如何被大脑控制的假设,并进行下一轮的验证工作。

不仅仅是科研领域,随着科技的高速发展,智能城市、电子商务等跟民生相关的社会场景都需要进行海量动态数据的预处理。这个时候,就需要用到能够梳理数据关系的通用型基础设施。

在刚结束的数据管理国际顶会 ACM SIGMOD/PODS(Special Interest Group on Management of Data)上,一款从非结构化数据中挖掘隐式语义的神器——向量数据库 Milvus,就因强大的底层功能而被评委会相中。

(论文链接:https://www.cs.purdue.edu/homes/csjgwang/pubs/SIGMOD21_Milvus.pdf)

Milvus 由创业公司 Zilliz 研发,是顶级开源基金会 Linux 基金会旗下 Al 子基金 LF Al的毕业项目,旨在降低非结构化数据搜索的应用门槛,并在不同部署环境下提供一致的使用体验。

SIGMOD'21 评审委员对 Milvus 给予了极高评价:“此项研究成果突破性地实现了向量数据管理的通用系统设计,在满足动态数据实时搜索的同时,也能满足实际业务中多样化的查询需求。作为一项开源技术,Milvus 被广泛应用于人工智能前沿领域,其试验性能大幅超越同类向量检索系统,使得这篇论文极具启发性和借鉴意义。”

能造神器者,必有相应心法,顺应天时、由心造境。AI 科技评论采访了负责此次论文工作的易小萌博士,一探 Milvus 团队的武功究竟。

天时:AI时代,万物都在矩阵中

1、AI 科技评论:当初为何想到要做 Milvus 项目?

Milvus 项目是2018年启动的,当时我们观察到两个趋势:

一方面,非结构化数据将成为信息的主要载体。

另一方面,AI 模型将会是提取非结构化数据内在信息的关键计算手段。现在看起来,这两方面趋势已经越来越明显了。

全世界每天有几十万 PB 的非结构化数据被产生出来,这些数据经过 AI 模型提取了丰富的信息(也就是人们常说的 embedding ),但却没有一个底层基础软件能够有效管理和分析这些 embedding 数据。

AI 模型提取出的这些 embedding 都是向量化的表示,Milvus 所管理的数据都是向量,进行的运算也基本是向量和矩阵运算。我最喜欢的一个比喻是黑客帝国中的母体,本质是一个巨大的向量和矩阵的集合,作为基座支撑上面各类形态的 AI。

2、AI 科技评论:Milvus 属于数据库和AI两个领域的交叉工作,有遇到什么新问题吗?

数据库和 AI 两个领域都挺不好搞的。数据库领域很多工作,比如一致性协议,属于那种 'you know everything but nothing works'。AI 的话正好反过来,'everything works but nobody knows why'。我们在这个交叉领域就很不一样了,'nothing works and nobody knows why'。

发这篇论文主要是想把我们在非结构化数据分析与搜索领域摸到的一些东西分享出来,也是想开个坑,拉更多学术界和业界的朋友一起到这个坑里来探索,因为这个领域很新也很重要。

3、AI 科技评论:Milvus 团队正在结合 AI 做更深的探索,能否谈谈对于这个交叉领域的期待?

在我们团队里有一句话,万物皆可 embedding。不过现在通过不同的 AI 模型所获得的是一些相互独立的 embedding 空间,是一系列信息孤岛,这就好像 wikipedia 的每个词条都是用一种不同的语言书写的。给出每个词条的语义解释能够帮助解决不少问题,但如果能将不同词条的语义解释关联起来,将会产生巨大的应用价值。我们非常期待能打通这些 embedding 空间的相关技术,也许是一些中间层的 embedding 空间,也许是一些中间层的神经网络模型。

落实到具体的场景应用上,我们期待看到综合场景下搜索技术的突破。近几年,随着多模态学习技术的日益发展,同一事物在不同模态之间信息的关联和互补关系得到了深入的研究。相比而言,目前的数据搜索模式相对单一,通常只能较好的解决单一模态下的数据搜索问题,而如何对不同模态的数据进行高效准确的关联搜索仍然是一个开放性的问题。解决这一问题需要在算法、模型和系统层面上进行深入的探索和分析。

心法:开源,做有意义的系统工作

4、AI 科技评论:Milvus 团队多位骨干都有学术界的经历,为何会来到一个 start-up?

包括我在内的多位研发团队成员都出自华中科技大学金海教授的实验室,我在读博期间对金海教授讲的“做有意义的系统工作”印象特别深刻。有意义的系统工作在学术界或工业界其实没有很明显的边界,同时工业界近年来在研究领域的优势愈发明显,依靠规模与场景两个高地构建了很多优秀的系统,比如谷歌的 BigTable、GFS、MapReduce。

早些年,很多领域都是学术界走在前面,但是在计算机系统领域有很多反转的现象,不少经典的方向都是工业界先开坑,然后学术界在这个基础上不断完善。在学校的时候老师常常对我们说,让自己快速成长最好的办法就是要跳出自己的“舒适区”。以我为例,逐渐熟悉了高校里面做研究的方式之后,就希望能够到企业对自己进行新一轮的锤炼。

5、AI 科技评论:能否展开谈谈“做有意义的系统工作”?

我在学校的研究方向比较偏理论,研究的内容通常是在某些特定场景,在一定的假设条件下如何优雅地解决一个问题。在企业里面做事天然会从实际意义出发,相比优雅,我们的解决方法更需要的是健壮。所以,我们所说的“做有意义的系统工作”,并不是指从 paper 产生 paper,而是从实际的系统中抽象出来一些问题,包括系统设计的框架、具体的优化方案、最终目标,解决之后又重新应用回系统中去。

读博那会儿,觉得最缺的是好问题。现在做 Milvus 这样的开源基础软件,研究和研发同时被用户和社区推着快速迭代,值得解决的问题太多了。很多时候,要抑制自己做研究的冲动,把资源投到项目的快速迭代上面去,这样才能维护好问题的源泉,也就是用户和社区。从这个角度看,我觉得开源社区在未来一定会和学术界有更多类似的合作实践。

6、AI 科技评论:开源社区和研究课题之间具体是怎样的关系?

开源这套理念经过了几波发展,从早期的 “半宗教” 性质到现在,融入了很多商业上的探索。最直接的就是开源之后,与用户和技术人员的接触面积大幅提高。好的项目,从某种层面看,对好的问题处于垄断地位。开源有助于把技术和场景两方面的因素更加有效地糅合起来,不断碰撞,产生化学反应。开源社区和学术界,主要也是围绕这些 “好的问题”进行互补。

目前,我们在思考如何更高效地开源 “问题”。在社区的活动形式上也在做新的尝试,希望把更多 “好的问题” 暴露给学术界。

7、AI 科技评论:总结一下,Milvus 技术团队做项目的路径和方法是什么?

首先,要充分了解过去。几乎所有的创新性工作都是基于前人的基础完成的,就算是在比较新的领域里面也是一样。我们需要对现有技术有充分的了解,在此基础之上审视我们所遇到的问题,然后再寻找可能的解决方案。

然后,需要有途径去看未来。总体而言,研究类工作是面向未来的。未来场景是什么样子、上层应用对底层系统有哪些需求、痛点和难点是什么,这些都是需要仔细探讨认真推断的。要做到这一点,我们认为最好的方法就是探索场景。只有从深度和广度两个方面扩展对场景的理解,才能清楚各个场景下对系统能力最普遍最迫切的需求是什么,从而以场景为约束去塑造系统。

最后,不要造了锤子找钉子。开发基础软件有时候就像是造锤子。如果等锤子造好了之后再去根据锤子的形状去找能敲的钉子,也许就会发现其实有很多的钉子不太适合用这个锤子来敲。这个时候再想要调整锤子的形状就比较困难了。我们应该避免为了做系统而做系统的模式,而应该看准实际场景中的问题。只有尝试解决有价值的问题,才能产生有价值的系统工作。

Zilliz 以重新定义数据科学为愿景,致力于打造一家全球领先的开源技术创新公司,并通过开源和云原生解决方案为企业解锁非结构化数据的隐藏价值。

Zilliz 构建了 Milvus 向量数据库,以加快下一代数据平台的发展。Milvus 目前是 LF AI & Data 基金会的毕业项目,能够管理大量非结构化数据集。我们的技术在新药发现、计算机视觉、推荐引擎、聊天机器人等方面具有广泛的应用。

本文分享自微信公众号 - ZILLIZ(Zilliztech),作者:AI科技评论

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-07-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 重磅!Milvus 论文入选数据库顶会 SIGMOD’21

    近日,介绍开源向量数据库系统 Milvus 的技术论文 “Milvus: A Purpose-Built Vector Data Management Syst...

    Zilliz RDS
  • 双周动态|中国电信发布5G融合应用开放实验室及公共卫生应急管理与指挥决策平台;自动化所研发全球首个图文音三模态预训练模型

    编者按:【双周动态】是【融智未来】推出的产业动态及投融资事件回顾栏目,主要盘点两周内产业大事件和创新企业投融资动态。

    灯塔大数据
  • Milvus 实战|生物多因子认证系列 (一):声纹识别

    声纹识别(又称说话人识别)是从说话人发出的语音信号中提取声纹信息,并对说话人进行身份验证的一种生物识别技术。简单来说,声纹识别技术可以“确认说话人是谁”。我们说...

    Zilliz RDS
  • 霸榜 GitHub,狂揽6000星,这是今年最值得关注的开源项目!

    对于很多 AI 应用开发者来说,尽管模型已经训练完成,一旦提及落地部署 ,总逃不开“向量召回”这一魔咒。

    Zilliz RDS
  • AI 搜房,贝壳找房的Milvus实践

    贝壳作为一家房产服务互联网平台,如何在海量房源中选出能够快速成交的房源是对平台和经纪人来说都是一件非常重要同时具有挑战的事情,但是针对房型图,户型信息等一系列非...

    Zilliz RDS
  • 拒绝「扼脖子」,Zilliz 打造国产开源基础软件样板

    内容概要:2020 年中美贸易摩擦频发,美国对中国的制裁从实物蔓延到了技术领域,降低对国外基础软件的依赖、寻求科技自主的风气盛行,国产基础软件从幕后走到台前,开...

    HyperAI超神经
  • Milvus 赋能 AI 药物研发

    新药研发领域长期以来都以耗时长、成本高、风险大、回报率低而著称,一款新药的平均研发成本已经高达 26 亿美元,而平均耗时需要十年。尽管付出了如此高昂的研发成本和...

    Zilliz RDS
  • 性能全面超数据库专家,腾讯提基于机器学习的性能优化系统 | SIGMOD 2019

    腾讯与华中科技大学合作的最新研究成果入选了国际数据库顶级会议SIGMOD的收录论文,并将于6月30日在荷兰阿姆斯特丹召开SIGMOD 2019国际会议上公开发表...

    AI科技大本营
  • 动态 | 2018 ACM 杰出科学家名单最新公布,12 位华裔学者上榜

    AI 科技评论:日前,ACM(国际计算机学会)公布了 2018 年度 ACM 杰出科学家名单,全球共有 49 名研究人员入选。其中,华裔学者的表现非常出色,上榜...

    AI科技评论
  • 重磅!2018 ACM 杰出科学家名单最新公布,12 位华人学者上榜

    雷锋网AI 科技评论:日前,ACM(国际计算机学会)公布了 2018 年度 ACM 杰出科学家名单,全球共有 49 名研究人员入选。其中,华人学者的表现非常出色...

    昱良
  • MySQL之父,MySQL官方,三大顶会齐赞,凭什么?

    工作久了,人总会有种忘记初心的感觉。 相信每个人小时候都想过成为一名科学家,只不过到后来,连自己都忘了。 当一名科学家确实不容易,学术研究难,薪酬待遇还不高,...

    腾讯云数据库 TencentDB
  • 犀牛鸟硬核 | 腾讯云数据库TDSQL两篇论文入选顶会SIGMOD,产学研结合助力国产数据库生态建设

    ? 6月20日-25日,2021 ACM SIGMOD 在西安举行,腾讯云数据库TDSQL两篇论文入选,领域涉及分布式数据库事务处理、存储等关键技术领域,致力...

    腾讯高校合作
  • CCF-腾讯犀牛鸟基金获奖者北京大学邹磊副教授在数据库领域顶级国际会议和期刊上成绩杰出

    随着大数据时代的到来,传统的数据管理正逐步地向基于语义的知识管理转变。“知识图谱”作为一种知识表示方法,对于正确理解用户查询意图,提高互联网搜索精度能起到重要的...

    腾讯高校合作
  • 【犀牛鸟·硬核】腾讯-华中科技大学联合实验室最新研究成果入选SIGMOD国际顶级会议研究类长文

    ? 前言:腾讯与华中科技大学于2018年成立智能云存储技术联合研究中心,联合研究中心旨在通过强强联合建设一流的智能云存储技术创新和人才培养平台,吸引汇聚顶尖专...

    腾讯高校合作
  • 华为201万年薪毕业生:曾拒绝360万年薪,希望能助华为渡过难关

    “在数据库相关领域,张霁也曾做出过多项研究成果。SIGMOD在2019年还收录了张霁的论文,该论文介绍了一种采用深度强化学习方法的云数据库自动性能优化系统,可以...

    数据猿
  • AI非结构化数据处理和分析软件公司Zilliz宣布完成4300万美元B轮融资

    “数据猿年度重磅活动预告:2020年度金猿策划活动(金猿榜单发布+金猿奖杯颁发+2.0版产业图谱+落地颁奖大会)即将推出,敬请咨询期待!

    数据猿
  • Milvus 实战|生物多因子认证系列 (二):人脸识别

    视觉 AI 作为一个已经发展成熟的技术领域,具有丰富的应用场景和商业化价值,全球 40% 的 AI 企业都集中在视觉 AI 领域。近年来,视觉 AI 除了在智能...

    Zilliz RDS
  • Milvus 实战|利用 Milvus 搭建基于图的推荐系统

    推荐系统[1](Recommender System,RS)能够根据用户的偏好主动为用户推荐商品或项目。它通过用户的历史数据来发掘用户兴趣偏好,从而将用户可能感...

    Zilliz RDS
  • 脑机头条 第11期| 清华和中国工程院联合发布"AI 2000人工智能全球最具影响力学者"

    AI 2000 人工智能全球最具影响力学者榜单(以下称为 AI 2000)旨在未来10年通过AMiner学术数据在全球范围内遴选2000位人工智能学科最有影响力...

    脑机接口社区

扫码关注云+社区

领取腾讯云代金券