学界 | 不用再学SQL语言了,Salesforce用自然语言就能在数据库中查询

AI 科技评论按:随着机器学习蓬勃发展,新的研究领域不停地出现。除了创造并解决新的问题之外,现有的应用其实也可以从机器学习大为受益。Salesforce 近期的一篇论文就介绍了利用机器学习,无需学习SQL语言就可以在数据库中进行查询。 AI 科技评论把相关报道编译如下。

SQL在编程领域被提到得越来越少,但是SQL语言的学习曲线仍然陡峭,这就让很多人放弃了尝试直接和关系型数据库打交道。CRM 软件服务商 Salesforce 的人工智能研究团队就从自己的业务开始下手,探索如何让不具备 SQL 知识的人通过机器学习打开数据库操作的大门。

在他们近期的论文「Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning」(Seq2SQL:用强化学习从自然语言生成结构化查询语句)中,构建了一个机器学习中典型的序列到序列模型。在其中用到的强化学习让模型在翻译自然语言到SQL数据库查询语句任务中取得了让人眼前一亮的成果。

这就意味着,在实际应用中用户可以直接问系统:“橄榄球高校巡回赛排名第一的是哪支队伍”,系统就会自动查询对应的数据库,然后告诉你答案是密歇根大学队。正如下面这张动图示意的?

Salesforce 研究员 Victor Zhong,也是这篇论文的第一作者,介绍说:“一个正确的查询语句其实可以有好几种写法。如果给系统里输入一个自然语言的问题,对应的查询语句可能会有两三种。我们用强化学习来鼓励系统选用能够查询到相同结果的语句。”

随着自然语言的提问里包含的单词变多,可以想象这种机器翻译任务也会很快变得非常复杂。应对方式就是,对于每一个缺失单词的可能翻译数目施加的限制越多,翻译任务就会变得越简单。Salesforce 的研究人员们就利用了这种想法,他们对系统的提问里、数据库标签里和典型 SQL 查询语句里能够包含的单词做了一些限制,从而简化了翻译系统的设计难度。

让 SQL 平民化其实也不是新鲜事了,Tableau 最近收购了创业公司 ClearGraph,后者的业务就是提供用英语而不是SQL语言查询数据的方案。

Victor Zhong 补充说:“有的模型直接在数据库上做操作,但是如果提问一个关于身份证号的问题就会有潜在的隐私问题。”

除了论文里的方案本身,Salesforce 的这项研究还有一个贡献是他们构建的 WikiSQL 数据集,他们的翻译模型就是用这个数据集训练出来的。他们首先从 Wikipedia 采集了HTML表单,这些表单就成为了随机生成的 SQL 查询语句的基础;他们从这些查询生成了对应的问题,然后把问题放到亚马逊 Mechanical Turk 众包平台上让人类把它们改写成自然语言。每个改写后的句子都会被确认两次,而且还安排了单独的人指导这些确认过程。最终构成的 WikiSQL 数据集也是目前所有同类数据集中最大的一个。

via TechCrunch,AI 科技评论编译

论文地址:https://einstein.ai/static/images/layouts/research/seq2sql/seq2sql.pdf

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-08-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

微软推出开源自动驾驶仿真平台 AirSim 教程,机器学习新手也能快速上手自动驾驶

AirSim 是微软推出的开源项目,用于测试人工智能系统的安全性,该系统提供仿真的环境、车辆动力和感知能力,促进无人驾驶技术的发展。近期,微软的工程师推出了一...

3648
来自专栏AI科技大本营的专栏

观点 | 哈哈,TensorFlow被吐槽了吧

作者 | Nico 参与 | shawn 今天,一篇吐槽TensorFlow的文章在网上刷屏,到底是怎么回事呢?来看这位作者的抱怨有没有道理。 每隔几个月,我都...

28311
来自专栏PPV课数据科学社区

R语言与数据分析之二:绘图

? 图形展示是最高效且形象的数据描述手段,因此巧妙的图像展示是高质量数据分析报告的必备内容,因此强大的图形展示功能也是统计分析软件的必备功能。R语言提供了强大...

39415
来自专栏大魏分享(微信公众号:david-share)

一百年后,什么技术仍然在被使用?AI学习系列第一篇

IT行业发展速度之快,超过了很多IT从业人员的想象。也可以说,近些年IT技术的迭代速度越来越快。也就是说,新技术不仅一直在更新,而且更新的速度,也就是加速度也在...

1203
来自专栏AI科技评论

深度| OpenAI 教你如何构建深度学习研究的基础设施

编者按:OpenAI研究工程师Vicki Cheung, Jonas Schneider , Ilya Sutskever, and Greg Brockman...

3566
来自专栏机器之心

从实验室到工厂,模型部署中的几个重要问题及解决方案

选自kdnuggets 作者:Mauricio Vacas 机器之心编译 参与:Quantum Cheese、微胖 在这篇文章中,我们会讨论在模型管理和部署中如...

2837
来自专栏机器之心

教程 | 从硬件配置、软件安装到基准测试,1700美元深度学习机器构建指南

选自Medium 作者:Slav 机器之心编译 参与:Quantum Cheese、Lj Linjing、蒋思源 在用了十年的 MacBook Airs 和云...

2655
来自专栏重庆的技术分享区

大数据与机器学习融合

我最近与柏林工业大学的学生进行了两次非常有趣的讨论,我了解了机器学习社区和大数据社区之间的鸿沟有多大。

1994
来自专栏PPV课数据科学社区

【译】你真的知道数据挖掘的秘密吗?

版权申明 作者:Jason Brownlee 原文链接:http://machinelearningmastery.com/what-is-data-mini...

2796
来自专栏大数据挖掘DT机器学习

Microsoft 时序算法——结果预算+下期彩票预测篇)

前言 本篇我们将总结的算法为Microsoft时序算法的结果预测值,是上一篇文章Microsoft时序算法的一个总结,上一篇我们已经基于微软案例数据库的销售历史...

4345

扫码关注云+社区