专栏首页镁客网南京大学人工智能学院教授俞扬:从应用出发多角度设计,可得更优算法模型

南京大学人工智能学院教授俞扬:从应用出发多角度设计,可得更优算法模型

图 | 南京大学人工智能学院教授 俞扬

俞扬认为学会思考应用中真正面临的问题并从多角度去解决问题,这很重要。

策划&撰写:Lynn

日前,“首届中文NL2SQL挑战赛”总决赛在南京大学落幕,南京大学人工智能学院教授俞扬被邀请担任评委。

对于公众来说,NL2SQL是一个全新的技术方向,它是自然语言处理(NLP)与数据库查询应用相结合的一个研究方向,是NLP技术研究范畴中的小分支。因此相较于AI领域内的各大赛事,这场比赛称不上“盛大”,但俞扬认为它对学术和产业界的价值是重大的。

图 | 中文NL2SQL挑战赛

“因为近年人工智能业界的关注点多在图像(视觉)上,相对而言,工业数据库等离散信息的分析较为冷淡,所以在这个领域里,像这样与具体应用结合的比赛是有开创意义的。这一次能够有这么多人来参加,也能够引起大家的关注,是一件好事。”

作为人工智能领域知名学者兼导师,多重身份让俞扬从这场比赛中看见了很多。在会后接受采访时,他也谈到了自己因观赛而生出的对于技术发展的诸多思考并分享了有关人才培养、技术研究方向上的建议。

AI与应用结合紧密大势初显

首先,俞扬认为比赛以NL2SQL为主题,某种程度上体现了业界对技术与应用深度结合研究方向的重视,同时也是业内对技术认知日趋客观的一种体现。

俞扬指出,受到各方面因素影响,虽是AI算法与自然语言应用结合的关键技术方向,但一直以来自然语言理解(NLP)相对计算机视觉等领域没有那么火热却是事实。

回顾这一波AI算法浪潮我们容易发现,神经网络在视觉领域的成功应用起到了关键带动作用,随后深度学习算法渗透到了各行各业。Google Trends曾发表数据指出,受深度学习算法影响,自2015年起,“机器学习”的搜索热度一度超过了人工智能本身。

而在这一波热潮中,因视觉领域是深度学习算法最开始发力的地方,大量产业和学界的资源涌入了计算机视觉(CV)领域。作为能够解决传统数据库查询的繁琐问题、有着实用价值的一项技术,NL2SQL在此时被提出,也能够吸引更多人的目光。

“从技术层面看,NL2SQL是将自然语言转化为SQL语句的一项任务,在研究领域是一个比较新的方向。但是它不仅仅是一个技术方向,更为重要的是它可以直接对应到一些应用上面,比如财务报表数据库,有人想知道里面的某一方面信息,运用这项技术,我们就可以用自然语言去提问,机器来回答,这样会更高效便捷。”

正如俞扬提到,NL2SQL是一个技术与应用结合的产物。这场关于NL2SQL的大赛,其意义不仅仅在于对一项技术的推动,而是业内对技术与应用深度结合的重视。

从NL2SQL竞赛看技术落地

具体去看,NL2SQL是如何帮助改进传统数据库查询的?

俞扬介绍说,在过去如果想要知道数据库里面的信息,就需要有专业程序员去写一段查询数据库的机器语言(SQL);现在,NL2SQL可以将自然语言自动翻译成机器语言(SQL)去查询,然后把答案反馈给用户。

“这大大降低了数据库的使用门槛。”

以比赛中的案例来看,俞扬提到选手用自然语言提问“某地在某日的天气是怎样的”,程序可以自动将问题变成在计算机里面可以跑出结果的机器搜索语言,并查询到结果。

俞扬特别补充说,“类似这样的案例都是能够产生实际价值的,这对技术的应用和推广有着直接积极的影响。”但同时他也指出,透过比赛可以看出NL2SQL还有很大的提升空间,比如说在算法泛化能力这一普遍关注点上。

“从大的方向来看,传统的语义知识是不足以支撑商用的,我们更希望能够引入一些常识,引入一些数据库里面没有出现过的东西,让它能够学习判断并应用在一些没有见过的数据处理上,提升泛化能力。”

常识在这一次比赛中被反复提起,也是人工智能想要变得更加“聪明”所必须要弥补的部分。不过加入常识这件事并不容易。

“人有很多常识,但我们往往不知道常识从哪里来。可能因为我们没有课本专门去学习常识,所以就难以界定哪些东西是在我们的常识范围内,因此一开始数据的收集就比较困难。比如鸡有几只腿、兔子有几只腿的问题,大家都知道答案,但是我们没有在课本上学习过,甚至什么时候获得常识都不得而知。而当机器要解决比如鸡兔同笼问题,就必须依赖这些常识知识。”

专业人才应当看得更为长远

当然,除了对技术发展和行业的关注,作为导师,俞扬也更加关注人才培养。

此次比赛以学生给定程序的最终搜索精度为主要评定标准,这有积极意义,自然也有其局限性。

基于过往的经验和长远的发展角度,俞扬也特别给了学生一些自己的建议,“因为是比赛,选手们希望分越高越好,不过从长期的角度来看,比赛用的方法能够得到90分,但想要拿到最后的10分,可能往往需要颠覆现有的方法。所以对于选手们来说,不要过于看重分数,而应该将更多注意力放在背后的原理上。”

另外俞扬也提到,比赛所用数据集和实际应用有差距,所以学生们要学会思考应用中真正面临的问题。一方面,数据不干净、远比比赛复杂的处理要求需要考虑在内;另外一方面,也要学会从不同角度去设计来满足客户的需求,如界面的引导帮助用户修正问题表述,以间接提升搜索精度。

“通过其他角度来辅助设计可以帮助人工智能模型避免一些问题,对于训练模型的使用是有很好的帮助,这也是实际应用设计上不可忽视的一些小细节。”

最后

近年来,NLP的技术研究带来了一些创新型研究机会,NL2SQL是其中之一。目前,Salesforce、斯坦福、耶鲁等机构提出了WikiSQL、WikiTableQuestions、Spider、SParC等大规模数据集,并得到多次评测结果的提交。以WikiSQL为例,在排行榜上有多达19次的评测结果的提交。

不过基于中文数据集的NL2SQL技术还尚待发展,追一科技与南京大学计算机软件新技术国家重点实验室联合举办了这样一场比赛,无疑对这一技术在国内的应用起了重大推动作用,这也是俞扬十分看好它的原因之一。

本文分享自微信公众号 - 镁客网(im2maker)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • SQL注入攻击导致BIGINT溢出错误

    首先, 溢出,通俗的讲就是意外数据的重新写入,就像装满了水的水桶,继续装水就会溢出,而溢出攻击就是,攻击者可以控制溢出的代码,如果程序的对象是内核级别的,如d...

    随心助手
  • 某CMS最新版后台漏洞

    file_unlink("../../".list[info]); 这个点很有意思,list[info]从数据库met_plist表里读出,然后删除文件

    随心助手
  • Android多进程4-需要注意的地方

    有一点一定要记住:进程间的内存空间是不可见的。从而,开启多进程后,我们需要面临这样几个问题:

    随心助手
  • 由浅入深说Serverless之云函数的生命周期

    这是 Serverless 最佳实践系列文章的第一篇,希望通过这系列文章帮助大家更深入的了解 Serverless 背后的机制并掌握相关的最佳实践。

    腾讯云serverless团队
  • 利用Python进行数据分析(12) pandas基础: 数据合并

    坚持看完每一篇文章,践行自己最初想学好数据分析的目标,我们不像在学校那样,我们现在要提高效率,必须给自己定位目标以驱动型学习,这样才能学好一件事,李笑来说过,给...

    公众号---志学Python
  • 软件测试之大数据测试

    大数据的体量大、多样化和高速处理所涉及的数据生成、存储、检索和分析使得大数据工程师需要掌握极其高的技术功底。

    测试小兵
  • Java 2019 生态圈使用报告,这结果你赞同吗?

    这是国外一机构调查了 7000 名开发者得出来的 Java 2019 年生态圈工具使用报告,主要调查了 Java 版本、开发框架、web 服务器等使用情况。虽...

    腾讯大讲堂
  • 为什么客服需要中台战略(上)

    最近从朋友圈到各种培训,大家到处都在谈论“中台”,阿里、腾讯、字节跳动、华为等知名互联网公司及科技公司都相继发布自己的中台战略。那么到底中台是个什么鬼?

    云问科技
  • Ubuntu & MacOS安装Mysql & connector

    周希
  • 【Python MySQLdb】Library not loaded: /usr/local/mysql/lib/libmysqlclient.20.dylib解决办法

    20.dylib是有路径的, 如果这里没有路径需要添加路径, 使用下面用到的修改连接的方法

    周希

扫码关注云+社区

领取腾讯云代金券