文章/答案/技术大牛

发布

百分点认知智能实验室出品：增强分析中的智能问答揭秘

文章来源：企鹅号 - 百分点

编者按

NL2SQL是语义分析的一个子领域，它是智能问答功能的核心部分，但目前还没有成熟的可商用的技术方案。为此，百分点认知智能实验室提出结合了语义分析与深度学习的技术方案，即X-SQL的思路解决了该商用问题。百分点还综合利用了自然语言处理、深度学习、X-SQL、依存句法，实现了自然语言预处理、NL2SQL、图表匹配等模块，形成了一整套增强分析技术方案。该方案在实际测试中达到90.45%的准确率，且在实际使用中达到了可以商用的效果。

增强分析是指以机器学习为基础的数据分析和BI功能，包含智能数据发现、增强数据准备、增强数据分析等模块。目前增强分析已经在BI中广泛使用，Gartner认为，到2020年，增强分析将成为新用户购买BI产品、数据科学和机器学习平台，以及嵌入式分析的主要驱动力。

通过增强分析功能，能够极大地降低用户的数据分析门槛，使一个非专业人员也能够轻松完成数据预处理和数据分析的整个分析流程。

增强分析中的智能问答

智能问答功能是增强分析中非常重要的一个子任务，其目的是让用户能够通过一句自然语言就能自动生成对应的图表。比如，提问“2015年各地区的销售额？”系统自动就会展示出如下的结果：

在学术界，这个任务叫做NL2SQL，目前已经有很多研究。英语环境通常采用的是WikiSQL和Spider，而中文目前还没有统一的数据集。在WikiSQL数据集上，Leaderboard中的方法都是把这个任务转化为槽值填充，然后利用深度学习的方法训练多个不同的子模型对每个槽位进行填充，比如作为SOTA模型的X-SQL。

虽然在WikiSQL数据集上，模型的效果已经超越了人类，但是在产品化的过程中，WikiSQL过于简单，比如它只支持1个查询目标，1个聚合函数和最多4个过滤条件，不支持分组。而在实际使用中，有多个查询目标以及包含分组字段的问题比比皆是，比如“各省份的人口”，“每年的人口”，所以只是采用X-SQL的方法无法满足工业的需要；Spider数据集中不仅支持对分组进行提问，而且支持跨表join，但是SOTA模型的测试准确率只有55%，还无法满足产品化的效果。

此外，在实际提问时，时间是一个很特殊并且重要的因素，比如用户可能会问“近七天的总销售额”，“2019/2018年的销售额”，“今年前三个季度的总销售额”等等，这些内容在数据集中都没有覆盖。

基于 X-SQL 和依存句法树的智能问答方法

基于以上这些数据集的局限性，百分点智能问答的任务既需要让模型能够准确地提取问题中的槽位信息，又需要无监督的语义分析方法，只有这样才能满足实际使用的需要。

所以我们以X-SQL的思路，采用槽位匹配的方法提取出问题中的select、where内容，然后利用这些信息辅助依存句法树的解析，最终得到完整的select、where、group、order等内容。

值得注意的是，问题中的“时间”需要采用模板的方法，这样更易于扩展。

将自然语言转化成SQL ，本身可以认为是一个Seq2seq的任务，所以在WikiSQL中很多早期模型也确实是这么做的，比如Corse2fine。它会对问题和字段名进行编码，然后利用中间的预解码层将向量解码为SQL的框架，这个过程就能相当于自动生成了槽位模板，再把槽位模板也进行编码，结合原始的向量，最后能够解码出最终的SQL。但是这样生成的结果不一定符合SQL的语法规则，所以后面改进的生成方法都是事先写好SQL的模板槽，然后再用多个模型逐个预测槽位，X-SQL就是其中一种。

下面详细介绍X-SQL的大体流程，如下图所示，先通过MT-DNN对原始问题及字段名称进行编码，再在问题前面人为地添加一个[CXT]用于提取全局信息。中间的Context Reinforcing Laryer层是这个模型的核心部分，它的目的是把MT-DNN得到的预训练编码在NL2SQL任务上进行增强和重组。这个中间层不仅能体现上下文信息，还能通过Attention机制对字段名称的编码进行强化（紫色部分）。这一层输出的结果包括问题的编码，以及强化后的字段编码，后面的输出层都会在这个基础上进行。输出层包括6个子模型：S-COL和S-AGG用于预测select的字段，只依赖于强化后的字段名称编码，通过softmax对每个字段打分就行了；W-NUM只依赖全局信息，用于预测where条件个数；W-COL、W-OP和W-VAL用于预测过滤条件的具体内容，通过组合字段编码，当前的where条件编号及问题编码，通过softmax评分就能得到需要的结果。

这个架构已经十分完善了，但是由于数据的局限，模型无法预测多个select及group的内容。而且模型完全依赖字段名称去提取过滤条件和select的内容，在中文字段名称特征不够明显或者领域数据与训练数据偏差较大时，容易出错。

另一种方式是语法分析，一般依赖于依存句法分析的结果，能够把问题的语法依赖关系体现出来，在此基础上结合POS，NER的结果，可以使依存语法树上的每个节点都具有词性、实体标签等属性。然后通过后序遍历，每次遍历到父节点的时候，都将孩子节点及当前父节点的内容进行整理合并，最终遍历到根节点的时候，就得到了select、group等要素。这种方法的好处是，它完全依赖于问题的语法规则，不需要训练数据，并且对于领域不敏感，迁移性强；缺点是只能处理相对规范的问题，对非常灵活的问题效果不佳。

那么如果能够结合两种方法，就能把语法和语义结合起来，得到能力更为强大的分析模型。也就是说，X-SQL从深层语义的角度提取要素，而语法分析从问题的语法组成结构上进行提取。具体实现时，X-SQL的方法能够解析出1个select、1个聚合函数、最多4个过滤条件。通过pyltp库可以得到问题的分词、依存句法树、词性标注、命名实体，加上X-SQL解析得到的结果，就可以得到一颗包含了每个词的词性、实体类别、结果标签（select、聚合函数、还是过滤条件中的字段名、操作符或字段值）、依存关系的树。

看一下具体的流程：

问题1：各地区的总新增订单量

步骤1：分词后的结果（需要考虑字段名，X-SQL的结果）：各地区的总新增订单量

步骤2：得到的聚合了所有信息的树：

其中HED、ATT等表示依存关系，HED表示核心关系，ATT表示定中关系，RAD表示附加关系。

步骤3：通过词库以及后序遍历解析依存树

1.首先遍历到“总”。由X-SQL得知这是聚合函数。

2.遍历到“各”。得到这个是一个分组描述符。

3.遍历到“的”。得到这是一个无意义的词。

4.遍历到“地区”。从表中匹配得知这是一个字段名称，从孩子节点处得到的信息及ATT的关系，得知这是一个分组字段。

5.遍历到“新增订单量”。由X-SQL得知这是查询词，并且结合孩子节点得知聚合函数是“总”，分组词是“地区”。

6.遍历到root，得到最终结果：select内容为总新增订单量，分组字段为地区。

步骤4：最终得到解析结果

问题2：销售额最高的3个地区

步骤1：分词后的结果（需要考虑字段名，X-SQL的结果）：销售额最高的3个地区

步骤2：得到的聚合了所有信息的树：

其中SBV表示主谓关系。

步骤3：

1.遍历到“3个”。由词性及规则得知这个是limit。（不是where中的内容，否则会被X-SQL标记出来）

2.遍历到“销售额”。得知这是一个字段名。

3.遍历到“的”。得到这是一个无意义的词。

4.遍历到“最高”。由依存关系，以及孩子回溯上来的信息，得知这个是一个降序排序信息。

5.遍历到“地区”。由X-SQL得知这是查询词。并且整合孩子节点的所有信息，得知limit 3,按销售额降序排序。

6.遍历到root，得到最终结果：select内容为地区，limit 3,按销售额降序排序。

步骤4：得到最终结果。

此外，在具体使用的过程中，经常会出现比较复杂的时间问法。比如“上个月”、“近7天”、“一二季度“、“2018/2019年”、“去年3月份”等等。对于这些问法相对固定，但是解析时需要利用大量知识的内容，我们采用了模板的方法进行处理。

模板定义：

一个模板包括问法模板和解析结果两部分。

1.问法模板定义了问法的句式，由槽位、普通字符和正则语法构成，其中槽位暂时只用$就够用了。例如“$$季[度]”，“$/$年”。

2.解析结果是问法模板对应的解析结果。由“value”, “start”,“end”三个字段构成。“value”是列表，每个值定义了某个具体时间，存在多个时相互间取并集。“start”和“end”表示一个时间段的开始时间和结束时间，只有当“value”不存在时才会有“start”和“end”。在解析结果中需要NOW_YEAR、NOW_MONTH、NOW_DAY常量表示当前的年、月、日。

3.下面是一个具体的模板实例：

其中template表示问法模板，result表示解析结果。这个模板可以匹配类似“近7天”模式的时间表达。

有了模板之后，只需要解析模板就行了。将template转化成对应的正则表达式后，把问题中的词替换成对应的槽位，再用正则表达式进行匹配和提取，匹配完成之后，将得到的槽位信息对应填入result中就得到了最终的解析结果。需要注意的是，匹配时间是先置步骤，需要在X-SQL和语法树解析之前进行，为了避免时间对下面的解析造成影响，在模板匹配提取之后，需要将问题中的时间词语删除。

效果评价

X-SQL采用通过对WikiSQL翻译得到的50000条有标注数据进行训练，取其中5000条作为测试数据，准确率达到了80%以上。

实际测试环境中，由于中文NL2SQL领域还没有统一的数据集，所以通过收集用户实际在平台上的使用数据，最终得到了266条中文测试数据（问题中可能包含了分组、过滤条件、复杂的时间表达、查询内容和排序等），在这个基础上进行测试，得到的结果如下：

在学术界一般都会以WikiSQL和Spider作为训练集和测试集，且都是英文数据集。由于WikiSQL不支持复杂时间及分组，不具备可比较性，而在Spider上目前最优效果为测试准确率55%。

关于NL2SQL的延伸思考

目前学术界对Nl2SQL已经做了很多的研究，从最早的模板匹配方法，到后来语法解析，以及最近的深度学习方法。特别是在BERT等预训练模型出现之后，深度学习的方法在WikiSQL数据集上取得了非常好的效果，出现了SqlNet、Corse2fine、X-SQL等一系列模型。虽然在工业界的使用中，WikiSQL和国内一些企业的数据集还是过于简单，但是它们的思想是可以借鉴的。另一方面，基于依存句法树之类的语法分析方法也有其可取之处，通过结合语法分析和语义分析能得到更好的效果。而对于“时间”的处理，由于它的表达比较规范，但是处理时需要大量的知识，这种情况下或许模板才是最适合的方法。所以在工业界使用的过程中，还需要具体情况具体分析。

发表于: 2019-10-312019-10-31 18:05:11
原文链接：https://kuaibao.qq.com/s/20191031A0KTFZ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

百分点认知智能实验室出品：增强分析中的智能问答揭秘

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐