我目前正在为多项选择题产生干扰物。训练集由问题、答案和3个干扰者组成,我需要预测测试集的3个干扰者。我已经看过很多关于这方面的研究论文,但我的问题是独一无二的。这里的问题是,问题和答案是为了理解(通常是一大段文字故事),但理解的基础上,没有给出,也没有给出任何支持文本的问题。此外,答案和干扰物不是一个单词,而是句子。我去的研究论文主要是用一些支持性的文本。即使是SciQ数据集也有一些支持文本,但工作问题不同。
这的研究论文正是我所想要的,我正计划实现这一目标。下面是一篇论文的摘录,作者说这篇论文比神经网络模型更有效。
我们将DG问题归结为以下排序问题:问题。给定候选分配器集D和MCQ数据集M= {(qi,ai,{di1,.,dik})} N i=1,其中气是问题的中心,ai是关键,Di = {di1...dik}⊆D是与qi和ai相关联的分配器,找到一个按点排序的函数r:(qi,ai,d)→0,1 for d∈D,使得Di中的分配器排名高于D−Di中的分配器。
我的问题是:根据我所理解的,上面的行说我们首先创建一个包含数据集中所有干扰者的大列表,然后我们为每个问题创建一个针对所有干扰因素的点态排序函数?所以如果我们有n个问题和干扰因素。我们将有一个(nxd)矩阵,其中点态函数的值介于o和1之间。另外,一个问题本身的干扰因素应该比其他的更高。对吗?
为了学习排序函数,我们研究了两种类型的模型:基于特征的模型和NNbased模型. 基于特征的模型:给定一个元组(q,a,d),基于特征的模型首先将其转换为带有函数φ(q,a,d)∈R的特征向量φ。我们为DG设计了以下特性,生成了一个26维的特征向量:
我的问题是:这些特征生成的想法会同时适用于文字干扰和句子干扰吗?(根据报纸,他们声称会这样做)。
除了所有这些,我还有其他简单的问题,例如我是否应该删除这里的句号?
我对NLP很陌生。因此,任何关于SOTA实施在这里工作的建议都是非常有用的。提前谢谢。
发布于 2019-10-08 07:50:35
这是一个巨大的研究课题,在你的情况下,产生一个模糊的答案或干扰物确实是在巨大的NLP中非常坚持问题。从那时起,没有最先进的方法来完美的解决问题。
但是已经尝试了几个实现方法,我建议使用两步方法:
1)利用概念嵌入相似度生成干扰源,提供初始列表。
2)利用IR(信息检索)中的RE排序方法来提高预测效果。
希望能有所帮助:ga=2.11580023.2137318516.1570520867-988658311.1570520867
https://stackoverflow.com/questions/58219555
复制相似问题