首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >多项选择题的干扰生成

多项选择题的干扰生成
EN

Stack Overflow用户
提问于 2019-10-03 12:52:26
回答 1查看 566关注 0票数 1

我目前正在为多项选择题产生干扰物。训练集由问题、答案和3个干扰者组成,我需要预测测试集的3个干扰者。我已经看过很多关于这方面的研究论文,但我的问题是独一无二的。这里的问题是,问题和答案是为了理解(通常是一大段文字故事),但理解的基础上,没有给出,也没有给出任何支持文本的问题。此外,答案和干扰物不是一个单词,而是句子。我去的研究论文主要是用一些支持性的文本。即使是SciQ数据集也有一些支持文本,但工作问题不同。

的研究论文正是我所想要的,我正计划实现这一目标。下面是一篇论文的摘录,作者说这篇论文比神经网络模型更有效。

我们将DG问题归结为以下排序问题:问题。给定候选分配器集D和MCQ数据集M= {(qi,ai,{di1,.,dik})} N i=1,其中气是问题的中心,ai是关键,Di = {di1...dik}⊆D是与qi和ai相关联的分配器,找到一个按点排序的函数r:(qi,ai,d)→0,1 for d∈D,使得Di中的分配器排名高于D−Di中的分配器。

我的问题是:根据我所理解的,上面的行说我们首先创建一个包含数据集中所有干扰者的大列表,然后我们为每个问题创建一个针对所有干扰因素的点态排序函数?所以如果我们有n个问题和干扰因素。我们将有一个(nxd)矩阵,其中点态函数的值介于o和1之间。另外,一个问题本身的干扰因素应该比其他的更高。对吗?

为了学习排序函数,我们研究了两种类型的模型:基于特征的模型和NNbased模型. 基于特征的模型:给定一个元组(q,a,d),基于特征的模型首先将其转换为带有函数φ(q,a,d)∈R的特征向量φ。我们为DG设计了以下特性,生成了一个26维的特征向量:

  • Emb Sim.Q和d之间的嵌入相似性以及a和d之间的相似。
  • 再来点。A和d的POS标签之间的Jaccard相似性。
  • 爱德。A和d之间的编辑距离。
  • 托金·辛。Q和d的记号,a和d的记号,q和a的记号之间的Jaccard相似点。
  • 长度。A和d的字符和标记长度以及长度的差异。
  • 后缀。A和d最长的公共后缀的绝对长度和相对长度。
  • 弗里克。A和d的平均单词频率。
  • 单人。A和d的单数/复数一致性
  • 维基·辛。

我的问题是:这些特征生成的想法会同时适用于文字干扰和句子干扰吗?(根据报纸,他们声称会这样做)。

除了所有这些,我还有其他简单的问题,例如我是否应该删除这里的句号?

我对NLP很陌生。因此,任何关于SOTA实施在这里工作的建议都是非常有用的。提前谢谢。

EN

回答 1

Stack Overflow用户

发布于 2019-10-08 07:50:35

这是一个巨大的研究课题,在你的情况下,产生一个模糊的答案或干扰物确实是在巨大的NLP中非常坚持问题。从那时起,没有最先进的方法来完美的解决问题。

但是已经尝试了几个实现方法,我建议使用两步方法:

1)利用概念嵌入相似度生成干扰源,提供初始列表。

2)利用IR(信息检索)中的RE排序方法来提高预测效果。

希望能有所帮助:ga=2.11580023.2137318516.1570520867-988658311.1570520867

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58219555

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档