有没有办法找到句子中仍然有意义并且至少包含一个主语、动词和谓语/宾语的所有子句?
例如,如果我们有这样一句话:“我下个月要在奥斯汀的SXSW做一个关于NLP的研讨会”。我们可以从这句话中提取出以下有意义的子句:“我要做一个研讨会”、“我要做一个关于NLP的研讨会”、“我要在SXSW做一个关于NLP的研讨会”、“我要在SXSW做一个研讨会”、“我要在奥斯汀做一个研讨会”、“我下个月要做一个关于NLP的研讨会”等等。
请注意,这里没有演绎的句子(例如“下个月在SXSW将会有一个NLP研讨会”。虽然这是真的,但我们不需要将其作为此问题的一部分。)所有生成的句子严格属于给定句子的一部分。
我们如何解决这个问题?我正在考虑创建带注释的训练数据,该数据对训练数据集中的每个句子都有一组法律子句。然后编写一些监督学习算法来生成模型。
我是NLP和机器学习的新手,所以如果你们能建议一些方法来解决这个问题,那就太好了。
发布于 2012-01-24 11:15:27
希克尔等人发表了一篇题为"Using Discourse Commitments to Recognize Textual Entailment"的论文,讨论了话语承诺(子句)的提取。本文包括对他们的算法的描述,这些算法在某种程度上是按规则操作的。他们将其用于RTE,并且在输出中可能会有一些最低级别的演绎。文本简化可能是一个需要关注的相关领域。
发布于 2012-01-24 12:44:03
您可以使用Stanford CoreNLP提供的依赖项解析器。句子的折叠输出将如下所示。
nsubj(going-3, I-1)
xsubj(do-5, I-1)
aux(going-3, am-2)
root(ROOT-0, going-3)
aux(do-5, to-4)
xcomp(going-3, do-5)
det(seminar-7, a-6)
dobj(do-5, seminar-7)
prep_on(seminar-7, NLP-9)
prep_at(do-5, -11)
prep_in(do-5, Austin-13)
amod(month-15, next-14)
tmod(do-5, month-15)句子输出的最后5个是可选的。你可以删除句子中不必要的一个或多个部分。
大多数可选部分都属于介词和修饰语,例如:prep_in、prep_do、、tmod等。参见Stanford Dependency Manual。
例如,如果从输出中删除所有修饰符,则将获得
我要在奥斯汀的SXSW做一个关于自然语言处理的研讨会。
发布于 2013-07-10 13:48:41
下面的论文http://www.mpi-inf.mpg.de/~rgemulla/publications/delcorro13clausie.pdf处理来自斯坦福解析器的依赖关系,并构造简单子句(文本简化)。
查看在线演示- https://d5gate.ag5.mpi-sb.mpg.de/ClausIEGate/ClausIEGate
https://stackoverflow.com/questions/8974090
复制相似问题