我希望能够为教科书中的特定术语策划定义摘要。
例如,从生物学教科书中,我希望能够对“线粒体”这个词形成一个简洁的总结。我已经尝试过了,首先在教科书中解析包含单词“线粒体”的所有句子,并通过TextRank和LexRank等摘要算法输入这些句子,但这些算法无法很好地确定“定义”句子。
通过定义摘要,我指的是有用的句子,就定义而言。例如,句子“线粒体是细胞的动力”将是一个定义句子,而句子“真菌细胞也包含线粒体和一个复杂的内膜系统,包括内质网和Golgi装置”并不真正与线粒体的定义相关。
如有任何帮助或线索,我们将不胜感激
发布于 2017-06-26 23:51:36
这是一个非常开放的问题。我可以试着指出我将如何处理这件事。
一种方法是对文本使用某种矢量表示(想到的是word2vec或sent2vec )。
然后,通过以向量格式对句子的平均值进行编码,并检查这个句子和您要查找的术语的余弦相似度,您可能会得到与您要查找的定义句子非常接近的内容。
即使是测试平均句子的余弦相似度,你也可以从摘要算法和术语中获得,这可能让你更接近判断你有多接近
发布于 2017-06-27 16:05:12
没有一种简单的方法可以做到这一点,但您确实有一些选择:
is-in(mitochondria, cell)
)的事实列表,并对其执行某些操作。https://stackoverflow.com/questions/44763385
复制相似问题