首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >NLP:为教科书中的特定术语策划定义摘要

NLP:为教科书中的特定术语策划定义摘要
EN

Stack Overflow用户
提问于 2017-06-26 23:37:40
回答 2查看 50关注 0票数 0

我希望能够为教科书中的特定术语策划定义摘要。

例如,从生物学教科书中,我希望能够对“线粒体”这个词形成一个简洁的总结。我已经尝试过了,首先在教科书中解析包含单词“线粒体”的所有句子,并通过TextRank和LexRank等摘要算法输入这些句子,但这些算法无法很好地确定“定义”句子。

通过定义摘要,我指的是有用的句子,就定义而言。例如,句子“线粒体是细胞的动力”将是一个定义句子,而句子“真菌细胞也包含线粒体和一个复杂的内膜系统,包括内质网和Golgi装置”并不真正与线粒体的定义相关。

如有任何帮助或线索,我们将不胜感激

EN

回答 2

Stack Overflow用户

发布于 2017-06-26 23:51:36

这是一个非常开放的问题。我可以试着指出我将如何处理这件事。

一种方法是对文本使用某种矢量表示(想到的是word2vec或sent2vec )。

然后,通过以向量格式对句子的平均值进行编码,并检查这个句子和您要查找的术语的余弦相似度,您可能会得到与您要查找的定义句子非常接近的内容。

即使是测试平均句子的余弦相似度,你也可以从摘要算法和术语中获得,这可能让你更接近判断你有多接近

票数 0
EN

Stack Overflow用户

发布于 2017-06-27 16:05:12

没有一种简单的方法可以做到这一点,但您确实有一些选择:

  1. 只是用正则表达式来表示“线粒体是”。这是最愚蠢的事情,但考虑到教科书,它可能会被证明是令人满意的。它足够简单,测试应该很容易,在最坏的情况下,它提供了一个基准来比较替代方案。
  2. 对包含单词“线粒体”的每个句子运行解析器(示例:Stanford Parser),并提取以线粒体为主题的句子。这将消除您给出的负面例子。
  3. 使用信息提取(示例:Stanford OpenIE)来获取有关线粒体(如is-in(mitochondria, cell))的事实列表,并对其执行某些操作。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44763385

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档