我即将从社交媒体、新闻网站、博客上发布的一些原始测试中提取一些信息,这些测试与政治、战争、毒品等特定领域有关。因此,我已经开始使用一些开源的工具,比如斯坦福-nlp,apache OpenNLP,以及一个被授权的商业工具,名为lexalytics。
根据我的项目,我们对公开发布的文本进行分析,并产生一些结果,并根据一些参数进行挖掘,以确定那些帖子与哪些类别有关。
但我需要使用斯坦福-nlp库从给定的文本中提取主题。主题是指与教育、政治等相关的文本或句子。我已经能够提取像文字/句子这样的实体包含位置,日期,人,金钱这样的一种方式。
同样的主题提取也伴随着词汇分析,这也是许可工具。
感谢你的帮助。
谢谢。
发布于 2017-10-28 14:35:17
文本文档中的主题提取可以使用生成建模来完成,在这种模型中,基于主题的前提假设分布的单词是优先的,为此部署了LDA等算法。
Open http://www.opencalais.com/opencalais-api/
为您提供了一个/多个主题,其中包含文档所基于的相关信任值。
https://stackoverflow.com/questions/46340205
复制相似问题