目前,我正在开发一个项目,对两百万个文本备忘录进行聚类。我的目标是为这些备忘录创建一个标准(实际上,当我说备忘录时,我指的是包含对某事的描述的文本)。为此,我希望首先对相似的备忘录进行聚类(收集那些可能具有相同含义的备忘录),然后为每个聚类或组创建一个标签。
由于我是NLP的新手,我想知道如何继续进行NLP,以及以前做过的一些参考资料和类似的项目是什么?
我打赌这是NLP中的一个经典问题,关于这个主题已经做了很多项目。
我可以使用R和Python
发布于 2018-03-23 21:09:53
在文本等非结构化数据中找到准确表示文档的隐藏主题称为主题建模。
Gensim是一个很棒的库,你可以用它找到类似主题的备忘录。它有用python实现的LSA和LDA算法。LSA和LDA之间的区别在于它们的实现。LSA是一种在线学习算法,这意味着如果数据的性质发生变化,它会重新调整方向。
topicmodels是实现LDA的R包。这里有一个关于LDA的快速教程。
https://stackoverflow.com/questions/49447770
复制相似问题