我有一组逐字逐句的句子,我试着做的是....if两个句子有相同的意思,这些句子应该被原来的句子替换,然后我必须计算这些句子的频率。
有没有办法可以用NLTK来做呢?在这方面的任何建议都是欢迎和赞赏的。我正在寻找NLP方法。谢谢
发布于 2018-05-03 02:32:57
我会考虑使用一些更新的想法来实现word/文档嵌入,以实现句子相似性,例如:
一方面,句子嵌入可以用来轻松地比较句子,另一方面,你可以对单词嵌入进行平均/求和,以获得整个句子的嵌入。为了比较句子向量,可以使用余弦相似度等度量标准。
发布于 2018-05-02 11:54:35
我找到了一些论文,也许能给你一些关于如何解决这个问题的想法。他们使用WordNet,这是一个可以用来检查单词相似度的语料库,它可以在NLTK上使用:
我只浏览了这两篇论文,但似乎第一篇论文顺序使用了句法和语义相似性技术,而第二篇论文并行使用了它们。
作者声明:
祝你好运,希望这对你有帮助!
https://stackoverflow.com/questions/50126580
复制相似问题