我是数据科学的新手。这可能是一个愚蠢的问题,但只是想知道意见,并确认我是否可以把它做得更好。我有一个问题,从数据库中获取最常见/最常见的5个句子。我知道我可以将所有数据(句子)收集到一个列表中,并使用计数器库--我可以获取最多的5个句子,但我想知道是否有任何算法(ML/DL/NLP)存在这样的要求。所有的句子都是用户给出的。我需要知道他的前5句(大多数发生/频繁)句子(请不要短语)!
例句-
“欢迎来到极客世界”
这个门户是为了提供写得很好的主题而创建的
“如果你喜欢极客,并愿意为之贡献的话”
“要在geeksforgeeks网站上发表文章,请参阅您的文章”
“请参阅您的文章”(第二次出现)。
“极客们为极客们的主页和帮助成千上万的其他极客。”
备注:我在数据库中的所有句子都是不同的(从上下文上讲,也没有重复)。这只是我的要求的一个例子。
提前谢谢。
发布于 2018-06-22 14:45:56
发布于 2018-06-22 15:18:49
添加到MGoksu的答案中,一旦得到句子嵌入,就可以应用LSH(局部性敏感散列)将嵌入分组。
一旦你得到了嵌入的集群。得到向量数目最多的簇是件很简单的事。
https://stackoverflow.com/questions/50987088
复制相似问题