首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >检索前5句-如果有算法的话

检索前5句-如果有算法的话
EN

Stack Overflow用户
提问于 2018-06-22 11:37:17
回答 2查看 63关注 0票数 1

我是数据科学的新手。这可能是一个愚蠢的问题,但只是想知道意见,并确认我是否可以把它做得更好。我有一个问题,从数据库中获取最常见/最常见的5个句子。我知道我可以将所有数据(句子)收集到一个列表中,并使用计数器库--我可以获取最多的5个句子,但我想知道是否有任何算法(ML/DL/NLP)存在这样的要求。所有的句子都是用户给出的。我需要知道他的前5句(大多数发生/频繁)句子(请不要短语)!

例句-

“欢迎来到极客世界”

这个门户是为了提供写得很好的主题而创建的

“如果你喜欢极客,并愿意为之贡献的话”

“要在geeksforgeeks网站上发表文章,请参阅您的文章”

“请参阅您的文章”(第二次出现)。

“极客们为极客们的主页和帮助成千上万的其他极客。”

备注:我在数据库中的所有句子都是不同的(从上下文上讲,也没有重复)。这只是我的要求的一个例子。

提前谢谢。

EN

回答 2

Stack Overflow用户

发布于 2018-06-22 14:45:56

我建议你从句子嵌入开始。简单地说,它返回一个给定句子的向量,它大致表示句子的意思。

假设数据库中有n个句子,你为每个句子找到了句子嵌入,所以现在你有了n个向量。

一旦你有了向量,你可以使用降维技术,如特斯内,使你的句子在2或3维可视化。在这种形象化过程中,具有相似含义的句子应该相互接近。这可能会帮助你找出最频繁的句子,这些句子在意义上也很接近。

我认为一个问题是,由于意义在本质上是主观的,所以很难对句子的意义进行界定。您可能需要在我前面描述的过程中添加一些启发式。

票数 0
EN

Stack Overflow用户

发布于 2018-06-22 15:18:49

添加到MGoksu的答案中,一旦得到句子嵌入,就可以应用LSH(局部性敏感散列)将嵌入分组。

一旦你得到了嵌入的集群。得到向量数目最多的簇是件很简单的事。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50987088

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档