首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >分析句子时的平均类型

分析句子时的平均类型
EN

Data Science用户
提问于 2021-09-14 12:53:14
回答 1查看 25关注 0票数 2

我在一个文本语料库中有一个单词列表和它们的频率。所以有些词,比如"a",“什么”,“一些”具有很高的频率,还有一些像“神经退化”这样的词不那么受欢迎。

我想通过给每个单词分配分数来分析句子,然后确定一个句子是否更“技术性”,还是比其他句子更具体。例如:

“我有一只狗和一只猫。”与“线粒体是细胞的动力。”

我想只计算这些频率的平均值,但有时我会说:

“偏头痛是一种严重的头痛。”

“不全纯的连续函数的典型例子是复杂的共轭和取实部分。”,平均600,因为有许多简短的,非常常见的词。

有没有更好的方法来评价这样的句子,给出一个更现实的分数,或平均,这将表明他们有多“利基”?

EN

回答 1

Data Science用户

发布于 2021-09-24 14:50:55

这可能取决于你将使用的分数是什么。例如,一个长句子的分数应该高于两个短句子,即使这三个句子都有相同的技术词汇密度?如果是这样的话,加法而不是平均分数?或者添加,然后对句子长度进行调整。

另一种让更多的技术词汇变得更有分量的方法,当你取平均值的时候,就是把他们的分数提高到一种力量。这种力量变成了一个你可以调整的超参数,但是简单的平方分数就足以测试这个想法了。

我还将提到https://en.wikipedia.org/wiki/Tf%E2%80%93idf,以防您没有意识到这一点;请参见另一节也可能会提出一些想法。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/102073

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档