我在一个文本语料库中有一个单词列表和它们的频率。所以有些词,比如"a",“什么”,“一些”具有很高的频率,还有一些像“神经退化”这样的词不那么受欢迎。
我想通过给每个单词分配分数来分析句子,然后确定一个句子是否更“技术性”,还是比其他句子更具体。例如:
。
我想只计算这些频率的平均值,但有时我会说:
“偏头痛是一种严重的头痛。”
“不全纯的连续函数的典型例子是复杂的共轭和取实部分。”,平均600,因为有许多简短的,非常常见的词。
有没有更好的方法来评价这样的句子,给出一个更现实的分数,或平均,这将表明他们有多“利基”?
发布于 2021-09-24 14:50:55
这可能取决于你将使用的分数是什么。例如,一个长句子的分数应该高于两个短句子,即使这三个句子都有相同的技术词汇密度?如果是这样的话,加法而不是平均分数?或者添加,然后对句子长度进行调整。
另一种让更多的技术词汇变得更有分量的方法,当你取平均值的时候,就是把他们的分数提高到一种力量。这种力量变成了一个你可以调整的超参数,但是简单的平方分数就足以测试这个想法了。
我还将提到https://en.wikipedia.org/wiki/Tf%E2%80%93idf,以防您没有意识到这一点;请参见另一节也可能会提出一些想法。
https://datascience.stackexchange.com/questions/102073
复制相似问题