马勒生成带有顶级关键字的主题。关键字对于一个主题是独一无二的。是否有自动从主题关键字中选择某个单词或几个单词作为主题标记的方法?例如,从500篇文章中生成了20个主题。每个主题都包含20个单词。其中一个主题是:
主题id 12,权重0.05879,(关键词)石油、能源、天然气、电力、水电、核电、海洋气候价格、煤炭碳排放年、燃料环境绿色年等。
看来我可以对这个话题有不同的解释。例如,
一个词的标签可能是:能源,环境,石油,碳排放,绿色能源。
有没有办法只生成一两个词来表达这个主题,而不是主观地、任意地组合这些词呢?
在关键词算法中,最重要的词似乎是由词的频率来决定的。Mallet为每个主题生成独特的单词。
我的问题是:有没有办法自动选择一个或两个最具代表性的词作为主题标签?
我是新来的模特,你能帮我吗?
谢谢
发布于 2019-05-15 15:03:09
有一些自动标记主题的方法,但我个人发现它们不够可靠,不具有欺骗性。正如您注意到的,通常有很多种方法来描述由主题标识的语义内容,而且许多主题不会很容易地解析为单个关键字或短语。
在实践中,自动提取的主题通常结合多个相关主题(这里的碳氢化合物工业和气候变化),或者代表更大主题的具体方面(例如,可能有两个主题,有很多关于教育和班级的词汇,但一个是本科生,另一个是k-12)。如果不阅读主题中有大量表示形式的文档,通常很难识别主题的真正“意义”。
在很多情况下,有一个非常明显的“标记”(在本例中是"oil“),但是如果您向用户暗示某个主题代表一个特定的概念,那么您几乎肯定会发现这并不是一个真正正确的含义。
https://stackoverflow.com/questions/56126120
复制相似问题