我目前正在做一个项目,我正在接收电子邮件,使用电子邮件包剥离邮件正文,然后我想用体育、政治、技术等标签对它们进行分类……我已经成功地从电子邮件中剥离了邮件正文。我要开始分类了。
为了制作多个标签,如体育,技术,政治,娱乐,我需要每个标签的一些单词集来制作标签。示例
体育标签将有标签数据:足球,足球,曲棍球……
我在哪里可以找到在线标签数据来帮助我?
发布于 2017-07-17 02:34:20
您可以使用DMOZ。
获奖时,有不同种类的文字。例如,电子邮件文本中最常用的单词之一将是Hi
或Hello
,但在维基文本中,Hi
和Hello
将不是常用单词
发布于 2017-07-16 13:43:17
您要做的就是主题建模:https://en.wikipedia.org/wiki/Topic_model
主题列表在很大程度上取决于您的训练数据集和构建此主题的最终目的。一个很好的起点可以在这里:https://nlp.stanford.edu/software/tmt/tmt-0.4/
您可以查看它们的主题,但您也可以使用它为您的数据提供一些初始主题,并在它们的主题之上工作。
发布于 2017-07-16 13:47:20
您可以使用BBC数据集。它为新闻文章贴上了标签,这可能会有所帮助。
对于特征提取,删除停用词,进行词干提取,将n-gram与tf-idf结合使用,然后选择最佳特征
https://stackoverflow.com/questions/45124854
复制相似问题