首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >标记文本文档-有监督的机器学习

标记文本文档-有监督的机器学习
EN

Stack Overflow用户
提问于 2017-07-16 12:05:43
回答 3查看 701关注 0票数 2

我目前正在做一个项目,我正在接收电子邮件,使用电子邮件包剥离邮件正文,然后我想用体育、政治、技术等标签对它们进行分类……我已经成功地从电子邮件中剥离了邮件正文。我要开始分类了。

为了制作多个标签,如体育,技术,政治,娱乐,我需要每个标签的一些单词集来制作标签。示例

体育标签将有标签数据:足球,足球,曲棍球……

我在哪里可以找到在线标签数据来帮助我?

EN

回答 3

Stack Overflow用户

发布于 2017-07-17 02:34:20

您可以使用DMOZ

获奖时,有不同种类的文字。例如,电子邮件文本中最常用的单词之一将是HiHello,但在维基文本中,HiHello将不是常用单词

票数 2
EN

Stack Overflow用户

发布于 2017-07-16 13:43:17

您要做的就是主题建模:https://en.wikipedia.org/wiki/Topic_model

主题列表在很大程度上取决于您的训练数据集和构建此主题的最终目的。一个很好的起点可以在这里:https://nlp.stanford.edu/software/tmt/tmt-0.4/

您可以查看它们的主题,但您也可以使用它为您的数据提供一些初始主题,并在它们的主题之上工作。

票数 1
EN

Stack Overflow用户

发布于 2017-07-16 13:47:20

您可以使用BBC数据集。它为新闻文章贴上了标签,这可能会有所帮助。

对于特征提取,删除停用词,进行词干提取,将n-gram与tf-idf结合使用,然后选择最佳特征

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45124854

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档