首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >计算用于电子邮件分类的语言模型的复杂性

计算用于电子邮件分类的语言模型的复杂性
EN

Stack Overflow用户
提问于 2011-03-21 23:38:27
回答 3查看 2.8K关注 0票数 11

我有一个从电子邮件语料库中提取的500个最频繁出现的单字的特征集。我一直在使用c5.0根据测试电子邮件中出现/不出现的每个单词对电子邮件进行分类。

现在,我需要计算特征集中术语的困惑程度,并使用它对电子邮件进行分类。我想知道谁在语言建模方面有任何经验,并且知道我将如何计算模型的困惑,任何帮助都会很好!

我应该补充说,我知道有一些工具可以自动为我做这件事,例如SRILM/CMU-LMtoolkit,但我宁愿自己从头做起,作为我最后一年项目的一部分!我只需要一个关于如何开始的提示...也许可以链接到“使用困惑计算和分类的笨蛋指南”!!

非常感谢!

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-03-23 19:08:09

这个CMU course exercise似乎有你想要的东西。是的,他们建议您使用SRILM,但请参阅“语言模型”部分--它指向书中的一章、Microsoft Research的教程和该教程的演示文稿。

希望这能有所帮助!

票数 2
EN

Stack Overflow用户

发布于 2013-03-13 23:41:21

到Joshua Goodman的“最先进的语言建模”的链接(来自MS Research)现在是:http://research.microsoft.com/apps/pubs/default.aspx?id=68595

票数 2
EN

Stack Overflow用户

发布于 2013-03-19 00:01:09

我知道你问这个问题已经有一段时间了,但如果你仍然对更广泛的困惑范围感兴趣(我指的是自然语言处理、语音识别、词性标记和命名实体识别等),那么我建议你学习目前在Coursera上运行的这门课程。

这是url https://www.coursera.org/course/nlangp

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5379964

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档