我有一个从电子邮件语料库中提取的500个最频繁出现的单字的特征集。我一直在使用c5.0根据测试电子邮件中出现/不出现的每个单词对电子邮件进行分类。
现在,我需要计算特征集中术语的困惑程度,并使用它对电子邮件进行分类。我想知道谁在语言建模方面有任何经验,并且知道我将如何计算模型的困惑,任何帮助都会很好!
我应该补充说,我知道有一些工具可以自动为我做这件事,例如SRILM/CMU-LMtoolkit,但我宁愿自己从头做起,作为我最后一年项目的一部分!我只需要一个关于如何开始的提示...也许可以链接到“使用困惑计算和分类的笨蛋指南”!!
非常感谢!
发布于 2011-03-23 19:08:09
这个CMU course exercise似乎有你想要的东西。是的,他们建议您使用SRILM,但请参阅“语言模型”部分--它指向书中的一章、Microsoft Research的教程和该教程的演示文稿。
希望这能有所帮助!
发布于 2013-03-13 23:41:21
到Joshua Goodman的“最先进的语言建模”的链接(来自MS Research)现在是:http://research.microsoft.com/apps/pubs/default.aspx?id=68595
发布于 2013-03-19 00:01:09
我知道你问这个问题已经有一段时间了,但如果你仍然对更广泛的困惑范围感兴趣(我指的是自然语言处理、语音识别、词性标记和命名实体识别等),那么我建议你学习目前在Coursera上运行的这门课程。
https://stackoverflow.com/questions/5379964
复制相似问题