假设您有权访问一个电子邮件帐户,该帐户包含过去几年收到的电子邮件的历史记录(约10k封电子邮件),这些电子邮件分为两组
正版email
您将如何创建可用于垃圾邮件检测的神经网络解决方案-基本上将任何电子邮件分类为垃圾邮件或非垃圾邮件?
让我们假设电子邮件获取已经就位,我们只需要关注分类部分。
我希望得到回答的要点是:
此外,任何资源建议,或现有的实现(最好是在C#中)都非常受欢迎
谢谢
编辑
我打算使用神经网络作为项目的主要方面,是为了测试NN方法如何处理垃圾邮件detection
发布于 2009-05-06 12:54:12
如果你坚持使用NNs...我会为每封电子邮件计算一些功能
基于字符、基于单词和词汇的特性(我统计这些特性时大约有97个):
之间的分布/M比
的S度量
،;?!:()-“«»<>{}
您还可以根据格式添加更多功能:颜色、字体、大小...使用。
这些测量方法中的大多数都可以在网上、论文甚至维基百科上找到(它们都是简单的计算,可能是基于其他功能)。
因此,对于大约100个特征,您需要100个输入,隐藏层中的一些节点,以及一个输出节点。
需要根据您当前预先分类的语料库对输入进行标准化。
我把它分成两组,一组作为训练组,另一组作为测试组,从不混合。可能以50/50的比率训练/测试组,具有类似的垃圾邮件/非垃圾邮件比率。
发布于 2009-04-20 21:47:24
你打算用神经网络来做这件事吗?听起来你已经很好地准备好使用Bayesian classification了,Paul Graham的几篇文章很好地概述了这一点:
你可以访问的分类历史将使非常强大的语料库提供给贝叶斯算法,你可能最终会得到一个相当有效的结果。
发布于 2009-04-20 22:06:43
,
一般来说,我的经验让我相信神经网络在这项任务中最多只能表现出平庸的表现,如果这不是探索神经网络的玩具问题,我肯定会推荐查德·伯奇建议的贝叶斯方法。
https://stackoverflow.com/questions/770238
复制相似问题