首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >用于电子邮件垃圾邮件检测的神经网络

用于电子邮件垃圾邮件检测的神经网络
EN

Stack Overflow用户
提问于 2009-04-20 21:44:02
回答 4查看 11.7K关注 0票数 19

假设您有权访问一个电子邮件帐户,该帐户包含过去几年收到的电子邮件的历史记录(约10k封电子邮件),这些电子邮件分为两组

正版email

  • spam

您将如何创建可用于垃圾邮件检测的神经网络解决方案-基本上将任何电子邮件分类为垃圾邮件或非垃圾邮件?

让我们假设电子邮件获取已经就位,我们只需要关注分类部分。

我希望得到回答的要点是:

  1. 选择哪些参数作为神经网络的输入,为什么?
  2. 哪种结构的神经网络最适合这样的任务?

此外,任何资源建议,或现有的实现(最好是在C#中)都非常受欢迎

谢谢

编辑

我打算使用神经网络作为项目的主要方面,是为了测试NN方法如何处理垃圾邮件detection

  • Also这是一个“玩具问题”,只是为了探索有关神经网络和垃圾邮件的主题
EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2009-05-06 12:54:12

如果你坚持使用NNs...我会为每封电子邮件计算一些功能

基于字符、基于单词和词汇的特性(我统计这些特性时大约有97个):

  1. 字符总数(C)
  2. 字母字符总数/C字母字符比率
  3. 数字字符总数/C
  4. 空格字符总数/C
  5. 每个字母的频率/C(键盘36个字母- A-Z,特殊字符的0-9)
  6. Frequency (10个字符:*,_,+,=,%,$,@,ـ,\,/)
  7. 总字数(M)
  8. 总字数/M两个字母或更少的
  9. 总字数/C
  10. 平均字长
  11. 平均句子长度(以字符为单位)
  12. Avg.句子长度以单词为单位,
  13. 单词长度频率。长度为n,n的字在1和15

之间的分布/M比

  1. 类型令牌比No.独特的单词/ M
  2. Hapax Legomena Freq.一次出现的单词
  3. Hapax Dislegomena .两次出现的单词
  4. Yule的K度量
  5. 辛普森的D度量

的S度量

  1. 布鲁内特的W度量
  2. Honore的R度量
  3. 标点符号的频率18个标点符号:.

،;?!:()-“«»<>{}

您还可以根据格式添加更多功能:颜色、字体、大小...使用。

这些测量方法中的大多数都可以在网上、论文甚至维基百科上找到(它们都是简单的计算,可能是基于其他功能)。

因此,对于大约100个特征,您需要100个输入,隐藏层中的一些节点,以及一个输出节点。

需要根据您当前预先分类的语料库对输入进行标准化。

我把它分成两组,一组作为训练组,另一组作为测试组,从不混合。可能以50/50的比率训练/测试组,具有类似的垃圾邮件/非垃圾邮件比率。

票数 24
EN

Stack Overflow用户

发布于 2009-04-20 21:47:24

你打算用神经网络来做这件事吗?听起来你已经很好地准备好使用Bayesian classification了,Paul Graham的几篇文章很好地概述了这一点:

你可以访问的分类历史将使非常强大的语料库提供给贝叶斯算法,你可能最终会得到一个相当有效的结果。

票数 8
EN

Stack Overflow用户

发布于 2009-04-20 22:06:43

  1. ,你基本上会有一个完整的问题,与设计和训练神经网络,特征提取的范围相似。如果我是你,我会开始以大量的方式切片和切分输入文本,每个都是一个潜在的特征输入沿着“这个神经元信号1.0如果‘价格’和‘伟哥’出现在彼此的3个单词之内”,并根据最好的绝对相关性与垃圾邮件identification.
  2. I'd开始,采取我最好的50到200个输入特征神经元,并将它们连接到单个输出神经元(值训练为1.0 =垃圾邮件,-1.0 =非垃圾邮件),即单层感知器。如果效果不佳,我可能会尝试多层反向传播网络,但不会屏息等待更好的结果。

一般来说,我的经验让我相信神经网络在这项任务中最多只能表现出平庸的表现,如果这不是探索神经网络的玩具问题,我肯定会推荐查德·伯奇建议的贝叶斯方法。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/770238

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档