首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习做中文邮件内容分类,准确识别垃圾邮件,真香!

最重要的是,不同用户对于垃圾邮件的定义并不一致。而且大部分用户网络安全意识比较一般,万一误点垃圾邮件上钩,或者因为垃圾邮件淹没了工作中的关键信件,则会给个人或者企业造成损失。...整体思路 总的来说,一封邮件可以分为发送人、接收人、抄送人、主题、时间、内容等要素,所以很自然的可以认为主要通过上述要素中的发送方、主题以及内容来进行垃圾邮件判断。...因此我们依次对上述要素进行分析: 垃圾邮件内容分类(通过提取垃圾邮件内容进行判断) 中文垃圾邮件分类 英文垃圾邮件分类 垃圾邮件标题分类 垃圾邮件发送方分类 最终,我们可以根据这三个维度进行综合评判,从而实现垃圾邮件的准确分类...本文将根据邮件内容进行垃圾邮件分类。 中文邮件内容分类实现步骤 1、数据集介绍首先我们选择TREC 2006 Spam Track Public Corpora这一个公开的垃圾邮件语料库。...,并且通过索引进行垃圾邮件标注,所以我们先提取每一封邮件的发件人、收件人、抄送人、主题、发送时间、内容以及是否垃圾邮件标签。

1.5K20
您找到你想要的搜索结果了吗?
是的
没有找到

如何避免成为垃圾邮件

邮件营销经常会碰到的一个问题就是:发出去的邮件被系统当做垃圾邮件,直接进了垃圾箱,下面一米软件就来教教大家如何避免成为垃圾邮件。...1、标题正文要避开敏感词 不同行业的敏感词是不一样的,因为敏感词具体是哪些词也是不确定的,但是类似于“广告”、“特惠”、“无成本”、“代理”等词,这些就是一些典型的垃圾邮件的词汇,一定要慎用的。...2、邮件不要太大 对于邮件的大小是要适当的,若是要在邮件里面插入附件、图片这些占据空间的,是很容易被过滤为垃圾邮件的,甚至邮件都不能发送出去在,所以在编辑的时候,尽量避开大附件。...选一些主流的服务商进行邮件发送成功率、内容显示、点击、单开等测试,然后在对邮件的不足之处做优化,从而减被系统判定为垃圾邮件的几率。...4、要注意切换IP地址 有涉及邮件营销的人都知道,在短时间内群发邮件使用同一个IP地址发送过多的邮件,IP地址会被判定为垃圾邮件IP,在,被拉入黑名单的几率是很大的。

2.8K80

Python 如何提取邮件内容

今天分享的文章主要讲解如何从邮件里面提取用户返回的线上问题内容并做解析,通过拿到的数据信息进行分析整理,然后进行封装请求禅道里的接口进行提交,提交请求过程中会对数据库中是否存在进行一次判断处理,如果没有存在的就提交...id获取邮件,data是fetch到的邮件具体内容 e = email.message_from_bytes(data[0][1]) 解释说明与print ''' Header()类: email.header.Header...) # utf-8 gb2312 GB18030解析中文日文英文 print("邮件内容是%s" % body) parse1(body) print("good job") except Exception...return msg.get_payload(None , decode=True) 解析邮件内容并提交禅道 # 解析邮件内容并调用禅道提交(上一篇文章结合来看) def parse1(body):...,Severity,steps,envs) 提交bug至禅道 #提交bug到禅道的方法 def add_bug(a,b,c,d,e): #此方法可以与上一遍文章结合在一起提交到禅道 pass 以上内容就是今天分享的全部内容

87610

自己发给自己的垃圾邮件

最近邮箱里总是收到一些莫名其妙的邮件,什么内容都有,腾讯的垃圾邮件过滤并没有生效,先看看腾讯定义的垃圾邮件是什么: 垃圾邮件泛指未经请求而发送的电子邮件,符合以下特征的邮件都属于垃圾邮件的范畴: 1...; 4、内容包含可被反垃圾装置或可被邮件过滤器定义、归类为垃圾邮件的关键字段的邮件; 5、带虚假、无效邮件头的邮件,带虚假、无效域名的邮件,经过技术处理的不显示任何邮件来源信息的邮件,带欺骗性地址信息的邮件...; 6、未经同意而使用、中继或通过第三方的互联网设备所发送的邮件; 7、主题行或内容包含错误、误导或虚假信息的邮件; 8、主题或内容带敏感字眼的、违反国家法律法规或QQ邮箱服务条款的邮件。...https://kf.qq.com/faq/1612276BziEB161227e6RJNZ.html 当然这些内容基本都是中奖之类的诈骗信息,随便点开一个: 这个做法神的tmd很不错,躲过了垃圾邮件的识别...对于未通过前述检查的邮件,接收方则按照发送方指定的策略进行处理,如直接投入垃圾箱或拒收。从而有效识别并拦截欺诈邮件和钓鱼邮件,保障用户个人信息安全。 如何设置企业邮箱的DMARC呢?

1.1K30

垃圾回收相关内容

前言 java会对内存进行自动分配和回收管理,深入理解GC的工作机制可以帮助你写出更好的java应用 垃圾回收的目的 清除不在使用的对象,自动释放内存 GC的定义 基于正在实用的对象进行遍历,对存活的对象进行标记...,其未标记的对象可认为是垃圾对象,然后基于特定的算法进行回收 如何判断对象是否可以被回收 为了判断对象是否存活,jvm引入了GC ROOTS 如果一个对象和GC ROOTS之间没有直接或间接的引用关系,...是可以被回收的 回收器 Serial回收器是一个主要应用于YGC的垃圾回收器 CMS回收器:是回收停顿时间较短,目前比较常用的垃圾回收器,由于CMS采用的是"标记-清除"算法,因此会产生大量的空间碎片,...CMS可以通过配置-XX:+UserCMSCompactAtFullCollection参数来解决 Hotspot在jdk7中推出了新一代的G1垃圾回收器,通过-XX:+UseG1GC参数启用,和CMS

15910

一次垃圾邮件的分析

本篇文章来自同事对一次垃圾邮件的分析: 上周一(12月4号),朋友给我转发了一封垃圾邮件邮件里面附带一个word文档,我们俩都是搞信安,自然察觉一丝危险的气味,之前也没有分析过word附件,因而有了今天的分析...邮件截图 3. 邮件分析 可以看到邮件的正文内容,是由一张图片和一个附件组成,其中我们要重点关注的就是doc附件有密码,且密码为1115 4....first6 oStream.SaveToFile Environ( "svchost.exe", Val("2FFF") oStream.Close End If End Sub 代码获取icon.jpg的内容...,并创建一个Stream对象写入icon.jpg的内容,然后保存到svchost.exe所在的目录,也就是c:\windows\system32\目录下,Val("2FFF")的值为2,在adobe.stream

87270

2021年全球一半的电子邮件垃圾邮件

根据卡巴斯基最新的垃圾邮件和网络钓鱼报告,到2021年,将近一半的发往收件箱的电子邮件被归类为垃圾邮件,其中俄罗斯才是罪魁祸首。...在这份报告中,俄罗斯AV公司透露,它检测到的垃圾邮件率平均为 46%,在 6 月份达到 48% 的峰值。其中大部分来自俄罗斯(25%),其次是德国(14%)、美国(10%)和中国(9%)。...该供应商表示,它在2021年阻止了超过1.48亿个恶意电子邮件附件,其中最常见的类型是来自Agensla家族的凭据窃取木马,占总数的9%。...为了获得这种承诺的支持,他们需要做的就是通过在诈骗网站上登录他们的帐户来‘确认’他们的电子邮件地址,”卡巴斯基解释说。...“另一种钓鱼邮件会使用带有名为Covid的附件,点击附件会进入一个钓鱼网站,然后会要求输入其 Microsoft 帐户的用户名和密码。”

81820

2019年度垃圾和钓鱼邮件报告

近日,卡巴斯基发布2019年垃圾邮件和钓鱼邮件分析报告。...年度数字 1、垃圾邮件邮件总量56.51%,比2018年高4.03% 2、垃圾邮件最大来源是中国占21.26% 3、垃圾邮件中44%大小不到2 KB 4、恶意垃圾邮件中最常被检测到Exploit.MSOffice.CVE...2019年攻击者利用社交网络传播垃圾邮件并出售根本不存在的商品和服务。他们在Youtube和Instagram评论区放置广告和恶意链接。...在诈骗邮件中会有指向Google云文件的链接,垃圾邮件过滤器有时不会拦截他们。 ? 攻击者对加密货币十分感兴趣。...如果拒不支付,攻击者扬言会以该公司名义发送数百万封垃圾邮件。 ? 数据分析:垃圾邮件 垃圾邮件邮件总量56.51%,比2018年高4.03% ?

51830

垃圾邮件检测.第1部分

---- 磐创AI分享 作者 | Md Sohel Mahmood 编译 | VK 来源 | Towards Data Science 垃圾邮件检测是机器学习算法在过滤垃圾邮件方面的一个重要应用...通常垃圾邮件都有一些典型的词语。 在本文中,我们将使用nltk软件包详细介绍垃圾邮件和非垃圾邮件的文本处理。特别是我们将看到NLP的词干分析和词形还原过程。...csv文件后,我创建了两个数据帧:一个用于真实电子邮件,另一个用于垃圾邮件,我们将利用它们进行分析。...如果一封真正的垃圾邮件被错误地识别为真正的电子邮件,那就是误报。另一方面,如果一封真正的电子邮件被识别为垃圾邮件,那就是假阴性。...虽然模型的准确度为0.79,但可能存在误导,垃圾邮件的召回率较高,而准确度较低。这表明该模型偏向于垃圾邮件。它能够正确识别大多数垃圾邮件,但也错误地将一些正常邮件识别为垃圾邮件

97920

垃圾邮件检测:第2部分

Tensorflow的使用 在本垃圾邮件分类器的第1部分中,我展示了如何使用nltk包对文本进行词干分析和分类,然后将其输入分类器模型,以训练并最终评估模型性能。...labels[0:training_size] testing_labels_str = labels[training_size:] 对标签进行编码 由于数据集的标签为字符串,因此将通过编码为0和1(0表示垃圾邮件...该模型错误地将一些正常电子邮件识别为垃圾邮件。 我们可以识别任何示例文本,以检查它是垃圾邮件还是正常文本。由于tokenizer已经定义,我们不再需要再次定义它。...选择一些朗朗上口的词,如“WINNER”, “free”, ”prize”,最终会使此文本被检测为垃圾邮件。 sample_text = ["Winner!!!...pad_sequences(sample_text_tokenized, maxlen=max_length, padding=padding_type, truncating=trunc_type) # 0是垃圾邮件

90010

weka文本挖掘分析垃圾邮件分类模型

业务背景 电子邮件的应用变的十分广泛,它给人们的生活带来了极大的方便,然而,作为其发展的副产品——垃圾邮件,却给广大用户、网络管理员和ISP(Internet服务提供者)带来了大量的麻烦。...垃圾邮件问题日益严重,受到研究人员的广泛关注。垃圾邮件通常是指未经用户许可,但却被强行塞入用户邮箱的电子邮件。对于采用群发等技术的垃圾邮件,必须借助一定的技术手段进行反垃圾邮件工作。...目前,反垃圾邮件技术主要包括:垃圾邮件过滤技术、邮件服务器的安全管理以及对简单邮件通信协议(SMTP)的改进研究等。...首先设置工作目录,并且读取分类后的文本文件 可以看到垃圾邮件和非垃圾邮件的频数直方图 ? ? 然后对得到的原始语料进行分词处理 得到词频矩阵文件 ? 得到各个词频的分类直方图 ?...,在垃圾邮件的过滤方面,可以有效地提高正确率和准确率。

75921
领券