文本挖掘在垃圾邮件的应用

文本挖掘是从非结构化的文本数据中找出有价值的信息,比如电商商铺的投诉信息,通过分析投诉用来改进自己的服务。这次跟大家分享文本挖掘的一些基础概念,希望大家对文本挖掘有个简要的认识。

文本挖掘的流程

数据源

大家工作中用到的文本数据;

通过爬虫抓取的页面文本数据。

对数据源的预处理

对文本数据的预处理取决于具体的业务场景,像舆情分析、情感分析其预处理均不相同;

文本先要做最简单的去噪,比如HTML的一些字符需要去除,只保留文本数据;

对文本数据做编码处理,防止出现乱码的问题;

对颜文字做删除或者手动做标签使其成为有意义的特征、错别字的调整;

对文本做分词处理,分词的效果决定了最终的效果,分词有多种逻辑分词,一种是根据机器学习算法去切词,还有是根据业务场景做统计再切词,不同情境下的歧义词需要我们去分析;

去掉停用词;

如果是做情感分析,根据文本内容,自己设定积极词,消极词,然后通过匹配情感词库对句子打分;

通过n-gram去制作词句,然后再去除停用词,比如打-电话单独拆开来没有实际意义,但是整合起来的打电话又是完全不一样意思。如果内存足够大,计算机能完全记下n-gram的数据的话,那么计算机读懂人的意思也不是不可能的事情;

对词做tf-idf,也就是词频统计和逆文档频率,常用的词不一定有意义,一篇文章或者一个句子里面比较重要的是其中的某个单词,经常出现的我,你,他这样的代词虽然非常多,但是带来的价值并不高;

训练模型:根据自己的业务场景去选择算法,比如分类,深度学习等算法;

主题发现:word2vec,可以找出文本内容中意义相近的单词;

数据分析:可使用seaborn或者matplot等可视化去展示文本的相关性,并且根据业务主题去加一些规则来完善自己的模型。

文本挖掘的应用

用户画像,垃圾邮件分类,对于某些明星的舆论监控等均属于文本挖掘的应用范畴,接下来我们简单的讨论一下文本挖掘在垃圾邮件的应用。

出现了买、加微信这样跟工作无关的词语,这就说明了这封邮件是垃圾邮件,模型学习出来特性之后,告诉邮箱这个是垃圾邮件,它就会被归入到垃圾邮箱中。

对于大量数据的邮件,一个一个看是非常消耗时间的,这样的话就可以交给我们的模型去做自动化的分类了,可以节省很多人力成本,提高效率。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171215G0D7L100?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券