情人节来了,什么甜言蜜语最好!我用Python分析几千条情话告诉你答案

情人节马上就要到了,对于情侣们来说,刚过完年又迎来了情人的节日,一定非常的开心,而对于有追求目标的有志人士来说,情人节也是“下手”的绝佳机会,情人节自然少不了甜言蜜语的问候,今天我就带领大家爬取上千条的情人节甜言蜜语,并做一下统计分析,看看用什么样的词,多长的句子,来制造我们浪漫的情人节专属情话

1.数据获取

首先是数据的获取,我们爬取的网页并不复杂,由于网页是静态网页,也就是说我们所要爬取的内容直接在源代码里就可以找到,如下图所示:

这里面有很多经典的话语,比如甜言蜜语,比如浪漫的话,爱情的话,我们挑选浪漫的话来爬取。

所以我们只需要设置好请求头,并不断的循环页面进行抓取,将抓取的数据保存到本地的文件夹下即可。代码采用requests库进行网页抓取,并采用BeautifulSoup库进行网页的分析。代码如下图所示:

上面一共也就20几行,代码很简单!有一点要注意将文本写入txt文件时要加入分行符,以便后续进行句长统计与分析。得到的数据如下图所示:

得到数据后,我们首先是进行词云的制作,看一下情话的关键词有哪一些。

2.词云制作

词云的制作,采用的是jieba库进行分词,并用Wordcloud库进行词云的制作,为了增添情人节的情调,背景掩膜采用的是爱心图案。词云图如下所示:

从词云可以看出,“我们”、“幸福”是主要的关键词,看到这里,广大的情侣们是不是很有感触。

3.词频统计

接下来,是对于词频的统计,我们将jieba分词后的数据进行清洗,利用collections库的Counter函数进行词频统计,并利用pyecharts库进行词频的柱状图展示。如下图所示:

从上图的高频词汇,我们可以看出,利用哪一些词语来制造情话。有了关键词,接下来是对于句长的分析,因为句子太短,显得不真诚,句子太长,又显得啰嗦,抓不到重点(是不是瞬间感觉不想找对象了)。所以对于句长的拿捏要得当。

由于我们将文本存储时,是分行存储的,所以我们只需要按行进行读取,将每句话的句长进行统计即可,句长统计完成后,我们利用pandas库对句长进行离散化的处理,并利用pyecharts库进行饼图的句长分析,如下图所示:

由上图可以看出,句长在40-60之间是最为合适的,其次是60-80之间。

部分源码如下:

有了关键词,还有了合适的句长分析,相信你脑海中已经想到了属于自己的情话了,下面这句话就是我写的专属情话:

因为爱情,我们走到了一起;

因为爱情,让我们选择相伴到永远;

因为爱情,即便是对你的思念,也是一种幸福。

所以大家趁着情人节,抓紧行动吧!

获取源码,扫上面的二维码,然后输入:【情人节】

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20190213B0CK5Z00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券