专栏首页萝卜大杂烩lxl再次爆雷,我连夜爬了微博评论,结果。。。

lxl再次爆雷,我连夜爬了微博评论,结果。。。

昨天娱乐圈又又又爆雷了,lixiaolu 和 pg1 的抖音视频疯传网络,看来嫂子就要成内子了。

警告:本教程仅用作学习交流,请勿用作商业盈利,违者后果自负!如本文有侵犯任何组织集团公司的隐私或利益,请告知联系删除!!!

挺好的,这很 pg1 啊

今天我们作为纯正的吃瓜群众,怎么能不来围观下呢,还是到娱乐圣地“微博”搞起,不管它里面到底有多少xujia流量,反正我估计骂人的流量不会太假,啊哈哈哈哈

我们使用的爬取工具还是前面文章提到的微博轮子,具体的使用方法可以查看这里

自造微博轮子,再爬姐姐和奶奶殿下

而我们爬取的微博就是“娱乐有饭”最新发的那个视频,如果你还没看,建议在饭前观看!

我们先来简单看下这篇微博下的盛况吧

亲情演绎型

哈哈,说过要饭前观看喽

暴躁粗口型

说实在的,出不出娱乐圈和我们瓜民有啥关系?

淡定吃瓜型

没事儿,生活那么平淡,不来点瓜怎么过的去呢

诗情画意型

骚年,要是在唐朝,你肯定赛过李太白啊!

最后,一图胜千言,看尽人间百态

不过这么看,毕竟只能看到一小部分,下面就通过微博轮子,抓取该微博下所有的评论,看看广大群众们的吃瓜能量。

我们通过程序,可以成功抓取对应的评论信息,并得到一个 csv 文件,里面的内容如下

接下来就是通过 jieba 做分词,然后生成词云

import jieba
import pandas as pd
from wordcloud import WordCloud
import numpy as np
from PIL import Image


font = r'C:\Windows\Fonts\FZSTK.TTF'
STOPWORDS = {"回复", }


def wordcloud(file, name, pic=None):
    df = pd.read_csv(file, usecols=[1])
    df_copy = df.copy()
    df_copy['comment'] = df_copy['comment'].apply(lambda x: str(x).split())  # 去掉空格
    df_list = df_copy.values.tolist()
    comment = jieba.cut(str(df_list), cut_all=False)
    words = ' '.join(comment)
    img = Image.open(pic)
    img_array = np.array(img)
    wc = WordCloud(width=2000, height=1800, background_color='white', font_path=font, mask=img_array,
                   stopwords=STOPWORDS, contour_width=3, contour_color='steelblue')
    wc.generate(words)
    wc.to_file(name + '.png')


if __name__ == '__main__':
    wordcloud("1572486436comment.csv", "lixiaolu2", 'xinsui.jpg')

我们得到词云图如下

可以看到,在评论的高频词汇中,孩子占比还是蛮高的。确实,无论如何孩子都是无辜的,事情到了这个地步,保护好孩子才是最重要的。至于到底是做嫂子还是做内子,who care?

最后我又打开了亮哥的微博,心疼,保重!

本文分享自微信公众号 - 萝卜大杂烩(luobodazahui),作者:周萝卜

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-11-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python 教你自动发微博,每日一句英语

    最近在研究用 Python 来制作各个类别的机器人,今天先来分享一个自动发布新浪微博的机器人。

    周萝卜
  • 数据分析入门系列教程-微博热点

    在前面,我们学习了爬虫的基本流程和必备技能,对于刚刚入门的人来说,打好基础,掌握基本步骤是最为重要的。

    周萝卜
  • 数据分析入门系列教程-数据清洗

    从今天开始,我们再一起来学习数据分析,共同进步! 首先先来进行一个数据清洗的实战,使用比较经典的数据集,泰坦尼克号生存预测数据。

    周萝卜
  • 搜索市场少了云云,多了微博,变数更大

    有媒体近日报道了云云被新浪收购的消息:传闻中创始人刘骏已到百度任职,其他创始成员已纷纷套现离开。此前,云云融资后已经有过第一波创始成员离职。在豪华的Go...

    罗超频道
  • 高斯模糊的算法(转)

    "模糊"的算法有很多种,其中有一种叫做"高斯模糊"(Gaussian Blur)。它将正态分布(又名"高斯分布")用于图像处理。

    Jean
  • 高斯模糊的算法

    来自:阮一峰的网络日志 链接:www.ruanyifeng.com/blog/2012/11/gaussian_blur.html 通常,图像处理软件会提供"...

    顶级程序员
  • 首发丨2020 数字医疗:疫情防控新技术安全应用分析报告

    2020 年伊始,新冠肺炎疫情在武汉暴发,十几天时间内迅速蔓延至全国。面对突如其来的重大疫情,全国人民在党中央和国务院的坚强领导下,众志成城,抗击疫情。在此期间...

    边缘计算
  • Angular+servlet java实现前后端数据交互

          每学习一个新知识我都会想到的是用它来实现对数据的CRUD,Angularjs也不例外,而实现CRUD的前提就是前后端数据能够进行交互,下面我就展示一...

    cfs
  • 使用模式构建:模式版本控制模式

    有一种说法,生命中唯一不变的东西就是变化。这同样适用于数据库模式。我们会想要获取我们曾经认为不需要的信息。或者一些新上线的服务需要包含在数据库记录中。不管变更背...

    MongoDB中文社区
  • Java 设计模式 之 facade(外观)设计模式

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://louluan.blog.c...

    亦山

扫码关注云+社区

领取腾讯云代金券