首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python分析贾乃亮发布微博,打赏数字惊呆了!

男人忙,男人不用心,男人爱的不深,都是女人劈腿分手的借口,可是贾乃亮都没有,他实力宠妻,又极度爱女儿的形象,人尽皆知。在贾乃亮的微博下,我们都在安慰,却也无济于事。之前,还有许多媒体许多文章写甜馨一家,夸老婆漂亮老公体贴,女儿聪慧明理。现在,满屏幕全都是不好的的评论,贾乃亮卑微,贾乃亮戴绿帽,贾乃亮真傻…这样的文字随处可见。

这几天娱乐圈最火的估量就是李小璐出轨PGone的绯闻事情了,消息一出,网上的谈论像滚雪球一样越滚越大,事情的本相越来越扑朔迷离,李小璐究竟有没有出轨不好说。

但是这件事却让李小璐的老公贾乃亮备受折磨,贾乃亮一向是我们心目中的好男人,当年为了追到李小璐他可没少吃苦,最后总算抱得美人归,还有了可爱的小甜馨,贾乃亮更是从一个神经大条的大男孩快速成长为了一个会煮饭会做家务,处处为小甜馨和李小璐考虑的超级奶爸和好丈夫,贾乃亮爱妻宠妻在娱乐圈是出了名的,结婚这些年,他也从未与其他女明星传出过绯闻,但是他专心疼爱的妻子却无情的伤害了他。

因为李小璐事情闹得太大,不胜舆论压力的贾乃亮昨晚发微博长文倾诉心声。微博中,贾乃亮痛心表示连日来各种八卦推测--尤其被贴上“戴绿帽”的标签,不光“击垮”了自己,还给两边的家庭带来了巨大的伤害,家人悉数病倒,而自己最疼爱的女儿甜馨的生活似也受到影响。

微博中他对妻子李小璐深情倾诉道:“也许仍是我做的不够好,我想尽力把全世界最好的都给你,可我用尽一切的能量最终却完成不了对家庭的陪同与拼命工作之间的平衡……”言语之间,也表达了本来期待中的童话般的爱情“变成了最大惋惜!心碎!

为此网友在一边倒的骂李小璐的同时,对贾乃亮体现出了巨大的同情与安慰,为了支撑和鼓励他,许多网友纷纷给他打赏,仅仅两个小时就有5000多人打赏,贾乃亮一晚上收到的打赏金额就高达200多万,希望钱能够给亮哥带去一点安慰,究竟这是史上最贵的一顶绿帽子。

不知道我们怎么看?李小璐究竟有没有出轨?这顶绿帽子值吗?

对贾乃亮一向很欣赏,无论是演戏仍是作为一个父亲、丈夫仍是儿子,贾乃亮一向给人很正面的形象,饱受妻子出轨绯闻,他必定情绪非常低落,就像他说的那样,全家人都因为这事病倒了,贾乃亮真是好男人,他认为呈现这些负面的舆论和压力,就是自己的错,是自己没有做得更好,没有对李小璐的婚后承诺兑现,所以才导致呈现这些犹如祸不单行的非议和质疑。

下面给大家讲一个利用python实现新浪微博爬虫的例子。我这里自己建了一个裙Python学习:五七七九零一二九四 这里有推荐的学习路线,基础视频学习资料和电子教程文档和Python安装工具及Python技术学习交流和分享。使用 Python Scrapy 爬取微博内容先构造Header与Cookies(这个自己抓包就能获得):

同时,在settings.py中添加以下的User-Agent:

之后我们需要设定其爬取的第一个网页:

当其爬取到网页后,会调用 GetFollowers(self, response)

函数如下:def GetFollowers(self, response):

Pipe_Item = self.Get_PipeItem(response,0)

self.Task_In_Queue = self.Task_In_Queue - 1

Tag = soup.table

while Tag != None:

try:

if(str(Tag.a) != None):

UID = re.search("/u/[0-9]",str(Tag.a))#Re获取UID

if UID != None:

Pipe_Item['Datagram'].append(str(UID.group())[3:])

Tag = Tag.next_sibling

except Exception as e: #Not a Tag but a Navigate

Tag = Tag.next_sibling

continue

for rUID in Pipe_Item['Datagram']:

if rUID in self.Completed_UID:

continue

else:

if self.Task_In_Queue > Max_Waited_Length :

break

else:

self.Completed_UID.append(rUID)

self.Task_In_Queue = self.Task_In_Queue + 1

yield Request('https://weibo.cn/u/' + rUID ,cookies=Account_Cookies[0],meta=Header,callback=self.GetUsrInfo)

yield Request('https://weibo.cn/' + rUID + '/fans',cookies=Account_Cookies[0],meta=Header,callback=self.GetFans)

yield Request('https://weibo.cn/' + rUID + '/follow',cookies=Account_Cookies[0],meta=Header,callback=self.GetFollowers)

yield Pipe_Item

这个函数只获取了第一页的Follower,需要获取全部的可以自己再写一些。

最后循环中的3个yield,一次性提交全部需要爬取的网页,包括粉丝、关注、主页。

最后那个yield,提交Item给Pipeline处理。由于异步多线爬取,所以每次提交给Pipeline的Item,每个Item一定得带有分片序号,之后Pipeline才可以进行拼接。

代码本身很简单,不多说了。

下面是获取Item的函数:

ef Get_PipeItem(self,response,Item_Type):

Pipe_Item = PipeItem()

Pipe_Item['Item_Type'] = Item_Type # 1 is get followers list

Pipe_Item['Datagram'] = []

Pipe_Item['Usr_ID'] = []

Pipe_Item['Usr_ID'] = str(re.search('[0-9]',str(response.url)).group())

return Pipe_Item

面为获取用户信息的函数:

Pipe_Item = self.Get_PipeItem(response,2)

self.Task_In_Queue = self.Task_In_Queue - 1

Info = soup.find('span', class_='ctt')

Pipe_Item['Datagram'].append(str(Info.text).replace(u'\xa0',u' ')[:-12])

Pipe_Item['Datagram'].append(re.search('关注\[\d+\]',str(soup.text)).group()[3:-1])

Pipe_Item['Datagram'].append( re.search('粉丝\[\d+\]',str(soup.text)).group()[3:-1])

Pipe_Item['Datagram'].append(re.search('微博\[\d+\]',str(soup.text)).group()[3:-1])

yield Pipe_Item

Python爬取博客的技术的例子就分享在这里,小编也在学习Python,希望跟大佬或想学习Python的小伙伴们一起学习交流。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180109A09SR700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券