【重磅】微博终结者计划(WT Plan)启动

原文链接:https://github.com/jinfagang/weibo_terminater

本文长度为2494字,阅读全文约需6分钟

本文为你解读刚刚更新的微博终结者计划。

weibo_terminator 微博终结者爬虫基本上准备就绪:

这次我们更新了以下功能

  • 增加了延时策略,每次爬取10个页面,暂停五分钟,这样依旧不能百分百保证账号不被ban,但是我们还有策略!!
  • 现在我们同时使用十几个账号同时开爬了,weibo_scraper 会在一个账号被禁止之后自动切换到下一个账号!!
  • 不需要设置cookies!!!重要的事情说三遍,我们不需要在手动设置cookies了,只需要在accounts.py里面设置相应的账号,WT自动获取cookies,后面也可以设置更新,或者删掉cookies缓存手动更新;

如果你认为只有这些你就图样图森破了,三木檀木子拿衣服。更重要的更新在于:

  • id不仅仅限于数字id了,一些明星大v的字母id照样爬,我们这次更新默认的id就是angelababy的微博,她的id为: realangelababy;
  • 作者完善了从微博内容对话格式提取聊天pair对的脚本, 对话的准确率在 99% 左右(consider copyright issue, we will open source it later);
  • 作者提交了分门别类的近800万用户id的list,全网开爬(Consider weibo official limitations, we can't distributed all list, just for sample, join our contributor team we will give every contributor single and unique part of id_file.);
  • 作者新增了断点续爬功能,这次更新我们的爬虫会记住上一次爬取到了哪个地方,第二次会直接从上一次中断的地方开始爬取,直到爬完整个微博,所以当你的cookies被ban了以后,直接换小号继续爬即可;
  • 所有工作将在半个月之内完成,构建的语料仅限于contributor使用,欢迎大家为WT贡献进来。

为了基于庞大的微博网络,我们发起终结者计划,群策群力爬取微博中文计划语料,这次更新的repo中一个 weibo_id.list 文件,这里面有分门别类的近800万用户的id。 不要问我怎么来的,接下来我们分配给每个contributor一定区间段的id,对全部微博进行爬取,然后把结果上传到我们内部的百度云网盘,所有数据只有所有的contributor以及 weibo_terminator authors可以获取。 最后声明一下,本项目参考了一些类似项目,但是本项目实现的功能,考虑的问题复杂度不是以上这些项目能比拟,我们实现的都是最新的网页API和Python3,很多其他项目都是基于scrapy构建的,本项目根本未使用任何类似的爬虫库, 不是别的原因,拿那些库构建的项目缺乏灵活性,我们不太喜欢。希望大家理解。

最后依旧欢迎大家submit issue,我们永远开源,维护更新!!

Contribution tips:

  • Clone this repo: git clone https://github.com/jinfagang/weibo_terminater.git;
  • Install PhantomJS to enable weibo_terminator auto get cookies, from here (http://phantomjs.org/download.html)get it and set your unzip path to settings/config.py, follow the instruction there;
  • Set your multi account, inside settings/accounts.py, you can using multi account now, terminator will automatically dispatch them;
  • Run python3 main.py -i realangelababy, scrap single user, set settings/id_file for multi user scrap;
  • Contact project administrator via wechat jintianiloveu, if you want contribute, administrator will hand out you and id_file which is unique in our project;
  • All data will saved into ./weibo_detail, with different id separately.
  • Collect data to project administrator.
  • When all the work finished, administrator will distribute all data as one single file to all contributors. Using it under WT & TIANEYE COPYRIGHT.

Research & Discuss Group

We fund several group for our project:

Tutorial

这是第一次commit丢失的部分,使用帮助:

That's all, simple and easy.

About cookies

The cookies still maybe banned, if our scraper continues get information from weibo, that is exactly we have to get this job done under people's strength, no one can build such a big corpora under one single power. If your cookies out of date or being banned, we strongly recommended using another weibo account which can be your friends or anyone else, and continue scrap, one thing you have to remind is that our weibo_terminator can remember scrap progress and it will scrap from where it stopped last time. :)

微博终结者爬虫

关于聊天对话系统我后面会开源一个项目,这个repo目的是基于微博构建一个高质量的对话语料,本项目将继续更进开发,大家快start!!永远开源!

这个项目致力于对抗微博的反爬虫机制,集合众人的力量把微博成千上万的微博评论语料爬取下来并制作成一个开源的高质量中文对话语料,推动中文对话系统的研发。

本系统现已实现:

  • 爬取指定id用户的微博数,关注数,粉丝数,所有微博内容以及所有微博对应的评论;
  • 作者考虑到制作对话系统的可行性以及微博语料的难处理性,爬取过程中,所有微博会保存为可提取的形式,具体可以参照爬取结果保存样例;
  • 本项目不依赖于任何第三方爬取框架,但手动实现了一个多线程库,当爬取多用户时会开启上百条线程工作,爬取速度在每小时百万级别;
  • 本项目最终目的是为了充分利用庞大的微博平台构建一个开源高质量的中文对话系统(据作者所知,很多公司对自己的数据视如珍宝,鄙之);
  • 除此之外,本项目还可以用于指定用户评论分析,比如爬取罗永浩的微博可以分析他第二年锤子手机的销量(牛逼吧)

希望更多童鞋们contribute进来,还有很多工作要做,欢迎提交PR!

为人工智能而生

中文语料一直以来备受诟病,没有机构或者组织去建立一些公开的数据集,反观国外,英文语料相当丰富,而且已经做的非常精准。

微博语料作者认为是覆盖最广,最活跃最新鲜的语料,使用其构建的对话系统不说模型是否精准,但新鲜的词汇量是肯定有的。

爬取结果

指定用户的微博和评论形式如下:

说明:

  • E E 表示微博内容的开头和结果
  • F F表示所有评论的开头和结尾
  • 每条评论中 <> 是发起评论的用户id, $$ 中是at用户的id

Future Work

现在爬取的语料是最原始版本,大家对于语料的用途可以从这里开始,可以用来做话题评论机器人,但作者后面将继续开发后期处理程序,把微博raw data变成对话形式,并开源。 当然也欢迎有兴趣的童鞋们给我提交PR,选取一个最佳方案,推动本项目的进展。

Contact

对于项目有任何疑问的可以联系我 wechat: jintianiloveu, 也欢迎提issue。

Copyright

(c) 2017 Jin Fagang & Tianmu Inc. & weibo_terminator authors LICENSE Apache 2.0

校对:李君

原文发布于微信公众号 - 数据派THU(DatapiTHU)

原文发表时间:2017-04-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏北京马哥教育

2018,用好这几点方法学习Linux一定比别人快

今天是2018年的第一天,在迎来新年喜悦的同时,又即将开始新的一年的奋斗。不知道文章面前的你是怎样计划你的Linux学习的。如今有很多关于Linux的书籍,博客...

4035
来自专栏魏艾斯博客www.vpsss.net

搬瓦工香港机房 40G 套餐下架 目前最便宜套餐$39.9/月

盼望着搬瓦工补货,却收到了搬瓦工香港机房 40G 套餐下架的消息,真的是太让人失望啊。本来这款 40G 套餐已经缺货很久了,现在干脆被下架了估计以后也很难再有了...

2061
来自专栏Python入门

我用 Python 爬取微信好友,最后发现一个大秘密

你身处的环境是什么样,你就会成为什么样的人。现在人们日常生活基本上离不开微信,但微信不单单是一个即时通讯软件,微信更像是虚拟的现实世界。你所处的朋友圈是怎么样,...

2563
来自专栏知晓程序

鹅厂美女工程师来告诉你,小程序码是如何「绽放」的 | 晓组织 #20

腾讯 CDC 全称为「用户研究与体验设计中心」,是腾讯公司级设计团队,致力于提升腾讯产品的用户体验,探索互联网生态体验创新。

1412
来自专栏web前端教室

仿制 豆瓣电影 app beta(一)

今天做一个简单的仿制 豆瓣电影的app,因为白天要讲课,所以只能晚上等孩子睡了,再抽空来写写,所以。。。界面上看起来确实比较简陋,但功能都还是ok的。 ? <!...

3356
来自专栏CSDN技术头条

架构设计中的6种常见安全误区

【编者按】国家战略层面的重视与投入,云计算与大数据等技术的深入,“互联网+”驱动下私有云、混合云和公有云的发展,使得安全——软件安全、云计算安全、移动安全、物联...

3036
来自专栏Golang语言社区

【十问十答】对话Go语言开发团队

o是谷歌推出的一门编程语言。熟悉Go语言的开发者都知道其弥补了C语言的不足并且保持了C的极简主义。使用Go编译的程序可以媲美C或C++代码的速度,而且更加安全、...

3406
来自专栏FreeBuf

表情当密码,这事靠谱么?

对于密码,我们究竟还能做些什么呢? 密码密码,难说爱你 通常我们建议用户采用独特、复杂、最好包含一个怪异字符的密码,却得到用户“任性地”根本无法记住这些密码的回...

22010
来自专栏BIT泽清

收起装13的苹果审核指南,就告诉你到底怎么能过!

本文为作者在遍览诸多苹果商店审核指南文后愤然写下,以最容易被拒的地方房卡麻将闲游(无版权号)移动端手游APP为例。

3115
来自专栏程序工场

程序员新人怎样在复杂代码中找 bug?

1554

扫码关注云+社区

领取腾讯云代金券