前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布

Crawler

作者头像
DuncanZhou
发布2018-09-04 16:10:22
5380
发布2018-09-04 16:10:22
举报
文章被收录于专栏:Duncan's Blog

由于论文需要补充数据集,现抓取微博上演员,歌手,导演,运动员和普通用户共1w个.包括他们的基本信息和粉丝和朋友关系.


步骤

(不考虑多线程)

  • 1.安装依赖的库: requests,selenium,BeautifulSoup
  • 2.分析页面,从微博搜索框输入相应领域,获得分页的结果页面,从结果页面提取用户的id.
  • 3.由于返回的结果页面是异步加载,通过selenium模拟浏览器访问,抓取返回的结果页面上的id.(需要对selenium添加请求头信息)
  • 4.抓取到用户id后,可通过weibo API抓取其基本信息和关系信息.

(在抓取用户的关注时,使用多线程)

  • 5.python多线程模块threading,因为是I/O密集型,所以用多线程
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018-04-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 步骤
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档