腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Duncan's Blog
专栏作者
举报
50
文章
48417
阅读量
15
订阅数
订阅专栏
申请加入专栏
全部文章(50)
其他(25)
编程算法(7)
python(5)
node.js(3)
api(3)
数据结构(3)
机器学习(2)
bash(2)
html(2)
bash 指令(2)
神经网络(2)
深度学习(2)
文件存储(2)
云推荐引擎(2)
java(1)
xml(1)
云数据库 Redis(1)
linux(1)
unix(1)
apt-get(1)
spring(1)
mapreduce(1)
数据加密服务(1)
人工智能(1)
http(1)
爬虫(1)
spark(1)
卷积神经网络(1)
mybatis(1)
selenium(1)
大数据(1)
数据分析(1)
kafka(1)
com(1)
host(1)
package(1)
pip(1)
private(1)
root(1)
set(1)
sudo(1)
笔记(1)
搜索文章
搜索
搜索
关闭
Crawler
爬虫
编程算法
selenium
由于论文需要补充数据集,现抓取微博上演员,歌手,导演,运动员和普通用户共1w个.包括他们的基本信息和粉丝和朋友关系. ---- 步骤 (不考虑多线程) 1.安装依赖的库: requests,selenium,BeautifulSoup 2.分析页面,从微博搜索框输入相应领域,获得分页的结果页面,从结果页面提取用户的id. 3.由于返回的结果页面是异步加载,通过selenium模拟浏览器访问,抓取返回的结果页面上的id.(需要对selenium添加请求头信息) 4.抓取到用户id后,可通过w
DuncanZhou
2018-09-04
518
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档