腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
IT架构圈
公众号:IT架构圈
专栏成员
举报
831
文章
763250
阅读量
132
订阅数
订阅专栏
申请加入专栏
全部文章(831)
容器镜像服务(182)
java(122)
容器(120)
其他(81)
http(77)
https(73)
微服务(65)
编程算法(63)
spring(55)
git(54)
github(49)
python(48)
数据库(46)
网络安全(42)
小程序(39)
云数据库 Redis(38)
api(38)
云数据库 SQL Server(36)
spring boot(35)
kubernetes(34)
sql(33)
linux(29)
开源(29)
ios(28)
分布式(28)
dubbo(28)
nginx(27)
缓存(27)
微信(26)
xml(25)
html(25)
android(24)
node.js(23)
jar(23)
tomcat(23)
ps(23)
apache(20)
安全(20)
存储(19)
爬虫(19)
maven(18)
人工智能(18)
运维(18)
jvm(17)
windows(17)
bash(16)
网站(16)
jdk(16)
zookeeper(16)
tcp/ip(16)
负载均衡(15)
javascript(15)
wordpress(13)
it(13)
react(12)
bash 指令(12)
jenkins(12)
自动驾驶(11)
打包(11)
socket编程(11)
游戏(10)
rpc(10)
mvc(9)
负载均衡缓存(9)
jdbc(9)
spring cloud(9)
数据结构(9)
json(8)
文件存储(8)
yum(8)
程序员(8)
ide(7)
mybatis(6)
大数据(6)
架构设计(6)
nat(6)
虚拟化(6)
go(5)
servlet(5)
arm(5)
reactnative(5)
压力测试(5)
shell(5)
hashmap(5)
网站建设(5)
Elasticsearch Service(5)
php(4)
jsp(4)
unix(4)
centos(4)
腾讯云测试服务(4)
电商(4)
自动化(4)
数据迁移(4)
面向对象编程(4)
dns(4)
aop(4)
bug(4)
bootstrap(3)
jquery(3)
ajax(3)
ubuntu(3)
渲染(3)
黑客(3)
ssh(3)
正则表达式(3)
单元测试(3)
udp(3)
敏捷开发(3)
机器人(3)
数据分析(3)
kafka(3)
image(3)
项目经理(3)
费用中心(2)
对象存储(2)
c++(2)
.net(2)
nosql(2)
django(2)
eclipse(2)
日志服务(2)
云数据库 MongoDB(2)
NAT 网关(2)
消息队列 CMQ 版(2)
SSL 证书(2)
云推荐引擎(2)
mongodb(2)
npm(2)
cdn(2)
selenium(2)
数据处理(2)
系统架构(2)
腾讯云开发者社区(2)
迁移(2)
产品经理(2)
计算机(2)
云服务器(1)
官方文档(1)
区块链(1)
机器学习(1)
tensorflow(1)
iphone(1)
xcode(1)
ruby(1)
scala(1)
angularjs(1)
css(1)
ecmascript(1)
webview(1)
硬件开发(1)
flask(1)
web.py(1)
svn(1)
struts(1)
搜索引擎(1)
神经网络(1)
批量计算(1)
云直播(1)
命令行工具(1)
图片标签(1)
企业(1)
svg(1)
xslt & xpath(1)
html5(1)
无人驾驶(1)
erp(1)
numpy(1)
asp(1)
ftp(1)
grep(1)
自动化测试(1)
二叉树(1)
flash(1)
scrapy(1)
rabbitmq(1)
安全漏洞(1)
云计算(1)
fiddler(1)
es(1)
实时监控(1)
学习方法(1)
bat(1)
class(1)
com(1)
key(1)
push(1)
tm(1)
treemap(1)
编译(1)
产品(1)
代理(1)
函数(1)
行业(1)
源码(1)
搜索文章
搜索
搜索
关闭
「docker实战篇」python的docker-抖音web端数据抓取(19)
mongodb
数据库
sql
云数据库 MongoDB
python
PS:text文本中的数据1000条根本不够爬太少了,实际上是app端和pc端配合来进行爬取的,pc端负责初始化的数据,通过userID获取到粉丝列表然后在不停的循环来进行爬取,这样是不是就可以获取到很大量的数据。
IT架构圈
2019-04-26
1.5K
0
「docker实战篇」python的docker爬虫技术-python脚本app抓取(13)
mongodb
tcp/ip
sql
数据库
云数据库 MongoDB
PS:本次是app数据抓取的入门。首先是通过模拟器的代理服务,到本地的电脑(安装fiddler),这样fiddler就可以抓取数据了,分析数据这块要凭借自己的经验找到对应的url,如果能分析到url,基本爬虫就写一半。封装请求头。通过fiddler获取的。里面header内容比较多,尝试删除最简化,也是一种反爬虫的策略,有的数据放进去到容易被发现是爬虫了,例如cookies等等,但是有的爬虫爬取数据需要cookies。通过代理的方式设置代理ip,防止爬取过程中同一个ip,一直请求一个接口被发现是爬虫。引入了队列的目的就是为了使用线程池的时候方便提取。然后放入mongodb中。这样使用多线程的app数据就完成了。
IT架构圈
2019-04-26
659
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档