腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Urlteam
专栏成员
举报
223
文章
351798
阅读量
24
订阅数
订阅专栏
申请加入专栏
全部文章(223)
python(74)
编程算法(43)
http(35)
网络安全(28)
linux(25)
https(24)
爬虫(19)
bash(17)
php(15)
scrapy(15)
bash 指令(14)
游戏(14)
区块链(13)
数据库(13)
tcp/ip(13)
云数据库 SQL Server(11)
github(11)
git(10)
网站(10)
wordpress(10)
sql(9)
selenium(9)
网站建设(9)
html(8)
api(8)
apt-get(8)
开源(8)
c++(7)
ide(7)
协议(7)
人脸识别(6)
安全(6)
机器学习(5)
javascript(5)
css(5)
打包(5)
神经网络(5)
深度学习(5)
shell(5)
nft(5)
数据(5)
tensorflow(4)
ubuntu(4)
命令行工具(4)
人工智能(4)
xslt & xpath(4)
机器人(4)
以太坊(4)
java(3)
json(3)
云数据库 Redis(3)
apache(3)
存储(3)
分布式(3)
ssh(3)
部署(3)
设计(3)
智能合约(3)
语音识别(2)
ios(2)
go(2)
xml(2)
android(2)
django(2)
访问管理(2)
腾讯云测试服务(2)
容器(2)
缓存(2)
黑客(2)
卷积神经网络(2)
正则表达式(2)
gui(2)
windows(2)
数据结构(2)
openapi(2)
data(2)
line(2)
max(2)
sudo(2)
服务(2)
模型(2)
内存(2)
排序(2)
算法(2)
系统(2)
优化(2)
原理(2)
对象存储(1)
DNS 解析 DNSPod(1)
比特币(1)
数字货币(1)
NLP 服务(1)
mac os(1)
iphone(1)
.net(1)
scala(1)
node.js(1)
jquery(1)
ajax(1)
opengl(1)
qt(1)
access(1)
matlab(1)
搜索引擎(1)
unix(1)
centos(1)
nginx(1)
文件存储(1)
VPN 连接(1)
海外加速(1)
文字识别(1)
语音合成(1)
金融(1)
vr 视频解决方案(1)
工业物联(1)
serverless(1)
自动化(1)
html5(1)
jdk(1)
dns(1)
opencv(1)
unity(1)
grep(1)
scikit-learn(1)
socket编程(1)
数据分析(1)
processing(1)
聚类算法(1)
acm(1)
apache2(1)
directory(1)
el(1)
excel(1)
file(1)
final(1)
glob(1)
host(1)
image(1)
input(1)
join(1)
load(1)
mysql(1)
output(1)
phantomjs(1)
return(1)
root(1)
set(1)
sort(1)
stream(1)
vim(1)
virtual(1)
virtualhost(1)
web3(1)
编辑器(1)
编码(1)
程序(1)
对象(1)
管理(1)
函数(1)
架构(1)
加密(1)
进程(1)
开发(1)
开发者(1)
流量(1)
前端(1)
生命周期(1)
事件(1)
数据采集(1)
网络(1)
效率(1)
隐私(1)
用户体验(1)
源码(1)
搜索文章
搜索
搜索
关闭
数据采集技术指南 第一篇 技术栈总览-附总图和演讲ppt
爬虫
xslt & xpath
tcp/ip
分布式
数据库
从事爬虫虽然时间不长,但是经历的项目都具有特例性,从亿级数据采集到各种伪造隐藏技术,从极验验证码破解到淘宝百度等反爬虫破解,从分布式架构部署到多种ip跟换技术,从普通请求到js破解和自动化模拟,这些主流技术都有亲身经历。因此不才去尝试写这份技术指南。
十四君
2019-11-28
522
0
基于Tor匿名网络的多ip爬虫
tcp/ip
爬虫
bash
bash 指令
apt-get
基于tor匿名网络的多ip爬虫.更换ip的方式有多种,其中tor这类型则适合ip更换次数不大,网页数据量也不大,但是又厌恶代理那天天失效的麻烦,则最简单快捷的便是使用tor在本机搭建一个出口端口,让需要更换ip的爬虫程序制定proxies指向的端口.简单而且快捷,可使用的ip池子总数1000左右,实际中有500左右可以使用,匿名性当然不用质疑了.
十四君
2019-11-28
1.9K
0
关于反爬虫我见到的各种前后端奇葩姿势
tcp/ip
爬虫
scrapy
html
网站
仔细分析他们的CSS就会发现他们用了一个字体,正常字体是0123456789 在官方字体中替换为:(这是他们以前的做法,现在已经更新因此图来自网络)
十四君
2019-11-28
1K
0
千万级批量采集框架,就叫他UrlSpider吧
tcp/ip
http
ide
php
css
我希望在整个理清楚数据采集这个行业的过程中,实现一个能高效的分布式的自带反爬虫的框架。。
十四君
2019-11-28
505
0
python多线程100进程一起ping演习笔记
tcp/ip
python
网络安全
编程算法
的subprocess模块进行播放语音方面,偶然遇到内存爆炸之类问题,so,想系统的学习一下python下的进程管理。本文代码在github上,文件夹是python_multithreading
十四君
2019-11-28
1K
0
python根据ip获取地理位置再查询天气情况调百度语音合成朗读
python
http
tcp/ip
语音合成
人脸识别
虽然是造轮子,不过还是挺好玩的。主要的困难点再于编码问题。还有一个是部分使用python2.7的代码和python3.4之间的兼容性问题。代码发布在github中。https://github.com/luyishisi/The_python_code/tree/master/automatic_weather
十四君
2019-11-27
954
0
SCRAPY学习笔记八 反反爬虫技术项目实战
网络安全
tcp/ip
http
scrapy
网站
在爬取简单的页面则很轻松的可以抓取搞定,但是如今一个b***p项目(不透露),需要抓取的网站有比较强悍的反爬虫技术,我们也提高作战技术,汇总并逐步实现反爬虫技术。
十四君
2019-11-27
1.2K
0
高度伪造的爬虫&&X-Forwarded-For伪造ip跳过ip限制
tcp/ip
爬虫
网络安全
针对需要大量代理ip的R××项目,采用伪造式的请求头跳过验证码和每日请求次数限制,现在针对请求做详细的拟人化,让对面更难以察觉。如有不足多多指教。项目最新完整代码放在github上:因为目前正在运作项目完结后公开,下文中有可运行代码
十四君
2019-11-27
2.3K
0
爬虫破解IP限制–ADSL动态IP服务器–部署小结
爬虫
分布式
云数据库 Redis
tcp/ip
python
目前遇到的比较难搞的反爬虫技术有两个:特别难识别的人机识别验证码–如极验的手势验证,另外就是ip大量的限制,如R网站两次访问就被强制跳转到验证码页面。现在留下部署手记
十四君
2019-11-27
4.1K
0
运用phantomjs无头浏览器破解四种反爬虫技术
javascript
tcp/ip
python
http
https
在与反爬虫的对抗中,我们爬虫的大招有两个,其一是多种ip跟换方式(例如adsl|代理|tor等请参看之前的文章)。其二是无头浏览器,使用自动化的技术来进行自动数据抓取,模拟鼠标与键盘事件,可以用于破解验证码,js解析,诡异的模糊数据这类型的反爬虫技术
十四君
2019-11-27
1.8K
0
Linux查看实时带宽流量情况以及查看端口信息
grep
tcp/ip
云数据库 SQL Server
linux
数据库
Linux中查看网卡流量工具有iptraf、iftop以及nethogs等,iftop可以用来监控网卡的实时流量(可以指定网段)、反向解析IP、显示端口信息等。
十四君
2019-11-26
20.2K
0
虚拟主机配置多个站点详解
tcp/ip
wordpress
网站建设
linux
http
准备为青学会也搭建一个博客,就在本博客的虚拟主机上多开一个端口,配置多个站点。感谢超哥的技术支援,救民于水火之中啊!!
十四君
2019-11-25
1.5K
0
mysql-使用load两分钟-千万行表快速迁移合成亿行总表
tcp/ip
python
云数据库 SQL Server
数据库
使用load这种底层的迁移方式,会让移动速度非常快。将已经导出为txt的7.2G数据合成为接近1亿行的总表,大致耗时2分钟。
十四君
2019-11-23
534
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档