腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Django Scrapy
专栏成员
举报
121
文章
199400
阅读量
38
订阅数
订阅专栏
申请加入专栏
全部文章(121)
python(45)
其他(15)
数据库(15)
linux(12)
django(10)
爬虫(8)
tensorflow(7)
云数据库 SQL Server(7)
unix(6)
windows(6)
bash(5)
api(5)
ubuntu(5)
zabbix(5)
https(5)
json(4)
es 2(4)
开源(4)
shell(4)
java(3)
xml(3)
html(3)
sql(3)
http(3)
编程算法(3)
存储(3)
scrapy(3)
anaconda(3)
mac os(2)
mvc(2)
github(2)
centos(2)
bash 指令(2)
腾讯云测试服务(2)
mongodb(2)
容器(2)
ftp(2)
zookeeper(2)
grep(2)
image(2)
css(1)
ajax(1)
ecmascript(1)
oracle(1)
nosql(1)
postgresql(1)
matlab(1)
搜索引擎(1)
nginx(1)
容器镜像服务(1)
apt-get(1)
深度学习(1)
图片标签(1)
人工智能(1)
电商(1)
xslt & xpath(1)
运维(1)
正则表达式(1)
二叉树(1)
tcp/ip(1)
安全(1)
hbase(1)
项目管理(1)
airbnb(1)
axure(1)
chrome(1)
firefox(1)
size(1)
xargs(1)
服务器(1)
环境搭建(1)
架构(1)
设计(1)
算法(1)
源码(1)
字符串(1)
搜索文章
搜索
搜索
关闭
爬虫的主函数该怎么写
python
爬虫
主函数中是将前边写的所有函数汇总,通过多线程,将爬虫稳步有序的进行。 头文件中的那些是之前写好的做引用 用到了多线程技术,在python中,Pool函数是个好的多线程工具 __author__ = 'Lee' from multiprocessing import Pool from beijing_proper import channel_list from items_combination import get_pages_url def get_all_links_from(channel)
98k
2018-04-12
1.5K
0
xpath 和css选择器 python爬虫必备技能
css
html
xml
python
爬虫
一 xpath 1定位 xml html导航 2 包含标准库 3 xpath是一个w3c的标准---语法一致 xpath术语 节点 子节点、父节点、上节点、 xpath语法 xpath语法 x
98k
2018-04-11
822
0
python爬虫反爬取---设置IP代理自动变换requests.get()中proxy的IP
python
爬虫
xml
今天做了个随机变换IP的功能 由于今天懒得写爬虫爬取西刺网 (http://www.xicidaili.com/wt/) 的ip和端口号 西刺网 就简单写了个py来用人肉的方法一个一个试IP(捂脸)
98k
2018-04-11
6.4K
0
python爬取链家租房之获得每一页的房屋信息地址(持续更新)
python
爬虫
__author__ = 'Lee' import requests from bs4 import BeautifulSoup url_text = 'https://bj.lianjia.com/zufang/xicheng/' area_list = [] headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0
98k
2018-04-11
1.2K
0
python爬虫反爬取---设置User Agent自动变换header文件
python
爬虫
__author__ = 'Lee' import requests import random #随机数模块 def requests_headers(): head_connection = ['Keep-Alive','close'] head_accept = ['text/html,application/xhtml+xml,*/*'] head_accept_language = ['zh-CN,fr-FR;q=0.5','en-US,en;q=0.8,zh-Hans-
98k
2018-04-11
1.7K
0
python爬取链家租房之获取房屋的链接和页面的详细信息
python
爬虫
因为期末考试的缘故,本打算一个星期结束的爬虫,拖了很久,不过,也有好处:之前写的时候总是被反爬,这几天复习之余写了些反爬取的py code 下面发出来和大家探讨 做了些反爬取的手段 随机获取一个headers headers.py __author__ = 'Lee' import requests import random #随机数模块 def requests_headers(): head_connection = ['Keep-Alive','close'] head_acce
98k
2018-04-11
1.3K
0
python爬取链家租房之获取北京所有区的网站分栏地址(第一次写,code太粗犷,欢迎提建议)
python
爬虫
__author__ = 'Lee' import requests from bs4 import BeautifulSoup url_list = 'https://bj.lianjia.com/zufang/' url_list1 = 'https://bj.lianjia.com' area_list = [] headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (K
98k
2018-04-11
773
0
python mongodb爬取58网站
python
mongodb
数据库
爬虫
__author__ = 'Lee' from bs4 import BeautifulSoup import requests ''' 用这个爬取58中二手的分栏 ''' start_url = 'http://bj.58.com/sale.shtml' #开始的页面 url_host = 'http://bj.58.com' def get_channel_urls(url): wb_data = requests.get(url) soup = BeautifulSoup(wb_
98k
2018-04-11
808
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档