首页
学习
活动
专区
工具
TVP
发布

Django Scrapy

专栏成员
121
文章
199400
阅读量
38
订阅数
爬虫的主函数该怎么写
主函数中是将前边写的所有函数汇总,通过多线程,将爬虫稳步有序的进行。 头文件中的那些是之前写好的做引用 用到了多线程技术,在python中,Pool函数是个好的多线程工具 __author__ = 'Lee' from multiprocessing import Pool from beijing_proper import channel_list from items_combination import get_pages_url def get_all_links_from(channel)
98k
2018-04-12
1.5K0
xpath 和css选择器 python爬虫必备技能
一 xpath 1定位 xml html导航 2 包含标准库 3 xpath是一个w3c的标准---语法一致 xpath术语 节点 子节点、父节点、上节点、 xpath语法 xpath语法 x
98k
2018-04-11
8220
python爬虫反爬取---设置IP代理自动变换requests.get()中proxy的IP
今天做了个随机变换IP的功能 由于今天懒得写爬虫爬取西刺网 (http://www.xicidaili.com/wt/) 的ip和端口号 西刺网 就简单写了个py来用人肉的方法一个一个试IP(捂脸)
98k
2018-04-11
6.4K0
python爬取链家租房之获得每一页的房屋信息地址(持续更新)
__author__ = 'Lee' import requests from bs4 import BeautifulSoup url_text = 'https://bj.lianjia.com/zufang/xicheng/' area_list = [] headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0
98k
2018-04-11
1.2K0
python爬虫反爬取---设置User Agent自动变换header文件
__author__ = 'Lee' import requests import random #随机数模块 def requests_headers(): head_connection = ['Keep-Alive','close'] head_accept = ['text/html,application/xhtml+xml,*/*'] head_accept_language = ['zh-CN,fr-FR;q=0.5','en-US,en;q=0.8,zh-Hans-
98k
2018-04-11
1.7K0
python爬取链家租房之获取房屋的链接和页面的详细信息
因为期末考试的缘故,本打算一个星期结束的爬虫,拖了很久,不过,也有好处:之前写的时候总是被反爬,这几天复习之余写了些反爬取的py code 下面发出来和大家探讨 做了些反爬取的手段 随机获取一个headers headers.py __author__ = 'Lee' import requests import random #随机数模块 def requests_headers(): head_connection = ['Keep-Alive','close'] head_acce
98k
2018-04-11
1.3K0
python爬取链家租房之获取北京所有区的网站分栏地址(第一次写,code太粗犷,欢迎提建议)
__author__ = 'Lee' import requests from bs4 import BeautifulSoup url_list = 'https://bj.lianjia.com/zufang/' url_list1 = 'https://bj.lianjia.com' area_list = [] headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (K
98k
2018-04-11
7730
python mongodb爬取58网站
__author__ = 'Lee' from bs4 import BeautifulSoup import requests ''' 用这个爬取58中二手的分栏 ''' start_url = 'http://bj.58.com/sale.shtml' #开始的页面 url_host = 'http://bj.58.com' def get_channel_urls(url): wb_data = requests.get(url) soup = BeautifulSoup(wb_
98k
2018-04-11
8080
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档