Django Scrapy-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Django Scrapy

专栏成员

121

文章

199400

阅读量

38

订阅数

爬虫的主函数该怎么写

主函数中是将前边写的所有函数汇总，通过多线程，将爬虫稳步有序的进行。头文件中的那些是之前写好的做引用用到了多线程技术，在python中，Pool函数是个好的多线程工具 __author__ = 'Lee' from multiprocessing import Pool from beijing_proper import channel_list from items_combination import get_pages_url def get_all_links_from(channel)

2018-04-12

1.5K0

xpath 和css选择器 python爬虫必备技能

css html xml python 爬虫

一 xpath 1定位 xml html导航 2 包含标准库 3 xpath是一个w3c的标准---语法一致 xpath术语节点子节点、父节点、上节点、 xpath语法 xpath语法 x

2018-04-11

8220

python爬虫反爬取---设置IP代理自动变换requests.get()中proxy的IP

python 爬虫 xml

今天做了个随机变换IP的功能由于今天懒得写爬虫爬取西刺网 (http://www.xicidaili.com/wt/) 的ip和端口号西刺网就简单写了个py来用人肉的方法一个一个试IP(捂脸)

2018-04-11

6.4K0

python爬取链家租房之获得每一页的房屋信息地址（持续更新）

__author__ = 'Lee' import requests from bs4 import BeautifulSoup url_text = 'https://bj.lianjia.com/zufang/xicheng/' area_list = [] headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0

2018-04-11

1.2K0

python爬虫反爬取---设置User Agent自动变换header文件

__author__ = 'Lee' import requests import random #随机数模块 def requests_headers(): head_connection = ['Keep-Alive','close'] head_accept = ['text/html,application/xhtml+xml,*/*'] head_accept_language = ['zh-CN,fr-FR;q=0.5','en-US,en;q=0.8,zh-Hans-

2018-04-11

1.7K0

python爬取链家租房之获取房屋的链接和页面的详细信息

因为期末考试的缘故，本打算一个星期结束的爬虫，拖了很久，不过，也有好处：之前写的时候总是被反爬，这几天复习之余写了些反爬取的py code 下面发出来和大家探讨做了些反爬取的手段随机获取一个headers headers.py __author__ = 'Lee' import requests import random #随机数模块 def requests_headers(): head_connection = ['Keep-Alive','close'] head_acce

2018-04-11

1.3K0

python爬取链家租房之获取北京所有区的网站分栏地址（第一次写，code太粗犷，欢迎提建议）

__author__ = 'Lee' import requests from bs4 import BeautifulSoup url_list = 'https://bj.lianjia.com/zufang/' url_list1 = 'https://bj.lianjia.com' area_list = [] headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (K

2018-04-11

7730

python mongodb爬取58网站

python mongodb 数据库爬虫

__author__ = 'Lee' from bs4 import BeautifulSoup import requests ''' 用这个爬取58中二手的分栏 ''' start_url = 'http://bj.58.com/sale.shtml' #开始的页面 url_host = 'http://bj.58.com' def get_channel_urls(url): wb_data = requests.get(url) soup = BeautifulSoup(wb_

2018-04-11

8080

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态