腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Scrapy
和
rules
、
、
我是从
Scrapy
开始的,我成功地制作了几个蜘蛛攻击同一个网站。因为程序必须登录到网站,所以我必须覆盖start_requests,但当我覆盖它时,规则不会被处理。这是我的爬虫代码:import
scrapy
from <e
浏览 15
提问于2020-06-05
得票数 0
回答已采纳
1
回答
用下一页抓取。规则语法
、
我正在尝试使用
scrapy
进行递归的web抓取。我想去'‘,并通过下面的按钮,从这个网站获得所有的产品名称
和
价格。我能够创建这个蜘蛛(它正常工作):from
scrapy
.linkextractors import LinkExtractorfrom
scrapy
.spiders import CrawlSpider, Rule class DmozSpider(
scrapy
.Sp
浏览 2
提问于2016-02-10
得票数 1
回答已采纳
1
回答
刮伤LinkExtractor不起作用
埃里克from
scrapy
.contrib.spiders import CrawlSpider, Rule# from
scrapy
.contrib.linkextractors.lxmlhtml import LxmlLinkExtractor class YTSpider(
scrapy
.Sp
浏览 1
提问于2015-05-01
得票数 2
回答已采纳
1
回答
使用
Scrapy
时出现奇怪的错误
、
、
下面是我使用的代码:from
scrapy
.contrib.spiders import Rule url =
scrapy
.Field() allowed_domains
浏览 1
提问于2014-12-26
得票数 0
回答已采纳
1
回答
scrapy
上的多个蜘蛛
、
、
我用姜戈,芹菜,
scrapy
。import CrawlerProcessfrom
scrapy
_parser.
scrapy
_parser.spiders.map_linksimport MapLinksSpiderfrom thread
浏览 0
提问于2018-06-21
得票数 0
1
回答
抓取网站时
Scrapy
无法跟踪内部链接
、
我试图遵循所有的内部链接,同时跟踪所有内部
和
外部链接到一个网站。我刚刚开始与
Scrapy
合作,我无法弄清楚我如何爬行,同时遵循网站上的所有内部链接。 name = "brs"
rules
= (Rule(SgmlLinkExtractor(allow=()), callback='parse_obj
浏览 8
提问于2017-07-04
得票数 0
回答已采纳
2
回答
使用
Scrapy
查找并抓取所有具有特定格式的URL
、
、
我正在使用
Scrapy
来检索有关上项目的信息。我想抓取所有的网页与网址格式www.indiegogo.com/projects/[NameOfProject]。这些start_urls
和
规则大约有6000页,但我听说应该有接近10倍的数量。,显然会错过不受欢迎
和
资金不足的项目。filter_browse_balance=true&filter_quick=popular_all&per_page=50000"
rules
= ( Rule(LinkExtractor
浏览 1
提问于2014-11-05
得票数 0
1
回答
如何用
Scrapy
抓取网站所有页面上的链接
、
、
、
ppgcc.ufv.br"] 'http://www.ppgcc.ufv.br/',
rules
= [Rule(SgmlLinkExtractorrandom.randint(1, 9999)) #I'm trying to understand how to use
rules
allowed_
浏览 2
提问于2015-06-01
得票数 4
回答已采纳
1
回答
使用
Scrapy
抓取链接
、
、
、
、
我的代码用于抓取一个没有以下链接的简单页面: name = "boolidata" for link in response.css('.nav-list a::attr(href)').extract(): yield
scrapy
.Request
浏览 0
提问于2018-04-06
得票数 0
1
回答
python中的
Scrapy
Crawler不能跟踪链接吗?
、
我使用python的
scrapy
工具用python编写了一个爬虫。allowed_domains = ["a11y.in"] File "/usr/lib/python2.6/site-packages&
浏览 2
提问于2011-03-08
得票数 7
1
回答
解析回调没有定义--简单的Webscraper (
Scrapy
)仍然没有运行
、
、
import
scrapy
from bs4 import BeautifulSoupfrom
scrapy
.spiders import CrawlSpider, Rule allowed_domains = [&qu
浏览 2
提问于2019-11-18
得票数 2
回答已采纳
2
回答
扫描图像的URL模式?
、
、
、
我试过使用Python
和
Scrapy
,但我对它还很陌生。这就是我所能做到的:from
scrapy
.contrib.linkextractorsexample' start_urls = ['http://a.example.c
浏览 0
提问于2015-10-18
得票数 0
1
回答
链接提取错误
、
我的目标是提取一个特殊的数据在不同的links.For为目标链接的例子主页是,我想收集的价格价值 My code is like that : from
scrapy
.spiders import CrawlSpider,Rulefrom
scrapy
.selectorimport Selector from
scrapy
.http import HtmlRes
浏览 0
提问于2016-03-15
得票数 0
1
回答
如何在
scrapy
站点地图爬行器中覆盖sitemap_
rules
?
、
我尝试使用init方法在爬行器中动态添加sitemap_
rules
。我可以使用相同的方法更改sitemap_urls,但sitemap_
rules
不会被覆盖。谁能告诉我我哪里做错了。下面是我的代码:from
scrapy
.spiders import SitemapSpiderfrom myspider.items import MyItem from
scrapy
import s
浏览 1
提问于2019-11-29
得票数 2
2
回答
爬行器用于解析
和
添加来自XML页面的链接。
、
我知道有一个SitemapSpider
和
XMLFeedSpider,但是我需要带有XMLFeedSpider的爬行器的功能,反之亦然。 任何帮助都将不胜感激。
浏览 5
提问于2016-03-19
得票数 1
回答已采纳
1
回答
刮擦跟随&刮下几页
、
、
、
我有一个问题,我的刮除蜘蛛不会爬行一个网站,只是刮一页
和
抓住。我的印象是
rules
成员变量对此负有责任,但我无法让它跟踪任何链接。我一直在跟踪这里的文档:from
scrapy
.contrib.linkextractors import LinkExtractorfrom
scrapy
.selector import Selector from Exampl
浏览 2
提问于2015-03-02
得票数 2
回答已采纳
1
回答
刮掉的SgmlLinkExtractor推荐人无
、
这是我在蜘蛛里的代码:Rule(SgmlLinkExtractor(allow=(r'ad/\w+/67-\d+\.html',), callback='parse_items'),示例url如下所示:
scrapy
crawl khmer24的输出是:
浏览 1
提问于2013-02-28
得票数 1
1
回答
使用芹菜时不遵循链接的刮伤蜘蛛
、
、
、
、
我用Django,
Scrapy
和
芹菜来达到这个目的。定义的唯一规则是一个SgmlLinkExtractor实例
和
一个回调函数parse_page,它只提取响应url
和
页面标题,用它们填充一个新的DjangoItem (HTMLPageItem),并将其保存到数据库中.items import HTMLPageItemfrom
scrapy
.contrib.spiders import Ruleself.start
浏览 0
提问于2014-06-15
得票数 4
回答已采纳
1
回答
如何使两种CrawlerSpider规则相互配合
、
start_urls = ['http://play.google.com/store'] Rule(SgmlLinkExtractor(allow=('/store/apps
浏览 3
提问于2013-08-02
得票数 0
1
回答
我可以手动将链接添加到LinkExtractor吗?
、
看起来LinkExtractor不能从函数()中的ajax请求加载/生成的数据中提取链接!
浏览 2
提问于2016-08-05
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
scrapy(一)scrapy 安装问题
用 selenium和scrapy 模拟知乎登录
Python Scrapy 爬虫(二):scrapy 初试
Scrapy框架的使用之Scrapy入门
爬虫CrawlSpider原理
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券