腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Scrapy
不会
抓取
url
python
、
scrapy
我正在试着做一个简单的
抓取
程序,从网站http://quotes.toscrape.com/
抓取
引文。输出应存储在html文件中。但是当我运行代码时,它
不会
输出任何东西。终端显示它
抓取
了0页Terminal output 这是以下代码。你能帮我吗?有点不对劲,谢谢 import
scrapy
name ="SimpleSpider" def
浏览 29
提问于2020-09-05
得票数 0
回答已采纳
3
回答
Scrapy
,仅遵循内部URLS,但提取找到的所有链接
python
、
scrapy
、
web-crawler
、
scrape
、
scrapy-spider
我想从一个给定的网站使用
Scrapy
获得所有外部链接。使用下面的代码,爬虫也会
抓取
外部链接:from
scrapy
.contrib.linkextractors'] = response.
url
我遗漏了什么?难道"allowed_domains“不能阻止外部链接被
抓取
吗?如果我将LinkExtractor设置为"all
浏览 0
提问于2015-01-15
得票数 16
回答已采纳
1
回答
刮取规则不调用解析方法。
python
、
scrapy
、
scrapy-spider
我是新刮刮,并试图
抓取
一个域,跟踪所有内部链接,并用模式/示例/*
抓取
网址的标题。class BidItem(
scrapy
.Item): title =
scrapy
.Field()from
sc
浏览 1
提问于2018-11-22
得票数 1
回答已采纳
2
回答
如何为
scrapy
编写规则以添加访问过的urls
python
、
scrapy
、
web-crawler
当
scrapy
关闭时,它会忘记所有的urls。我想给
scrapy
一组网址,已
抓取
,当它是开始。如何向爬虫添加规则,让爬虫知道哪些urls被访问过?tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None) 只需使用parse告诉爬虫
抓取
哪个
url
即可。我如何告诉
scrapy
哪些urls不应该访问?
浏览 0
提问于2012-11-28
得票数 3
1
回答
scrapy
python CrawlSpider不爬行
python
、
scrapy
、
web-crawler
import
scrapy
from
scrapy
.linkextractors importMySpider(CrawlSpider): allowed_domains = ['example.com'] start_urls = [
url
_1,
url
_2,
url
_3]
浏览 11
提问于2019-04-24
得票数 0
2
回答
抓取
蜘蛛从链接中随机
抓取
数据为什么?
python
、
scrapy
首先,我从网站上
抓取
了所有的硬币链接,并要求那些链接。但是
scrapy
没有串行地请求从链接list.after请求这些链接
抓取
数据成功,但当保存到csv文件时,它使一个完整的
抓取
项目后每一次都是一个空行。我期待它将从链接列表中串行请求,它
不会
使任何空白row.how我能做到吗?我使用的是python 3.6和
scrapy
版本1.5.1import
scrapy
浏览 3
提问于2018-12-02
得票数 0
3
回答
Scrapy
pause/resume是如何工作的?
scrapy
有人能给我解释一下
Scrapy
中的暂停/恢复功能是如何工作的吗?没有提供太多细节。我有以下简单的爬虫:name = 'sample' yield Request(
url
lst_id=1053') yield Request(
url
='https://colostate.t
浏览 0
提问于2015-03-04
得票数 8
1
回答
如何确保在我的
Scrapy
爬行器中解析每个
URL
python
、
beautifulsoup
、
scrapy
、
web-crawler
我尝试在美食博客上
抓取
食谱列表的每一页,
抓取
每一页上的食谱
URL
,然后将它们全部写入一个.txt文件。我已经添加了一个.log()来检查urls是否确实包含了我试图从其中
抓取
的所有正确的
URL
,当我在命令提示符中执行
Scrapy
时,我得到了以下确认: 2019-01-31 22:16:17 [recipes我当前的代码: import
scrapy
class QuotesSpider(
scrapy
浏览 21
提问于2019-02-01
得票数 1
1
回答
如何用
Scrapy
重新安排403响应页?
python
、
scrapy
偶尔,我在使用
Scrapy
2.4.1
抓取
页面时得到403个响应。<GET https://www.
url
...> (failed 5 times): 403 Forbidden 2021-02-06 01:44:17 [
scrapy
.spidermiddlewares.httperror] INFO: Ignoring response <403 https://www.
url
...>: HTTP status code is not han
浏览 3
提问于2021-02-07
得票数 0
1
回答
Scrapy
抓取
了0个页面,无法下载pdf
python
、
web-scraping
、
scrapy
我是
scrapy
的新手。我正在尝试使用
scrapy
下载这个pdf。我不清楚为什么它不能工作。import
scrapy
name = "hawaii" file_urls = ["http://www2.hawaii.edu/~kinzie/documents/CV%
浏览 0
提问于2015-11-19
得票数 0
1
回答
如何从多个页面中
抓取
项目?
python
、
scrapy
我正在尝试
抓取
#页的数据。我已经做了一个可以从一个页面
抓取
数据的
抓取
器。但它在刮掉第一页后突然完成了工作# -*- coding: utf-8 -*-import csvfrom
scrapy
.selector import Selector class Proddduct(
scrapy
.
浏览 11
提问于2019-11-07
得票数 1
1
回答
Spider使用
scrapy
运行,但没有数据存储到csv中
scrapy
import
scrapy
name = 'test' nextp = response.css('li.next > a::attr(href)').(
url
=nextp, callb
浏览 84
提问于2019-03-21
得票数 0
1
回答
抓取
我们当前所在网页的
url
python
、
web-scraping
、
scrapy
例如,如果我想从
scrapy
.org中
抓取
数据,那么我可以定义规则来提取数据和页面中提供的链接。但是,我可以把
url
scrapy
.org本身作为一个
url
从那个网页上刮下来吗?由于我们当前所在的
url
将
不会
在html文件中提及,那么有什么方法可以这样做吗?我正试着从网页上
抓取
工作描述。 我想知道我们是否也可以提取到该页面的超链接。
浏览 1
提问于2014-02-20
得票数 0
回答已采纳
1
回答
并发发送HTTP请求
python
、
python-requests
、
python-multithreading
d_profile = "[" + ",".join(json.dumps(x) for x in chunk) + "]" try: r = requests.post(
url
) print r.content= "[" + &quo
浏览 12
提问于2016-08-18
得票数 1
5
回答
Scrapy
-如何识别已经
抓取
的urls
python
、
web-crawler
、
scrapy
我每天都在用
scrapy
抓取
一个新闻网站。如何限制
scrapy
抓取
已
抓取
的
URL
。此外,在SgmlLinkExtractor上是否有明确的文档或示例。
浏览 1
提问于2010-10-06
得票数 15
1
回答
Scrapy
-输出不显示
python
、
scrapy
、
web-crawler
大家早上好, 我在使用
Scrapy
时遇到了一个问题。这是我的蜘蛛: import
scrapy
name = "communes"in urls: yiel
浏览 22
提问于2019-03-20
得票数 0
回答已采纳
1
回答
Python
scrapy
不会
深入
python
、
scrapy
我使用的是Python2.7和
Scrapy
1.0.4。下面的
抓取
在Shell中逐个测试并运行。然而,当我把它们放在一起时,似乎
Scrapy
在第一关之后
不会
更深入。import
scrapy
name = "trb"start_urls'------ crawling root dir ------'
浏览 1
提问于2016-01-30
得票数 1
9
回答
BeautifulSoup和
Scrapy
crawler有什么区别?
python
、
beautifulsoup
、
scrapy
、
web-crawler
我对BeautifulSoup比较熟悉,但对
Scrapy
crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
2
回答
为什么
Scrapy
跳过了一些
URL
而不是其他
URL
?
python
、
proxy
、
scrapy
、
amazon
、
middleware
我正在写一个
抓取
从亚马逊的衬衫上的信息
抓取
。爬虫开始在亚马逊页面上进行一些搜索,例如“有趣的衬衫”,并收集所有的结果项容器。然后,它解析每个结果项,收集衬衫上的数据。我使用ScraperAPI和
Scrapy
-user-agent来躲避亚马逊。api_key=mykeyd&
url
=https://www.amazon.com/s?items['product_score'] = product_score 爬行看起来像这样: 我得到
浏览 0
提问于2019-09-03
得票数 0
1
回答
名为Anchor和Miss的Python
Scrapy
Skip
python
、
screen-scraping
、
scrapy
当我从urllib2+bs4切换到
Scrapy
时,我注意到
Scrapy
在默认设置中“巧妙地处理”了一些问题。我不太确定我是否正确,如果我错了,请纠正我。(1)默认情况下,
Scrapy
不会
抓取
重复
URL
,那么什么是重复
URL
?我注意到在
Scrapy
抓取
的网址中,没有,例如,他们对待下面的链接是一样的。www.abc.com/page1www.abc.com/pa
浏览 3
提问于2013-09-21
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
谈谈scrapy抓取豆瓣影评
scrapy抓取 高考派大学数据
Scrapy递归抓取简书用户信息
scrapy爬虫实战-国外soybase网站跨页面抓取
Python爬虫:使用scrapy框架抓取360超清壁纸
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券