腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Scrapy
不会
抓取
整个
网站
scrapy
我试着用认证系统
抓取
整个
网站
。没有我的auth函数,一切都可以正常工作。当我使用我的auth函数时,只
抓取
登录和
抓取
主页。为什么它不
抓取
规则部分中定义的所有链接?from
scrapy
.linkextractors import LinkExtractorfrom
scrapy
.http
浏览 22
提问于2019-06-03
得票数 0
回答已采纳
1
回答
如何使用
scrapy
抓取
网站
?
web-crawler
、
web-scraping
、
scrapy
我要写一个基于
scrapy
的Gui应用程序,用户输入一个
网站
的URL,然后点击“爬网”按钮,
整个
网站
就会被
抓取
并存储在内置的
scrapy
-db (sqlite)中。如何使用
scrapy
帮助我
抓取
网站
?
浏览 4
提问于2012-03-09
得票数 0
1
回答
页面未完全处理
python
、
scrapy
我正在尝试从雅虎财经
网站
抓取
新闻文章,为此,我想使用他们的
网站
地图页面谢谢。
浏览 13
提问于2019-11-04
得票数 0
2
回答
如何用
Scrapy
抓取
整个
网站
?
web
、
web-scraping
、
scrapy
我无法
抓取
整个
网站
,
Scrapy
只能在表面
抓取
,我想
抓取
更深的部分。我已经用谷歌搜索了5-6个小时,但没有任何帮助。我的代码如下:from
scrapy
.contrib.linkextractors.sgmlimport SgmlLinkExtractor from
scrapy
.selector import HtmlXPat
浏览 0
提问于2013-03-19
得票数 11
1
回答
如何提高
抓取
抓取
的速度?
python
、
scrapy
我正在使用
Scrapy
抓取
网站
并将数据提取到json文件中,但我发现对于某些
网站
,爬虫需要很长时间才能
抓取
整个
网站
。 我的问题是:如何最大限度地减少爬行所需的时间?
浏览 3
提问于2013-10-01
得票数 4
1
回答
Scrapy
新手-如何
抓取
整个
网站
web-scraping
、
scrapy
我是
Scrapy
的新手。目前,我正在尝试
抓取
以下
网站
:https://blogabet.com/tipsters 你可以在下面找到我当前的代码。然而,正如你从
网站
上看到的那样,每次你访问它时,它只加载前10个条目。我想要
抓取
所有的用户名和用户urls。 到目前为止,我所研究的是,页面发送了一个新的请求来加载下10个条目。lastActive]=12&f[bookiesUsed]=null&f[bookiePercent]=&f[order]=follo
浏览 14
提问于2019-09-14
得票数 0
回答已采纳
1
回答
Python
Scrapy
不爬行
网站
python
、
scrapy
、
web-crawler
、
scrapy-spider
我只能
抓取
第一个给定的网址,但我不能
抓取
超过一个网页的或
整个
网站
的问题!我所做的例子很简单..。我的items.py class WikiItem(
scrapy
.Item):我的wikip.py (蜘蛛)fro
浏览 4
提问于2016-05-19
得票数 0
1
回答
获取给定域的RSS链接
python
、
rss
、
scrapy
我需要
抓取
域(即
整个
网站
),以获得rss链接。递归地
抓取
网站
的每一页,从每个页面获取rss链接,并写入与域对应的json文件--这是我的代码,仅用于一个
网站
:from
scrapy
.contrib.linkextractors.sgml import SgmlLinkExtractor from
scrapy
.selector
浏览 4
提问于2013-12-20
得票数 0
回答已采纳
1
回答
为什么
Scrapy
只
抓取
一个页面?
scrapy
我正在尝试测试
抓取
网页的
Scrapy
,我不明白为什么我的爬虫只
抓取
一个页面,我尝试评论规则和allowed_domains都没有成功。我想我遗漏了一些愚蠢的东西如果能帮上忙我会很感激的。from
scrapy
.contrib.spiders import CrawlSpider, Rulefrom
scrapy
.contrib.linkextractors.sgmlresponse.url def pa
浏览 3
提问于2012-03-21
得票数 1
回答已采纳
2
回答
刮擦规则否认
scrapy
我怎么能拒绝使用刮取规则来
抓取
网站
的某些部分。我希望
Scrapy
能够
抓取
mathcing www.example.com/help/nl/ en的链接,拒绝所有匹配www.example.com/help/en/和www.example.com/
网站
的链接rules = ( Rule(SgmlLinkExtractor(allow=(r'/help/nl/',)), ca
浏览 0
提问于2013-03-18
得票数 1
1
回答
抓取
抓取
整个
网站
的爬虫
python
、
scrapy
、
scrapy-spider
我正在使用
scrapy
抓取
我拥有的旧
网站
,我使用下面的代码作为我的蜘蛛。我不介意为每个网页输出文件,或者一个包含所有内容的数据库。但是我确实需要能够让蜘蛛
抓取
整个
东西,而不是我必须放入我当前必须做的每个单独的url。import
scrapy
name = "dmoz" allowed_domains = ["www.example.com
浏览 1
提问于2016-04-25
得票数 15
回答已采纳
1
回答
抓取
整个
站点并返回单个值:链接总数
python
、
scrapy
很容易
抓取
整个
网站
import
scrapy
name = 'myspider' start_urlsquotes.toscrape.c
浏览 1
提问于2019-02-26
得票数 0
7
回答
如何从
网站
上
抓取
所有内容?
php
、
html
、
windows
、
web-services
我开发
网站
,有时客户已经有
网站
,但需要他们完全翻新,但大多数内容和图像需要保持不变。我正在寻找软件,即使它很昂贵,或者是一个桌面应用程序,它可以让我轻松地输入URL并将所有内容
抓取
到我本地计算机上的指定文件夹中。任何帮助都将不胜感激。
浏览 2
提问于2011-04-25
得票数 2
回答已采纳
9
回答
BeautifulSoup和
Scrapy
crawler有什么区别?
python
、
beautifulsoup
、
scrapy
、
web-crawler
我想做一个
网站
,显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么?我对BeautifulSoup比较熟悉,但对
Scrapy
crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
1
回答
使用
Scrapy
抓取
ajax页面
python
、
selenium
、
scrapy
我已经用
Scrapy
一个月了。我能够
抓取
和
抓取
几个
网站
(事实上我已经
抓取
了900个
网站
),基于pipelines.Now给出的关键字,问题是当我们遇到javapages (ajax)时,
抓取
不能
抓取
。我正在尝试使用以下代码,并对
抓取
ajax页面进行适当的更改第二个问题是,我面临的问题是
scrapy
无法
抓取
浏览 2
提问于2013-06-19
得票数 0
回答已采纳
1
回答
刮取--尝试目录中的所有ID,而不需要递归链接搜索。
python
、
web-scraping
、
scrapy
、
web-crawler
假设我们想从某个
网站
抓取
某个特定目录,其中的页面名是特定范围内的整数I,例如,/book/BOOK_ID,其中BOOK_ID为0到2,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000BOOK_ID,我不想
抓取
整个
网站
,而且没有一个页面包含所有的链接。但是由于
Scrapy
非常强大,而且可以处理很多其他事情,所以我想知道是否可以使用
Scrapy
。
浏览 3
提问于2015-01-11
得票数 1
回答已采纳
1
回答
Scrapy
不能打印到json、html或任何其他文件。
python
、
scrapy
、
screen-scraping
我正在尝试将
抓取
的元素输出到一个json文件。当我选择打印出页面quotestoscrape.com的
整个
正文时,它成功地这样做了。但是,当我选择打印某些元素时,比如span标记或p标记,在json文件中
不会
显示任何
抓取
的项目。下面是我的
抓取
文件,它试图从站点quotestoscrape.com
抓取
span.text元素: import
scrapy
name
浏览 14
提问于2020-08-17
得票数 1
回答已采纳
2
回答
如何
抓取
一个
网站
只给定域网址与
scrapy
python
、
web-crawler
、
scrapy
、
scrape
我正在尝试使用
scrapy
抓取
一个
网站
,但
网站
没有
网站
地图或页面索引。如何使用
scrapy
抓取
网站
的所有页面? 我只需要下载
网站
的所有页面,而不提取任何项目。我只需要在蜘蛛规则中设置关注所有链接吗?但我不知道
scrapy
是否会以这种方式避免复制urls。
浏览 0
提问于2013-01-06
得票数 5
回答已采纳
1
回答
使
Scrapy
仅爬爬子链接
python
、
web-scraping
、
scrapy
我有以下
Scrapy
代码,我使用它来尝试在代码中仅从
网站
抓取
英超联赛数据:from
scrapy
.contrib.linkextractors.sgmlimport SgmlLinkExtractorfrom
scrapy
.item import Item from
scrapy<
浏览 3
提问于2014-07-19
得票数 2
1
回答
抓取
除特定路径下的链接外的
整个
网站
scrapy
、
scrapy-spider
我有一只好斗的蜘蛛:from
scrapy
.contrib.linkextractors.sgml% response.url)例如,我想
抓取
除www.test.com/too_much_links之外的所有测试
网站
。 提前感谢
浏览 5
提问于2016-02-20
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
抓取整个网站-免费抓取整个网站数据信息软件
scrapy爬虫实战-国外soybase网站跨页面抓取
2020年需要了解的Web抓取工具有哪些?
大神教你十分钟写界面化爬虫,爬取百思不得姐美眉视频:附源码
爬虫你可能都会用,但是背后的架构你真的懂了吗?
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券