腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Scrapy
:
如何
获取
urls
列表
并在
之后
遍历
它们
scrapy
我是python和
scrapy
的新手,看过一些udemy和youtube教程,现在正在尝试我自己的第一个示例。我知道
如何
循环,如果有下一步按钮的话。但在我的情况下,没有。这是我的代码,在其中一个url上工作,但是开始url需要稍后更改: class Heroes1JobSpider(
scrapy
.Spider): # where我可以通过以下命令
获取
urls
列表
: start_
urls
= [
浏览 15
提问于2019-01-23
得票数 1
回答已采纳
1
回答
刮刮-刮擦时发现的刮擦链接
python
、
scrapy
我只能假设这是在
Scrapy
最基本的事情之一,但我只是不知道
如何
去做。基本上,我刮了一个页面来获得包含本周更新的
urls
列表
。然后,我需要逐个进入这些
urls
,并从
它们
中
获取
信息。因此,我首先从第一个刮板中刮取
urls
,然后在第二个刮板上将
它们
硬编码为start_
urls
[]。 做这件事最好的方法是什么?它是否像调用刮板文件中的另一个函数一样简单,该函数接受
urls
列表
并在
浏览 3
提问于2016-11-25
得票数 0
回答已采纳
1
回答
在同一进程中多次运行
Scrapy
python-3.x
、
scrapy
我有一个URL
列表
。我想爬上每一个。请注意 下面的代码是一个完整的、破碎的、可复制的示例。它基本上尝试循环
遍历
URL
列表
,
并在
每个URL上启动爬虫。这是基于文档的。from
scrapy
.utils.log import confi
浏览 0
提问于2018-08-13
得票数 2
回答已采纳
1
回答
刮擦蜘蛛不返回任何信息
python
、
python-3.x
、
xpath
、
scrapy
、
scrapy-spider
它有将近500页,我用Python 3编写了一个
Scrapy
,它
遍历
每一个页面并将
列表
复制到字典中,但我无法计算出xpath或css来
获取
列表
信息。= 1 'https://kit.com/brands?page=" + str(pageNumber) pageNumber += 1
浏览 0
提问于2017-07-07
得票数 3
回答已采纳
1
回答
用
Scrapy
遍历
网页请求URL的页面
scrapy
、
request
-58c6cf9f9808)改编为适用于https://tinyhouselistings.com/这个小型房屋
列表
网站。本教程使用请求URL来
获取
一个非常完整和干净的JSON文件,但仅针对第一个页面执行此操作。似乎循环浏览我121页的小房子
列表
请求url应该是相当简单的,但我还没能让任何东西工作。本教程不会
遍历
请求url的页面,而是使用
scrapy
splash,在Docker容器中运行以
获取
所有清单。我很愿意尝试一下,但我只是觉得应该可以
遍历</
浏览 31
提问于2020-04-26
得票数 0
回答已采纳
1
回答
刮除蜘蛛不返回项数据。
python-3.x
、
scrapy
、
scrapy-spider
我的
scrapy
脚本似乎没有遵循链接,最终没有从每个链接中提取数据(将一些内容作为
scrapy
items传递)。 我正试图从一个新闻网站上搜集大量数据。我成功地复制/编写了一个蜘蛛,正如我所设想的那样,它应该从一个文件中读取链接(我用另一个脚本生成了它),将
它们
放在start_
urls
列表
中,然后按照这些链接开始提取一些数据,然后将其作为items传递在运行
scrapy
crawl PNS
之后
,脚本会
遍历
来自start_
urls</
浏览 0
提问于2019-01-29
得票数 0
回答已采纳
1
回答
在python中处理txt文件中的url,并以txt格式输出网页内容。
python
、
web-scraping
、
spyder
我有一个很大的域
列表
,输入txt文件,并希望处理
它们
,并将输出保存到txt文件。这是我的python脚本from
scrapy
.spider import BaseSpiderURL = 'http://%s' % DOMAIN class M
浏览 2
提问于2017-02-02
得票数 0
1
回答
从一个网站抓取多个网页
python
、
scrapy
、
web-crawler
from
scrapy
.spider import BaseSpider name = "dmoz" start_
urls
= [ "www.dmoz.org我确实在里面放了多个
urls
,但是我没有从所有的
urls
浏览 2
提问于2012-04-15
得票数 0
2
回答
开始
urls
和域的
Scrapy
迭代
python-3.x
、
pandas
、
scrapy
、
scrapy-spider
我正在尝试从csv读取
urls
和域的
列表
,并让
Scrapy
爬行器
遍历
域的
列表
并启动
urls
,目标是通过我的管道将该域中的所有
urls
导出到csv文件中。import
scrapy
from
scrapy
.linkextractors import LinkExtractorfor domain in domainorgs:
浏览 2
提问于2018-02-23
得票数 0
回答已采纳
1
回答
我试着用
Scrapy
从一个网站上抓取数据。我的密码怎么了?
python
、
web-scraping
、
scrapy
、
web-crawler
我使用xpath表达式response.xpath('//td/a/@href').getall()来
获取
每个播放器的相对
urls
列表
。然后,我
遍历
相对
urls
的
列表
,并将
它们
与主页合并,得到一个名为"absolute_url“的变量,该变量对于一个播放器"”+/ players /63289/Brenden/ 来说是这样的。我在
scrapy<
浏览 8
提问于2022-09-19
得票数 -1
1
回答
如何
打开一个包含
urls
列表
的大型csv并抓取这些
urls
?
python
、
scrapy
我在本地机器上有一个很大的csv,它只包含一个
urls
列表
,没有其他我想要抓取的列,并从每个
urls
中提取特定的css元素。我已经完成了一个测试,不看csv,只做一个一次性的开始url。我不知道
如何
打开一个包含一百万个
urls
的大型csv,让
scrapy
遍历
每个
urls
,然后再转到下一个。import
scrapy
class stkSpider(
scrap
浏览 3
提问于2020-04-30
得票数 0
2
回答
多次解析
python
、
python-3.x
、
scrapy
、
web-crawler
My then -解析所有页面并将指向
列表
中所有文章的链接存储在
列表
中,然后迭代
列表
并解析链接。 name = "test" "https= []
浏览 0
提问于2020-02-02
得票数 2
回答已采纳
3
回答
(刮起)
如何
从数百个网站的
列表
中刮除每个网站上的所有外部链接(
并在
Zyte上运行整个程序)?
web-scraping
、
scrapy
、
scrapinghub
我想使用
Scrapy
来编码一个通用的蜘蛛,它将从一个
列表
中抓取多个网站。我希望把这个
列表
放在一个单独的文件中,因为它很大。对于每个网站,蜘蛛将导航通过内部链接,
并在
每一页,它将收集每一个外部链接。最后,我想用以下字段导出CSV中的结果: 但我不清楚我
如何
才能做到这一点,因为它缺少完整的
浏览 4
提问于2021-11-09
得票数 0
1
回答
无法使用
scrapy
从网页中
获取
不同
列表
的标题
python
、
python-3.x
、
web-scraping
、
cookies
、
scrapy
我试图解析来自这个的不同
列表
的标题。标题不是动态的,因为
它们
在页面源中可用。但是,首先需要发送cookie来
获取
标题。我尝试了下面的方法来刮名单的标题,但它似乎不起作用。我到目前为止的尝试:from
scrapy
.crawler import CrawlerProcess ] def start_re
浏览 2
提问于2020-07-12
得票数 3
1
回答
刮擦:在输出中保留刮过的项目的原始顺序。
python
、
scrapy
我有下面的
Scrapy
蜘蛛从文件url.txt中的
urls
列表
中
获取
页面的状态from
scrapy
.contrib.spiders import CrawlSpider") f.close() def parse(self, responseclass StatusLinkItem(
scrap
浏览 2
提问于2015-05-12
得票数 2
回答已采纳
1
回答
我能用
Scrapy
提取这个XHR数据吗?
python
、
scrapy
我正在尝试用
Scrapy
从这个中提取数据。例如,我希望使用page=1
遍历
这些<a href=\"/@eberhardgross\">\n,比如前100个页面,并提取
urls
的每个实例。最终,只是尝试
获取
用户名,但是页面上还有其他<a href="">,但是如果我可以提取用户名,那就太好了,但是如果我必须
获取
所有的<a href="">,那就好了,我可以对
它们
进行排序,只
获取
浏览 0
提问于2019-12-18
得票数 0
1
回答
抓取爬行器只在类别的前5页爬行
scrapy
CrawlSpider:from
scrapy
.spiders import CrawlSpider, Rule # define thefields for your item here like: # name =
浏览 0
提问于2017-11-01
得票数 0
回答已采纳
2
回答
刮伤在<div>标记中找不到
python
、
html
、
scrapy
我正在尝试刮的网站是 在页面的html标记中,有一个带有class=“行
列表
-
列表
”的div标记。我试图在div标记中
获取
段落标记,但是
Scrapy
似乎找不到这个标记。我已经检查过任何未关闭的标签,但
它们
似乎都关闭了。那么为什么
Scrapy
不能拿这个标签呢?
Scrapy
可以
获取
的最内部标记是div class=“细分
列表
”,它位于div class=“行
列表
-
列表
”之外。另外,当我
获取</e
浏览 2
提问于2019-09-19
得票数 1
1
回答
如何
在python脚本中使用
scrapy
的Spider和LinkExtractor?
python
、
web-scraping
、
scrapy
我找到了一些关于
如何
从任何网站提取所有可用链接的主题的答案,所有这些都是关于
scrapy
模块的。ALso复制了其中一个代码示例: from
scrapy
import Spider name = 'myspider' start_
urls
= ['http://webpage.com']
浏览 18
提问于2019-06-16
得票数 0
回答已采纳
1
回答
如何
将URL从蜘蛛导入蜘蛛?
python
、
scrapy
我正在构建一个
Scrapy
WuzzufLinks,它在这个链接:中抓取到作业网站中特定作业的所有链接。 name = 'WuzzufLinks' start_
浏览 3
提问于2021-12-30
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券