抓取爬行器不返回任何内容，但Xpath是正确的_Xpath是正确的，但Scrapy爬行器不起作用_xPath :Scrapy不打印任何内容，但单击网页链接时，Scrapy是正确的 - 腾讯云开发者社区

python、xpath、web-scraping、scrapy

我正在尝试使用scrapy抓取一个网站，并且我正在编写我的爬行器的早期阶段。首先，我只是尝试返回电影的名称，但当我运行爬行器时，名称将返回'None‘或返回每个条目。我已经使用'XPath助手‘chrome扩展检查了Xpath，它看起来是正确的，所以我不确定为什么爬虫没有<

浏览 34提问于2020-04-29得票数 1

回答已采纳

1回答

用Scrapy爬行特定的网页

html、xpath、scrapy

嗨，我是个剪贴上的菜鸟，我试着抓取一些文章(内容、机构名称、通讯员等)。来自以下页面：问题是，我的爬行器返回大多数文章的正确结果，但是对于代理名称为“reuters”(例如- )的文章，它只返回一组转义字符而不是内容(它确实返回标题和代理名称)。main_path=response.xpath('&

浏览 1提问于2017-05-11得票数 1

回答已采纳

1回答

如何让scrapy使用url遍历归档文件？

python、python-3.x、scrapy

我正在尝试让一个抓取蜘蛛抓取归档中的几个页面，目的是打开每个单独的链接并抓取链接页面的内容。我遇到了一些随机的HTTP500错误，我试图通过简单的尝试跳过这些错误-除了跳过那些返回500个错误的页面。解析函数的第一部分使用parse_art函数遍历归档页面中的href，以获取要抓取的页面。第二部分是在归档中查

浏览 18提问于2019-07-08得票数 1

回答已采纳

2回答

Scrapy - Xpath可以在shell中运行，但不能在代码中运行

python、xpath、web-scraping、web-crawler、scrapy-spider

我正在尝试抓取一个网站(我得到了他们的授权)，我的代码在scrapy shell中返回了我想要的东西，但我的爬行器什么也得不到。, response.url)我正在尝试爬行的网站是response.selector.xpath('//*[@id=

浏览 36提问于2018-04-25得票数 1

回答已采纳

1回答

在Coles.com.au 429上抓取产品链接时出现错误，共1个请求

python、python-3.x、scrapy

我是网络抓取的新手，想用抓取从下面的网站抓取链接： https://shop.coles.com.au/a/national/everything/search/bread?pageNumber=1 我创建了下面的xpath来抓取链接，当我通过查看并按下ctrl +f来测试它时，我得到了51个匹配项，这与产品的数量相等，因此看起来是正确的<

浏览 14提问于2020-07-05得票数 1

1回答

正确的xpath返回空结果

xpath、scrapy

我想要从这个网页上的表格中抓取数据假设我想提取左上角单元格中的文本LM2015122827458，我使用了response.xpath("//tr[@class = 'tr_css']/td[1]/text()&

浏览 2提问于2016-01-05得票数 0

0回答

Xpath是正确的，但Scrapy不起作用

python、xpath、web-scraping、scrapy、spyder

我尝试从网页下载两个字段，我为每个字段确定XPath表达式，然后运行爬行器，但没有下载任何内容。我想逐项列出的字段是ISIN。item['ISIN'] = response.xpath('//*[@id="overviewQuickstatsD

浏览 0提问于2018-07-17得票数 2

回答已采纳

1回答

Scrapy Spider

python、web-scraping、scrapy、scrapy-spider

我正在尝试抓取亚马逊，但我获得的file.csv是空白的。看看我的代码：import scrapyfrom scrapy.linkextractors: ml_item['articulo'] = response

浏览 0提问于2018-03-25得票数 1

1回答

我正在写一只抓取蜘蛛，为今天的“纽约时报”的文章从主页上爬行，但出于某种原因，它没有跟随任何链接。当我在scrapy shell http://www.nytimes.com中实例化链接提取器时，它成功地用le.extract_links(response)提取了一个文章urls列表，但是除了主页之外，我无法获得爬行命令(scrapy crawl nyt -o out.json)来抓取任何东西。是

浏览 4提问于2015-06-18得票数 3

回答已采纳

1回答

Scrapy，python:无法使用在firebug中看到的xpath提取数据

python、xpath、firebug

我对网络抓取、刮擦和巨蟒相当陌生。我正试图从这个中抓取数据。我想提取页面页脚中给出的电子邮件id : info@bikramyogasg.com，并尝试使用两个x路径来提取刮伤蜘蛛中的电子邮件id：绝对: /html/body/div4/div/div/div/div/p/

浏览 2提问于2015-07-06得票数 0

回答已采纳

1回答

刮伤:无法理解关于robots.txt的日志

python、web-scraping、scrapy

我的问题是，如果这个日志意味着网站不能被刮掉？我改变了我的用户代理看起来像一个浏览器，但它没有帮助。此外，我省略了"start_requests“中的"s”，但这也没有帮助。这是我得到的日志：2020-1

浏览 1提问于2020-11-18得票数 0

回答已采纳

1回答

我在抓取的项目中找不到字符串

python、scrapy

我有一个非常简单的爬虫，但是当我试图搜索我正在抓取的项目的内容时，它没有被找到被抓取的url：https://www.filmlinc.org/nyff2019/films/the-irishmannyff2019/films/the-irishman/', title=response.

浏览 12提问于2019-09-14得票数 0

回答已采纳

6回答

用scrapy抓取多个域名的最好方法是什么？

python、screen-scraping、scrapy

我有大约10多个网站，我希望从中抓取。其中有几个是wordpress博客，它们遵循相同的html结构，尽管具有不同的类。其他的要么是论坛，要么是其他格式的博客。我喜欢抓取的信息很常见--帖子内容、时间戳、作者、标题和评论。我的问题是，我必须为每个域创建一个单独的爬行器吗？如果没有，我如何创建一个通用的

浏览 3提问于2011-03-31得票数 6

2回答

Python在抓取IMDb网站时出现的问题

python、python-3.x、xpath、web-scraping、imdb

我试图使用IMDb在上抓取电影，我可以获得关于所有重要方面的数据，但演员的名字除外。下面是我正在处理的一个示例URL：使用“检查”浏览器功能，我找到了与所有参与者名称相关的XPath，但是当在Python上运行代码时，XPath看起来是无效的(不返

浏览 0提问于2018-09-08得票数 0

回答已采纳

1回答

抓取爬虫不爬行或不能写入csv文件？

python、python-2.7、web-scraping、scrapy、web-crawler

项目：sudo scrapy crawl indeed_resume -o items.csv/home/shap/Desktop/resume_crawlers/resume_scraper-master/resume_data/s

浏览 3提问于2017-01-09得票数 0

回答已采纳

2回答

是否有任何SEO问题，以给邮件链接不跟踪？

seo、nofollow、hyperlink、mailto

我见过一些在邮件地址使用nofollow的网站。示例 📷

浏览 0提问于2018-03-16得票数 2

1回答

无异常运行的Scrapy脚本，但未收集任何数据

python、python-3.x、scrapy

这是我从一些材料书中学到的Python Scrapy脚本。这是一个简单的web抓取示例。我可以在没有任何exception.But的情况下运行它，似乎通过运行它实际上没有收集到任何数据。因为这是学习示例，我不认为它是错误的，或者可能我的python库不匹配。谢谢。pythonevents/',]

浏览 0提问于2018-12-15得票数 1

0回答

在满足条件时关闭抓取爬行器并返回输出对象

python、scrapy、web-crawler、screen-scraping

我做了一个蜘蛛，用来从像这个这样的页面上获取评论。我希望产品评论只持续到某个日期(在这种情况下是2016年7月2日)。我希望在审查日期早于给定日期时立即关闭爬行器，并返回项目列表。爬行器工作得很好，但我的问题是我不能关闭我的爬行器如果条件是met..if我引发一个异常，爬行器关闭而不返回<em

浏览 0提问于2016-07-12得票数 2

1回答

HTTPS页面造成的重复内容

seo、https、duplicate-content

有人说，你浪费谷歌爬行学分，因为谷歌需要再次爬行相同的内容。这是真的吗？我真的对重复的内容有问题吗？

浏览 0提问于2013-11-05得票数 2

1回答

Xpath是正确的，但Scrapy爬行器不起作用

xpath、scrapy

我尝试从网页下载，我识别了XPath表达式，然后运行爬行器，但没有下载任何东西。网页：https://octopart.com/electronic-parts/integrated-circuits-ics代码如下： for product in response.xpath("//div[@class='serp-card-header media']/div[@class='

浏览 28提问于2019-03-04得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云