Scrapy奇怪的输出，但适用于curl_Python，使用已定义的函数循环，但输出奇怪的值_如果输出较短，则Pexpect不处理来自python脚本的输出，但适用于较长的输出。 - 腾讯云开发者社区

我在scrapy命令下运行 scrapy shell "https://www.vr.de/service/filialen-a-z/a.html' 作为回报，我得到了如下数据， ? 如果我使用curl来获取数据，那么所有信息都是准确的。有人能告诉我我哪里做错了吗？

浏览 14提问于2021-05-08得票数 0

回答已采纳

2回答

Scrapy不支持新请求

、、、

我写了下面的代码： curl_command = "curl blah blah" name = 'myspider'= scrapy.Request.from_curl(curl_command=curl_command) curl_req.= scrapy.Request.from_cur

浏览 31提问于2021-11-15得票数 0

回答已采纳

2回答

导出Curl格式的Scrapy请求

、、

 我使用Postman进行API测试，它具有导入curl命令的能力。刮擦可以以这种格式(或任何其他格式)导出吗？这可能有助于调试请求。

浏览 20提问于2016-06-08得票数 6

回答已采纳

1回答

XPATH在Chrome中工作，但在Scrapy中不起作用

、、、、

抱歉，我不能透露链接因为我的工作不公开协议。但奇怪的是，XPATH只适用于Chrome工具，而不适用于Scrapy。我通过response.body检查了刮过的HTML，并且HTML是正常的。

浏览 1提问于2017-03-15得票数 0

回答已采纳

1回答

为什么我得到这些奇怪的字符刮擦而不是html？

、、

这只是我的业余爱好。我试图通过替罪羊获得booking.com起始页面html。start_requests(self): start_url = 'https://www.booking.com' print(response.headers)我在response.te

浏览 0提问于2019-10-21得票数 2

回答已采纳

2回答

如何在Python Scrapy上禁用SSL验证？

、、

我用PHP写了三年的数据抓取脚本。, 0);curl_setopt($ch, CURLOPT_POST, count($fields));fr

浏览 14提问于2016-09-20得票数 2

回答已采纳

1回答

在刮刮位置时请求发出

、、

当用Scrapy在python中刮肯德基的位置时，我面临一个问题。这是网站：，这里是我的原始代码： name = 'kfc'Reference #18.17a02417.1653923

浏览 4提问于2022-06-07得票数 0

1回答

Scrapy使用代理并获取扭曲错误

、

我发现我爬行的一些页面很慢，而使用访问页面相对较快，所以我在启动爬行器之前运行以下代码：然而，当我启动爬行器时，_newclient.ParseError'>>]curl -I -x 192.168.1.102:8087 http://www.blabla.com/target/page.php 输出头对我来说

浏览 0提问于2014-03-31得票数 3

1回答

某些站点上的Scrapy超时

、、

在我自己的机器上我试过或工作完美，不知何故，www.flyertalk.com不能很好地处理scrapy。我一直收到超时错误(180秒)：但是，cur

浏览 0提问于2015-11-21得票数 1

2回答

如何将命令行关键字参数传递给scrapyd中的类变量？

、、

我正在做一个差劲的项目。我想知道如何将scrapyd api调用中的参数传递给爬行器类。class MySpider(scrapy.Spider):方法二： class

浏览 8提问于2020-05-05得票数 0

2回答

用ASP实现表单的自动填写

、

我正在试着写一些代码，来自动填充这个网页表单：我的理论是因为网站使用ASP，而我没有做一些事情来说明这一点？任何可以工作的<

浏览 0提问于2012-10-27得票数 1

回答已采纳

2回答

我试图在EC2上安排一个爬虫，并将输出导出到csv文件cppages-nov.csv，同时创建一个作业包--我需要暂停爬行，但它没有创建任何文件。我用的是正确的饲料出口吗？curl http://awsserver:6800/schedule.json -d project=wallspider -d spider=cppages -d JOBDIR=/home/ubuntu/scrapy/sitemapcrawl/crawl

浏览 0提问于2014-09-26得票数 1

回答已采纳

2回答

如何更新scrapy会话

、

现在使用scrapy，我不明白如何强制关闭/重新打开每个请求之间的会话。假设我正在使用以下刮板将http & curl请求发送到ipinfo.io/ip (代理是在中间件中设置的)：name = "ip" yield scrapy.Request.from_curl( "c

浏览 12提问于2022-09-04得票数 2

回答已采纳

1回答

Windows Server (IIS) + PHP7.4 -卷曲问题

、、

我对curl有一个奇怪的问题--一个版本不适用于CLI，但适用于web，另一个版本不适用于web，而是与CLI一起工作。我有两个DLL文件：php_curl.dll (v7.4.1 -与CLI一起工作)和php_curl_2.dll (v7.3.1 -工作于web)。对于CLI，我没有单独的php.ini。使用v7.3.1加载的CLI无法找到模块，尽管它查找正确的路径： exten

浏览 2提问于2021-03-11得票数 1

1回答

我可以在Django类中使用Scrapy函数吗

、

所以我安装了Scrapy。正如他们的教程中所述，Scrapy是通过使用但这适用于有自己文件的diff文件夹。是否可以在Django类中使用Scrapy函数并将数据放入Django变量中？

浏览 1提问于2011-06-04得票数 1

回答已采纳

2回答

刮擦+飞溅=连接被拒绝

、、、

按照所有步骤安装，但Splash不工作。我的settings.py文件：SPIDER_MODULES = ['Test.spiders']这是我的蜘蛛from scrapy_splash import SplashRequest class":&

浏览 1提问于2017-06-29得票数 2

1回答

Scrapyd:没有活动项目-如何用剪贴排蜘蛛

、

curl --insecure http://localhost:6800/schedule.json -d project=bid -d spider=test {"node_name": "spider1", "status": "error", "message": "Scrapy 2.1.0 - no active project

浏览 6提问于2020-05-04得票数 1

回答已采纳

1回答

抓取蜘蛛不会释放项目内存

、、、

我正在使用scrapy从不同的来源提取一些数据，它工作得非常好，但现在我已经编写了一个爬虫来从一个大的XML文件(大约100MB => 40000项)中提取数据。我使用的是scrapy 。问题是scrapy使用了很多内存(1 1GB或更多)，我不知道为什么它不释放我的项目使用的内存。当我使用scrapy的trackrefs工具(通过telnet连接到我的爬行器)时，我得到以下输出</

浏览 0提问于2012-04-05得票数 0

1回答

虚拟公告动态抓取中的几个问题

、、、、

免责声明:为我的愚蠢找借口，但我不是一个网络程序员：我正在尝试用python scrapy编写一个爬虫。当我看着这块板时，我遇到了一些奇怪的行为。当我使用scrappy或curl检索文档时，类被设置为forumbit_nopost old L1。在使用curl时，我更改了用户代理以匹配firefox的用户代理，但这并没有什么不同，所以我怀疑这与某些javascript的执行有关。我试过在火狐中禁用javascript，但是火狐仍然有

浏览 3提问于2012-05-02得票数 1

1回答

在远程计算机上部署scrapy

、、

你好，我正在使用scrapy，我已经成功地用scrapyd来部署它了--这个工作在我的本地主机上非常完美，但是当它从另一台计算机上运行时，它就无法工作了。此命令运行良好：curl http://localhost:6800/schedule.json -d project=webplode -d spider=pingwebsite -d file=./testfiles/testfiles.xlsxcurl http:

浏览 0提问于2019-07-09得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云