腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Scrapy
:如何在
scrapy
/wget已经
下载
的
文件
上使用XPath选择器?
、
我的项目涉及解析已经通过
Scrapy
或wget
下载
的
文件
。我知道我可以使用XPath选择器,但是到目前为止,我看到的示例涉及到在
Scrapy
的解析方法中调用XPath选择器,因此只对
Scrapy
下载
的
文件
起作用。有没有一种方法可以直接对
下载
的
文件
使用XPath?我是Python和
Scrapy
的新手,所以我找不到在独立的非
Scrapy
Python脚本中调用XPath的方法。
浏览 2
提问于2013-01-13
得票数 0
1
回答
如何使用
scrapy
通过扩展名为链接的链接
下载
文件
、
我正在使用
scrapy
来抓取一个网站,我可以从页面
下载
文件
,但是所有正在
下载
的都是纯文本
文件
。如何使用扩展类型
下载
?我正在
下载
脚本,因此,在我的
下载
上有适当的扩展类型是必要的。例如,如果我从exploit-db
下载
漏洞,我去
下载
它们的链接应该是:,我从那里提取的
下载
链接是,如果我正常点击它,它将
下载
一个ruby
文件
。但是通过
scrapy
,它被保存
浏览 0
提问于2016-06-20
得票数 0
2
回答
Scrapy
如何避免重新
下载
最近
下载
的媒体?
、
根据的说法,
Scrapy
的
文件
管道和图像管道都“避免重新
下载
最近
下载
的媒体”。 我有一个爬虫,我正在使用 (JOBDIR)运行它,以便暂停和恢复爬行。最初,我在不
下载
文件
的情况下抓取项目;后来,我添加了一个Files Pipeline。然而,在使用管道重新运行爬行器之前,我忘记了删除JOBDIR。我担心的是,JOBDIR中的requests.seen
文件
将包含已被抓取的项目的指纹,但没有抓取的
文件
(因为当它们被抓取时,管道还没有到位)。我正在考虑做的是
浏览 0
提问于2017-05-19
得票数 3
1
回答
安装
Scrapy
和pyOpenSSL时Cmd退出状态1错误
、
、
我正在尝试安装
scrapy
,到目前为止,我已经安装了Twisted,OpenSSL,也许还有一两个其他的。我正在使用easy install,当我输入以下命令时我得到了这个错误。C:\Users\Joel>easy_install
Scrapy
Best match:
scrapy
0.24.2
scrapy
浏览 2
提问于2014-08-08
得票数 3
3
回答
在Windows 64位上安装
Scrapy
时出错
、
、
、
我正试图在我的Windows 7 64位计算机上安装
Scrapy
。首先,我遵循了
Scrapy
文档中的说明。它们指出,您应该解压缩二进制
文件
,并将BIN
文件
夹的内容放在C:\WINDOWS之类的路径中。是我干的。但是,在再次尝试安装
Scrapy
之后,我继续收到相同的错误。我遗漏了什么吗?
浏览 1
提问于2016-01-26
得票数 2
1
回答
使用网站上多个搜索栏中的单个搜索栏的Python脚本
、
、
我想写一个python脚本来从中为每个组提取
文件
。 我想让脚本迭代地搜索"Cell Parameters and Symmetry“搜索选项中的所有空间组,然后
下载
某个结构的
文件
(比如第一个)。
浏览 0
提问于2020-01-14
得票数 0
1
回答
尝试在Pycharm中使用
Scrapy
下载
PDF
、
、
、
、
我一直在尝试让
Scrapy
从一个网站
下载
所有的PDF
文件
,但是我似乎无法让它真正
下载
这些
文件
。爬虫运行得很好,可以访问url的所有页面,但是没有任何内容被
下载
。我遵循了
Scrapy
网站和其他网站上的一些教程和演练,但我就是不能理解它。此外,我也想只
下载
包含"spec_sheet“的
文件
,如果可能的话(位于
下载
部分的任何灯的网站,并也命名的PDF是什么,他们在网站上,而不是一个随机的字母和数字字符串,当他们<
浏览 43
提问于2021-01-19
得票数 2
1
回答
无法安装scrappy
、
我正在使用PyCharm,并希望创建一个Hello World项目。我也不能安装scrappy。Collecting ScrappyCollecting guessit (from Scrappy) Using cached https://file
浏览 17
提问于2019-08-02
得票数 2
1
回答
从网站
下载
json
文件
?
、
、
、
我试着创建一个爬行器从一个网站
下载
一些json
文件
- name = 'spiderWords'
浏览 2
提问于2021-12-20
得票数 -1
回答已采纳
2
回答
Scrapy
:如何获取
文件
下载
状态
、
我是新来
Scrapy
的,请耐心听我说。-->现在,我正在努力找出一个
文件
是否已经
下载
或者是‘最新的’。如果
下载
了一个
文件
,我会从日志中看到: 2017-08-22 17:25:16 [
scrapy
.statscollectors]
浏览 24
提问于2017-08-23
得票数 1
回答已采纳
1
回答
如何
下载
一个
文件
,其中
下载
按钮会弹出一个刮刀弹出?
、
、
我正在尝试从等网站
下载
APK。当您单击“
下载
APK”按钮时,在Tor浏览器中会弹出一个弹出窗口,让您可以选择打开或保存
文件
(见下文)。我想保存这个
文件
。在items.py中,我按照包含了所需的字段 image_urls =
scrapy
.Field': 1 IMAGES_STORE = '/tmp/apkmi
浏览 1
提问于2017-05-19
得票数 0
回答已采纳
4
回答
在PyCharm中安装
Scrapy
库时出错
、
我可以安装其他包,但不能安装
Scrapy
。我得到以下错误: warning: build_py: byte-compiling is disabled, skipping.
浏览 7
提问于2017-06-01
得票数 2
1
回答
不带
文件
扩展名的图像的抓取和
下载
、
、
、
我正在尝试使用
Scrapy
的图像/
文件
pipeline来
下载
不带任何
文件
扩展名的图像。我试过将".jpg“附加到url的末尾,但不起作用。 我如何
下载
这些类型的图像?使用适当的
文件
扩展名从其他URL
下载
可以正常工作,并且我可以看到图像被<em
浏览 2
提问于2018-11-13
得票数 0
1
回答
Scrapy
:使用python 3.6在windows 10上安装
scrapy
,并发现缺少MSVCP140.dll
文件
、
、
当我在PC上安装
scrapy
框架时,我遇到了错误“命令' cl.exe‘没有这样的
文件
或目录失败”,并且在我通过在visual studio 14中导入cl.exe路径来修复它之后,我不会再次看到这个错误(命令'cl.exe’失败没有这样的
文件
或目录),但是我遇到了一个新的错误,它是关于
文件
MSVCP140.dll的。
浏览 2
提问于2017-08-03
得票数 2
1
回答
下载
图片会导致值重复并给出错误
、
Spider运行正常,并将数据保存在mongodb中,但突然开始在数据库、json和csv中保存重复的值,我删除了
下载
图像的代码,它工作得很好,但我需要图像,有人能帮我吗?提前谢谢。items.pyclass BucketItem(
scrapy
.Item):store_name=
scrapy
.Field()sub_category = <e
浏览 0
提问于2019-11-05
得票数 0
1
回答
可以完全
下载
pdf
文件
吗?
、
、
、
我想从由爬虫抓取的pdf网页链接中
下载
许多pdf
文件
,但是当我在filespipeline中使用
scrapy
.Request(pdf_url)抓取pdf网页时,最终它
下载
了不完整的pdf
文件
。除了前几个
文件
(它们是完整的)之外,所有的pdf
文件
都是1KB的。我不得不使用requests.get(pdf_url, stream=True)完全
下载
所有的pdf
文件
,但它太慢了。我想知道
scrapy
filespipeli
浏览 19
提问于2019-07-11
得票数 0
3
回答
在
Scrapy
中
下载
文件
时出现错误302
、
[
scrapy
] WARNING: File (code: 302): Error downloading file from <GET <url> referred in <None> 'FILES_STORE': 'C:\\Users\\User\\Downloads\
浏览 5
提问于2016-05-22
得票数 1
1
回答
使用
Scrapy
:如何从一些提取的链接
下载
pdf
文件
、
我已经创建了一些从网站中提取链接的代码(PDF链接),现在我需要
下载
这些PDF
文件
,但是我很难做到这一点。这是代码: name = "all5" next_link = response.urljoin(link)
浏览 0
提问于2019-07-28
得票数 0
回答已采纳
1
回答
从刮刮处
下载
的图像比预期的要小(jpegs)或不可读(tifs)
、
、
、
本质上,我使用刮擦脚本
下载
的
文件
与我手动
下载
的
文件
不匹配。所有
文件
(即使是最小的jpeg图像)都会缩小大小。当我打开Photoshop中的图片时,'tif‘
文件
是一种无法识别的格式。木桩开得很好。此外,我
下载
的
文件
被
下载
为灰度
文件
,而我的脚本抓取的
文件
是RGB
文件
。 据我所知,上的文档几乎都是用来处理带有刮痕的图像的,但它确实提到它使用枕头库进行处理。我的想法是,它在默认
浏览 0
提问于2018-08-04
得票数 2
回答已采纳
1
回答
刮取检查是否刮过url,返回任何可
下载
的
文件
、
、
我是新来的
Scrapy
公司,到目前为止还没有找到任何帮助。我想要做一个小的刮刀,它可以刮除页面上所有的Url,然后一个一个地点击它们,如果Url返回任何可
下载
的任何扩展名
文件
,然后
下载
并保存到指定的位置。下面是我编写的代码:items.py file =
scrapy
.Field()spid
浏览 3
提问于2016-05-19
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Scrapy 练习(一)下载壁纸图,使用ImagesPipeline
scrapy(一)scrapy 安装问题
Jmeter文件下载测试
Python Scrapy 爬虫(二):scrapy 初试
单页源文件下载
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券