腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
scrapy
的
问题
-
没有
抓取
任何
项目
python
、
scrapy
我试图删除这个网站("")中
的
所有信息,但我无法将其写入文件中。我
的
文件甚至都
没有
创建。下面是我
的
代码:import json # JSON manipulation name = 'Karl' # Spider's n
浏览 5
提问于2018-07-24
得票数 1
回答已采纳
1
回答
Scrapy
表示
没有
抓取
任何
页面/
项目
?
python
、
logging
、
scrapy
我
的
爬虫当前正在从网站上
抓取
xml。这样做是成功
的
,因为我可以看到通过数据库管道存储
的
项。2013-04-12 11:58:03-0400 [traffics] INFO: Dumping
Scrapy
2013-04-12 11:58:03-0400 [traffics] INFO: Spider
浏览 0
提问于2013-04-19
得票数 1
1
回答
不确定在Anaconda平台上加载
Scrapy
的
位置
web-scraping
、
scrapy
当涉及到
抓取
网站的话题时,我太天真了。到目前为止,我已经从预先生成
的
数据集中手动
抓取
或
抓取
数据。不过,我想解决一个分析
问题
,由于其规模,这个
问题
需要解决。
Scrapy
是我被推荐使用
的
工具,所以这也是我将要使用
的
工具。 我正在尝试按照教程加载我
的
第一个
Scrapy
项目
,但遇到了一个障碍。当我尝试在Spyder中输入启动
项目
的代码来启动新
项目
时: i
浏览 13
提问于2020-01-29
得票数 0
1
回答
通过
Scrapy
存储
抓取
的
数据
python
、
json
、
scrapy
如何在一个文件中存储整个
抓取
的
数据?例如:
抓取
的
数据是[u\ 7564.2021],但存储在json文件中
的
数据只有[ 哪里出了
问题
?
浏览 0
提问于2011-12-19
得票数 1
1
回答
scrapy
增量提取不起作用
python
、
python-2.7
、
scrapy
我使用
的
是
scrapy
0.20我使用
的
是插件。我对我
的
设置做了如下设置: 'TestSpider.deltafetch.DeltaFetch': 100,DELTAFETCH_ENABLED= True但蜘蛛会继续
抓取
已经被
抓取
的
项目
。
浏览 0
提问于2014-03-23
得票数 2
2
回答
如何
抓取
一个网站只给定域网址与
scrapy
python
、
web-crawler
、
scrapy
、
scrape
我正在尝试使用
scrapy
抓取
一个网站,但网站
没有
网站地图或页面索引。如何使用
scrapy
抓取
网站
的
所有页面? 我只需要下载网站
的
所有页面,而不提取
任何
项目
。我只需要在蜘蛛规则中设置关注所有链接吗?但我不知道
scrapy
是否会以这种方式避免复制urls。
浏览 0
提问于2013-01-06
得票数 5
回答已采纳
1
回答
递归地爬行网站及其外部链接,为数据分析
项目
n Python创建一个图表。
python
、
beautifulsoup
、
scrapy
、
web-crawler
、
scrapy-spider
我有一个
项目
,我想把它放在一起做一个数据分析实验。我有一个管道,但我不知道如何继续获取我需要
的
数据。我想
抓取
一个网站,并找到所有的内部和外部链接,分开他们和爬行
的
外部链接递归,直到它达到一定
的
深度。我想要这样做,以创建一个网站
的
所有连接
的
图表,然后使用中心算法找到中心节点并从那里开始。理想情况下,我希望在这个
项目
中使用python 2。我看了一看刮擦
的
、漂亮
的
汤和其他图书馆,但这一切都很令人困惑。在爬行和创建图表时,
浏览 2
提问于2017-11-25
得票数 0
1
回答
将从selenium获得
的
页面源代码传递给
scrapy
python
、
selenium
、
scrapy
我正在尝试实现一个
scrapy
+ selenium爬虫,但在使用selenium与页面交互后,我似乎无法获得
scrapy
来解析HTML。代码如下import seleniumfrom selenium import webdriver importWebDriverWa
浏览 4
提问于2018-09-12
得票数 3
9
回答
BeautifulSoup和
Scrapy
crawler有什么区别?
python
、
beautifulsoup
、
scrapy
、
web-crawler
我想做一个网站,显示亚马逊和易趣产品价格
的
比较。其中哪一个会工作得更好?为什么?我对BeautifulSoup比较熟悉,但对
Scrapy
crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
1
回答
从py转换为exe后,App无法正常工作
python
、
scrapy
、
pyqt5
我有一个PyQt5应用程序,旨在与
抓取
蜘蛛工作。用户可以选择
Scrapy
的
项目
.cfg文件,应用程序会检测到它
的
蜘蛛。然后,用户可以启动/停止运行爬行器并查看日志。下面是它
的
代码: GUI.py: from functools import partial self.
scrapy
浏览 9
提问于2019-03-11
得票数 0
1
回答
挣扎着用
Scrapy
刮一个网站
python
、
web-scraping
、
scrapy
我最近开始了我
的
第一个Python
项目
。我对火车很感兴趣,我在我
的
国家铁路公司
的
网站上
没有
发现
任何
CSV数据,所以我决定在
Scrapy
做网络
抓取
。当我试图获取第二个链接时,终端会结冰--这些是我想为我
的
项目
抓取
数据
的
网站: 在看了几篇关于这个
问题
的
文章之后,我改变了蜘蛛
的
设置,以克服错误,比如禁用cookie,使用刮除<em
浏览 7
提问于2022-10-25
得票数 0
1
回答
从脚本运行爬行器时获得
scrapy
爬行命令
的
功能
python
、
django
、
postgresql
、
web-scraping
、
scrapy
我在一个
scrapy
项目
中编写了一个爬行器,它正确地从url和管道中
抓取
数据--响应到postgresql表中,但只在使用
scrapy
命令时。当从
项目
根目录中
的
脚本运行蜘蛛时,似乎只调用蜘蛛类
的
解析方法,因为仅使用python命令运行脚本时不会创建表。我遵循了中包含
的
说明,但在数据被刮掉后,它们似乎不处理流水线数据。这就引发了一个
问题
:我甚至应该尝试运行一个脚本来运行蜘蛛,或者我是否应该以某种方式使用
scrapy
命令
浏览 3
提问于2015-07-26
得票数 2
回答已采纳
1
回答
如何获取Python
Scrapy
工具
抓取
的
项目
数?
python
、
scrapy
我正在使用Python
Scrapy
工具从网站提取数据。我能够
抓取
数据。现在我想要从一个特定
的
网站上刮下来
的
项目
的计数。我怎样才能得到
抓取
的
项目
数?在
Scrapy
中有内置
的
类吗?
任何
帮助都将不胜感激。
浏览 0
提问于2013-10-24
得票数 1
1
回答
如何使Selenium页面刷新到其元素
的
最新状态?
python
、
selenium
、
selenium-webdriver
、
web-scraping
、
selenium-chromedriver
我有一个Python + Selenium脚本,可以帮助我
抓取
信息。然而,网页不时会遇到错误,然后我需要刷新页面并再次
抓取
。
问题
是这个错误是不稳定
的
,当我已经点击了一些按钮或填写了一些表单时,它可能会使我
的
刮刀崩溃。 我需要找到一个优雅
的
方法来刷新页面完全相同
的
按钮点击(我
的
意思是,完全相同
的
状态)。有什么帮助吗?
浏览 20
提问于2017-08-29
得票数 0
1
回答
在heroku上部署
scrapy
项目
python-2.7
、
heroku
、
scrapy
、
scrapyd
我有一个
抓取
蜘蛛
项目
,它报废了一些网站,并获取我
的
数据上。我
的
爬行器生成两个JSON文件,所有
抓取
的
数据都存储在这两个文件中。现在,我有一个flask web服务,它使用上述两个JSON文件来满足用户
的
请求。我想自动
浏览 1
提问于2014-04-24
得票数 2
1
回答
还有其他方法可以获得代理列表和站点
抓取
吗?
python
、
scrapy
通过
抓取
,我使用随机代理中间件为
Scrapy
()。首先,我通过
抓取
免费
的
代理站点(不使用代理旋转)获得list.txt (代理列表),然后,当我通过两个不同
的
Scrapy
项目
运行它时,我会对另一个站点进行
抓取
(使用代理旋转),它工作得很好。
问题
是如何将获取代理和
抓取
合并到一个粗糙
的
项目
中,还是有其他方法来处理它? 我试图在一个
Scrapy
项目
中
浏览 1
提问于2019-06-23
得票数 0
回答已采纳
1
回答
如何将javascript呈现模块集成到
scrapy
中?
javascript
、
python
、
web-scraping
、
scrapy
我正在做一个网络
抓取
程序,但我遇到了一个
问题
,使用刮擦与javascript生成
的
内容。我知道
scrapy
不是为进行这种类型
的
抓取
而构建
的
,但我一直试图使用或来完成我所需要
的
工作。但是,我无法让这两个模块中
的
任何
一个正确地使用
scrapy
。我
的
问题
是,如果有人有一个最小
的
示例,他们可以显示使用scrapyjs或splash来呈现javascrip
浏览 0
提问于2014-02-04
得票数 4
回答已采纳
1
回答
使用
Scrapy
抓取
ajax页面
python
、
selenium
、
scrapy
我已经用
Scrapy
一个月了。我能够
抓取
和
抓取
几个网站(事实上我已经
抓取
了900个网站),基于pipelines.Now给出
的
关键字,
问题
是当我们遇到javapages (ajax)时,
抓取
不能
抓取
。我正在尝试使用以下代码,并对
抓取
ajax页面进行适当
的
更改第二个
问题
是
浏览 2
提问于2013-06-19
得票数 0
回答已采纳
2
回答
从子目录中为托管在Heroku上
的
Django
项目
运行非Django命令?
django
、
heroku
、
scrapy
我
的
Django
项目
使用了名为
Scrapy
的
Python web
抓取
库。
Scrapy
附带了一个名为
scrapy
crawl abc
的
命令,它可以帮助我
抓取
我在
scrapy
应用程序中定义
的
网站。当我在本地机器上运行诸如
scrapy
crawl spidername之类
的
抓取
命令时,应用程序能够
抓取
日期并将其复制到我
的</e
浏览 1
提问于2012-01-27
得票数 3
回答已采纳
3
回答
在使用
Scrapy
进行
抓取
之前,检查URL是否在文件中
python
、
scrapy
、
file-read
我正在
抓取
一个包含URL列表
的
大文件。显然,我不能连续地
抓取
所有的URL。我当前
的
解决方案从文件中读取URL。一旦它从该页面
抓取
和下载文档,我就会写入一个新文件,如下所示: https://url_i_completed_crawling E:/location_I_stored_crawled_fileshttps://another_url_i_completed_crawling E:/another_location_I_
浏览 6
提问于2019-10-11
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券