腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用
大量
计算机
存储
的
Scrapy
python
、
selenium
、
web-scraping
、
scrapy
我是python和
scrapy
的
新手。现在,我正在
使用
一个利用selenium加载JS页面的爬行器。我正在通过Bootcamp运行一台windows
计算机
,我还有大约10 up
的
存储
空间,然而,当我运行我
的
scrapy
spider时,在运行30分钟内,它几乎占据了一半
的
存储
空间,我不知道为什么。我在settings.py中关闭了HTTP Cache,但它仍然占用了几GB
的
存储
空间
浏览 18
提问于2020-07-25
得票数 0
2
回答
还有什么更有效:读取和解析大型JSON文件或大型CSV文件?
python
、
cpu
我计划
使用
Scrapy
抓取本地网站获取
大量
数据,并将其
存储
在文件中。然后,我计划解析该文件,并将一些数据放在SQL数据库中。我
的
计算机
会
使用
较少
的
CPU和RAM来读取和解析一个大
的
CSV文件或JSON文件吗?不管是哪种方式,哪种方法对我
的
机器
的
负担更小?
浏览 0
提问于2018-03-25
得票数 1
2
回答
刮擦初始化错误
python
、
scrapy
我正在开始
使用
Scrapy
,但是在LinuxMint17.2(基于Ubuntu
的
版本)上安装有两个问题。我不明白安装pip install
scrapy
和sudo apt-get install
scrapy
的
区别是什么 当我安装这两个中
的
一个时,我试着
使用
命令
scrapy
startprojecttutorial来学习
Scrapy
的
第一个教程,它会给出错误/usr/bin:
浏览 5
提问于2015-10-22
得票数 2
回答已采纳
1
回答
使用
Scrapy
抓取Youtube用户页面上
的
标题和持续时间信息
python
、
web-scraping
、
youtube
、
scrapy
正如标题所暗示
的
,我想构建一个
存储
用户视频标题信息和持续时间
的
应用程序,并
使用
Scrapy
存储
它。
使用
BeautifulSoup解析HTML源文件相对容易,但在处理上传了
大量
视频
的
Youtube用户页面时,我认为
使用
BeautifulSoup是不可能
的
。 任何帮助都将不胜感激。
浏览 2
提问于2017-07-16
得票数 0
2
回答
ImportError:没有名为misc.log
的
模块
python
、
python-2.7
、
scrapy
、
scrapy-spider
我试着运行中
的
"
scrapy
“示例我应该在哪里找“misc.log”?
浏览 5
提问于2016-01-05
得票数 0
回答已采纳
1
回答
如何
使用
scrapy
-redis管道?
python
、
redis
、
scrapy
我现在正在
使用
scrapy
-redis,我可以
使用
它,并且我成功地通过
使用
相同
的
redis服务器在不同
的
计算机
上爬行。但我不明白如何正确
使用
scrapy
-redis管道。在我
的
理解中,我认为我需要另一个脚本而不是爬行器来处理redis管道列表中
的
项,然后我可以做一些事情,比如将它们
存储
到数据库中。
浏览 13
提问于2017-07-31
得票数 0
1
回答
如何将
Scrapy
的
屏幕输出
存储
到Linux中
的
文件中
linux
、
scrapy
、
scrapy-spider
我经常用要调试
Scrapy
项目,请执行以下操作。然而,当有
大量
的
项目爬行,这些日志信息将嵌入到许多无用
的
信息。
scrapy
crawl xxx_spider >> my_log 但这不管用
浏览 0
提问于2016-02-18
得票数 0
回答已采纳
1
回答
如何
使用
psycopg2将抓取
的
项(或dict /命名元组)放入postgres
存储
过程(函数)中执行插入操作
python
、
sql
、
postgresql
、
scrapy
、
psycopg2
其中一些是简单
的
异步插入。然而,它们有
大量
的
参数。请注意,复合类型在开始时声明了两次。第一个是postgres中
的
create table语句,第二个是<em
浏览 0
提问于2012-07-13
得票数 2
回答已采纳
1
回答
使用
scrapy
抓取各种网站并找到特定
的
单词
python
、
web-crawler
、
scrapy
我对
scrapy
框架是个新手。他们有一个很棒
的
文档,我在里面学到了各种东西。我正在尝试卷曲各种教育网站到深度3级,在每个网站中找到cse部门(尝试找到cse或
计算机
或在该页面上抓取
的
链接中
的
单词列表)。如果他们有cse部门在他们
的
网站,这些链接或网址将被
存储
在一个.csv文件。如何修改我
的
XPath以在每个网站中找到cse部门(尝试在该页面上抓取
的
链接中找到cse或
计算机
或单词列表),以及我在哪里应用条件(如果链接有
浏览 2
提问于2012-11-08
得票数 0
1
回答
通过Django视图运行
Scrapy
python
、
django
、
web-scraping
、
scrapy
、
web-crawler
因此,我正在做以下项目: 我正在
使用
Django开发一个网站,将作为一个网络爬虫
的
远程管理工作。更具体地说,我用
Scrapy
创建了一个蜘蛛,可以从另一个网站下载一些PDF文件。我
的
目标是找到一种通过POST (我猜)请求调用爬行器
的
方法,并让爬虫在我
的
Django视图中运行。下载
的
文件将
存储
到运行网站
的
服务器上,而不是
存储
到运行爬行器
的
任何人
的
个人
计算机
上。因此,
浏览 0
提问于2017-08-16
得票数 2
1
回答
如何用
Scrapy
爬行本地HTML文件
python
、
scrapy
我尝试用下面的代码爬行
存储
在桌面中
的
本地HTML文件,但是在爬行过程之前我遇到了以下错误,例如“没有这样
的
文件或目录:'/robots.txt'”。是否可以在本地
计算机
(Mac)中抓取本地HTML文件? $
scrapy
crawl test -o test01.csvclass TestSpider(
sc
浏览 1
提问于2018-11-15
得票数 4
回答已采纳
1
回答
如何从这个页面获得链接?
xpath
、
web-scraping
、
scrapy
、
scrapy-spider
本页有一些数据: $
scrapy
shell 'https://www.catalogs.ssg.asia/toyota/?
浏览 1
提问于2017-02-11
得票数 0
2
回答
HTML抓取
的
最佳可用选项是什么?
web-development
、
html
、
scraping
我目前正在
使用
PHP与CURL和简单
的
HTML DOM分析器进行HTML抓取。我需要刮
大量
的
内容,它需要
存储
。我
使用
PHP作为我
的
主要语言,
使用
MySQL作为
存储
DB,但是我对任何语言
的
选项都感兴趣,并且可以将它集成到我
的
工作流中。 还有其他
的
HTML抓取包我应该调查吗?我听说过基于Python
的
名为“
Scrapy
”和“Beautiful”<em
浏览 0
提问于2014-03-05
得票数 0
回答已采纳
2
回答
使用
scrapy
提取
大量
登录页面的原始html内容
python
、
scrapy
、
web-crawler
对于一个分类项目,我需要大约1000个网站
的
原始html内容。我只需要登录页面,而不是更多,所以爬虫不必遵循链接!我想为它
使用
scrapy
,但我无法获得代码。因为我在文档中读到JSON文件首先
存储
在内存中,然后保存(这会在抓取
大量
页面时导致问题),所以我想以“.js”格式保存文件。我
使用
Anaconda提示来执行我
的
代码。我希望生成
的
文件有两列,一列是域名,另一列是每个站点上
的
raw_html内容 domain, html_raw
浏览 10
提问于2019-02-12
得票数 0
回答已采纳
1
回答
如何在不更换遥控器
的
情况下删除本地历史
存储
库?
git
、
git-extensions
我
使用
Git扩展来管理本地
存储
库(远程
存储
在Microsoft TFS服务器中)。 当您最初将
存储
库克隆到本地
计算机
时,您可以选择不下载该
存储
库
的
整个历史记录,这节省了
大量
空间。然而,随着时间
的
推移,每次提交都会在您
的
本地
计算机
中不断累积,从而占用
大量
空间。 如何从本地
存储
库中清除提交
的
历史记录,而不影响远程
存储
库?
浏览 50
提问于2019-05-10
得票数 0
1
回答
两个抓取蜘蛛
的
例子,一个有内存泄漏,我找不到它
python
、
parsing
、
scrapy
、
bots
下面是我写
的
两只蜘蛛
的
例子。顶部有一个内存泄漏,导致内存缓慢扩展,直到其满。from wordscrape.items import WordScrapeItem from
scrapy
.
浏览 2
提问于2015-01-14
得票数 0
回答已采纳
1
回答
如何在Windows 10下在Visual代码中打开
的
终端中安装和
使用
Scrapy
?
python
、
powershell
、
visual-studio-code
、
scrapy
、
window
在具有提示PS C:\Rolf\py_scripts
的
终端窗口中,我已运行我得到消息成功安装了Automat-20.2.0 PyDispatcher-2.0.5.因此,我猜想,这批狮子是成功
的
,但是失败
的
消息“命令刮刮是未知
的
。”我已经看到,在我
的
计算机
的
硬盘上有一个"
scrapy
.exe“,我认为路径中
浏览 2
提问于2022-05-06
得票数 0
1
回答
云上
的
Scrapy
python
、
cloud
、
scrapy
我在想,是否有这样
的
可能性,而不是通过
大量
代理
使用
scrapy
来
使用
来自多个服务器
的
scrapy
…例如云计算。 有人试过了吗?
浏览 1
提问于2012-05-13
得票数 2
回答已采纳
1
回答
Python包括子目录中
的
Scrapy
python
、
import
、
scrapy
我想知道是否有一种方法可以将
Scrapy
放入子目录并导入它。我用BeautifulSoup完成了这个操作,而不是安装它,而是将bs4目录放到我
的
应用程序
的
目录中,然后导入它:在我从
scrapy
.org下载
的
源代码中,没有
scrapy
.py,所以我尝试导入这还回了一大堆错误。_monkeypatches File "C:\Users\Kat\Desktop\
浏览 2
提问于2016-01-02
得票数 1
回答已采纳
1
回答
抓取大容量插入
mysql
、
scrapy
我有一个爬虫,从多个网站获取数据,并更新到mysql表
的
信息。我
使用
scrapy
编写
的
crawler.The爬虫将插入/更新
大量
的
列。是否可以批量插入/更新
scrapy
中
的
项目?
浏览 0
提问于2015-02-07
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券