腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
Scrapy
中,如何使用JSON加载的项来填充新字段?
、
、
、
我使用
scrapy
Item Loaders清理HTML字符串,并将元数据转换为JSON对象。然后,我想使用该JSON中包含的信息来填充我的爬虫中的其他字段。下面是到目前为止的爬虫,它爬行最近的100个工作列表:from ..items import EthjobsScrapyItem, EthJobsLoaderclass EthioJobsSpider(
scrapy
.Spider): allowed_domains = [
浏览 2
提问于2019-12-11
得票数 0
2
回答
Python
Scrapy
字典
项目
、
、
、
、
有没有可能制作一个
Python
Scrapy
爬虫来抓取整个网站,创建一个
字典
,在一个列中包含网站中使用的每个单词,并在它旁边的列中显示每个单词的所有实例的URL?如果是,是如何实现的?我已经创建了一个爬行器(如下所示),它列出了所有URL和每个URL处找到的所有纯文本,但是我的编程技能还不够好,无法知道如何从这里继续,使
Python
跳过已经抓取的数据/单词,并将其编入
字典
。import
scrapy
from
scrapy
.loader import Item
浏览 12
提问于2020-04-28
得票数 0
1
回答
尝试在网站上抓取google地图api生成的动态数据,但正常抓取返回空白
、
、
、
、
我正在使用
scrapy
从这个中抓取作业数据。一个作业页面看起来像。静态数据可以很容易地被
scrapy
抓取,但是google地图apis生成的动态数据,如“距离”和“时间”,给我带来了问题。有没有一种方法可以让我使用
scrapy
来获得这个由谷歌地图api生成的json输出? 如果不是,那么有没有办法编写
scrapy
脚本来等待完整的页面加载(以便加载距离和时间值),然后再抓取这些值?
浏览 1
提问于2015-02-05
得票数 0
1
回答
寻找一个更好的方法来处理一个url中的所有
项目
、
、
我有一只蜘蛛要爬一个urls列表,就像 name = 'example.com' item['lastUpdate'] = 'success' return items 对于每个url,我需要处理
项目
在一起因此,我尝试将
项目
打包到一个容器<e
浏览 0
提问于2016-10-24
得票数 0
回答已采纳
1
回答
Python
Scrapy
tutorial KeyError:‘找不到爬虫:
、
/hacks/prosum-scraper/
scrapy
/home/tim/.virtualenvs/proscraper/lib/
python
2.7/site-packagesPlease install it from <https://pypi.
python
.org/pypi/service_identity>./
浏览 2
提问于2014-10-14
得票数 6
回答已采纳
1
回答
从脚本中运行
Scrapy
:模块未找到错误- projectname.items不是一个包
、
脚本是通过调用
scrapy
crawl crawler运行的。现在,通过
python
crawler.py调用它,我得到了以下错误: ModuleNotFoundError:没有名为“爬行器”的模块;“爬虫”不是一个包import
scrapy
from
scrapy
.linkextractors import LinkExtractorfrom
scrap
浏览 3
提问于2017-09-28
得票数 1
回答已采纳
1
回答
刮擦蜘蛛不返回任何信息
、
、
、
、
我是一名学生,我正在为一个
项目
收集关于品牌的信息。我发现了一个名为Kit:的网站,我想为品牌而努力。它有将近500页,我用
Python
3编写了一个
Scrapy
,它遍历每一个页面并将列表复制到
字典
中,但我无法计算出xpath或css来获取列表信息。这是我的items.py: creator =
scrapy
.Field()imp
浏览 0
提问于2017-07-07
得票数 3
回答已采纳
2
回答
如何为
Scrapy
配置默认shell的全局设置
、
、
我开始学习
Scrapy
,但在奇怪的情况下,我无法将默认shell设置为ipython。我的笔记本电脑的操作系统是Ubuntu15.10。我还安装了ipython和
scrapy
。根据
scrapy
的,我可以通过在全局配置文件中输入以下内容来更改默认的
scrapy
shell = ipython ~/.config/
sc
浏览 5
提问于2016-07-06
得票数 0
1
回答
我是否可以在另一个
项目
中引用
Scrapy
项目
,就像c#中的多个
项目
引用一样?
、
、
、
1.创建一个新的
python
项目
,创建一个新的.py文件;2.reference
项目
(甚至我也不知道怎么做);3.在新的
python
文件中编写导入:从
scrapy
.selector导入选择器从
scrapy
.http导入HtmlResponse 4.
浏览 4
提问于2017-10-13
得票数 0
回答已采纳
1
回答
“刮擦:命令找不到”,即使已经满足了要求
、
、
、
我试图在MacOS的Catalina版本10.15.7上创建一个带有刮刮的
python
刮刀。sudo pip3 install
scrapy
我得到的输出 我怎样才能解决这个问题?
浏览 4
提问于2021-01-06
得票数 0
回答已采纳
1
回答
从
项目
目录外部运行的
scrapy
引发异常
、
我在下面的目录中有一个刮擦的
项目
“教程”
项目
目录结构如下所示。我想通过我的自定义
python
脚本runspiders.py运行这个蜘蛛。from __future__ import print_function from
scrapy
.crawler import CrawlerProcess from脚本从
scrapy
项目
文件夹内运行时,蜘蛛将正确运行。C:\w
浏览 9
提问于2016-12-14
得票数 2
3
回答
使用
Scrapy
创建爬行器,爬行器生成错误
、
、
我刚刚在Windows32上下载了
Scrapy
(网络爬虫),并且刚刚使用dos中的"
scrapy
-ctl.py startproject dmoz“命令创建了一个新的
项目
文件夹。然后,我使用以下命令创建了第一个爬行器:但它不起作用,并返回错误: Error running:
scrapy
-ctl.py genspider, Cannot find project settings mod
浏览 3
提问于2010-05-16
得票数 2
回答已采纳
2
回答
如何使用crawl命令运行
scrapy
项目
、
我是
Scrapy
的新手,我正在浏览
Scrapy
教程。我已经能够使用windows7创建我的
项目
。我的
scrapy
安装在如下路径中: C:\Program Files\
python
2.7\scripts.我通过
scrapy
crawl
项目
源构建了一个名为元的
项目
,但当我尝试通过
scrapy
crawl元运行该
项目
时,出现了一个错误:“未知命令爬网”。我尝试在“C:\Program Files\
python</e
浏览 5
提问于2015-03-24
得票数 1
1
回答
获取AttributeError错误'str‘对象没有属性'get’
、
、
builtin_function_or_method‘对象不是可订阅的# -*- coding: utf-8 -*- name = 'main' start_urls = ['https://experts.expcloud.com
浏览 0
提问于2020-07-17
得票数 0
回答已采纳
1
回答
用Anaconda运行抓取蜘蛛
、
、
、
我正在努力完成在以下网站上找到的教程: 文件"//anaconda/lib/
python
2.7/site-packages/
scrapy
/spiderloader.py",第43行,在load KeyError(“蜘蛛未找到:{}".format(spider_name)) KeyError:‘
浏览 5
提问于2016-10-06
得票数 2
回答已采纳
1
回答
在
scrapy
中抓取特定
项目
的所有页面
、
continue 每个
项目
的数据通过另一个函数存储avg_returns'] = numpy.average(returns_pages) yield item 我的问题是,如何编译来自多个页面的单个
项目
的返回
浏览 0
提问于2015-05-25
得票数 2
1
回答
哪些元数据可以实际进入
scrapy
.Field对象?
、
、
我今天在
Scrapy
上复习了,并看到了下面这条线: class ScrapyPracticeItem(
scrapy
.Item): age =
scrapy
.Field
浏览 7
提问于2022-07-10
得票数 1
回答已采纳
2
回答
如何修复anaconda中的“启动器致命错误:无法使用*path*/
scrapy
.exe创建进程”?
、
、
、
我正在尝试在Windows 10上安装
scrapy
, Fatal error in launcher: Unable to create process using '"c:\bld\
scrapy
_1564100571450\_h_env\
python
.exe" "C:\U
浏览 1
提问于2019-08-01
得票数 6
3
回答
刮除:从列表中删除行提要/n
、
考虑到抓取/
python
甚至编程,我是一个绝对的新手,但我需要学习和理解它。我创建了一个小蜘蛛,它爬行一个网站,并从网站中提取一些信息,并将其聚合到一个csv文件中。这是蜘蛛:class QuotesSpider(
scrapy
.Spider): allowed_domains = ['norisbank.defor next_page in all_pages : next_page = respo
浏览 1
提问于2020-07-09
得票数 0
回答已采纳
2
回答
Scrapy
1.1.0 -无活动
项目
、
、
我是
Python
的新手,在eclipse中使用PyDev成功安装了
Scrapy
。当我运行该程序时,它显示如下所示(如图所示)我正在运行这段代码: name = "dmozallowed_domains = ["dmoz.org"] "http://www.dmoz.org/Compute
浏览 1
提问于2016-06-27
得票数 7
点击加载更多
相关
资讯
Python Scrapy 爬虫(二):scrapy 初试
python字典
Python爬虫-Scrapy入门
python爬虫-Scrapy入门
pycharm创建scrapy项目
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券