腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
scrapy
list
return
:
如何
处理
/
提取
列表
中
的
每个
元素
?
、
、
、
、
我想问一下,
如何
在一个变量
中
处理
提取
的
数据
列表
。由于(xpath)选择器只
提取
第一个.extract_first()或所有内容.extract (),我想知道
如何
才能只迭代和
提取
一个element...like .extract()i和i=i+1..这看起来很明显,但在这一点上,我不明白
如何
利用项目加载器、管道或任何粗糙
的
文档来解决这个问题。 item ['author'] =
浏览 2
提问于2018-02-28
得票数 2
回答已采纳
1
回答
从
列表
中
的
每一个
元素
中
提取
、
、
我在
scrapy
中有以下代码,它创建了一个行
列表
:
列表
中
的
每个
元素
都有此示例模板<img src="test"></img> <div class
浏览 3
提问于2016-01-25
得票数 2
回答已采纳
1
回答
如果下一步按钮不可用,
如何
进行分页
、
我正在尝试使用
Scrapy
获取数据,我面对
的
是这个表格,其中包含数字和字母用于分页。大概有116页。那么我怎么才能迭代到116。这是站点
的
URL。请看一下。谢谢。
浏览 10
提问于2020-10-24
得票数 0
回答已采纳
2
回答
抓取-项目加载器- mysql
、
、
当我在TakeFirst
中
对输出
处理
器使用参数"TakeFirst()“时,下面的代码非常好。但是,我需要将所有条目都输入到MySQL,而不仅仅是第一个条目。当我使用参数"MapCompose()“时,我会得到以下与MySQL相关
的
错误消息:
浏览 7
提问于2016-06-08
得票数 0
回答已采纳
1
回答
json文件不是用Python
Scrapy
Spider创建
的
。
、
、
我想做
的
事在/ nwinners_
list
_spider.py / nobel_winners /蜘蛛
中
输入以下代码。
scrapy
crawl nwinners_
list
-o nobel_winners.json出现
浏览 0
提问于2018-07-28
得票数 1
回答已采纳
1
回答
使用XPATH刮取属性值?
、
、
、
我试图从以下源代码片段中
提取
url:from
scrapy
.spider import BaseSpider from
scrapy
.selector import HtmlXPathSelectoritem['link'] = site.select(
浏览 2
提问于2017-06-25
得票数 1
回答已采纳
1
回答
用
Scrapy
从文本文件
中
从多个URL
中
抓取所有外部链接
、
、
、
、
我对
Scrapy
和Python很陌生,因此我是个初学者。我希望能够让
Scrapy
读取一个包含大约100 k URL
的
种子
列表
的
文本文件,让
Scrapy
访问
每个
URL,并
提取
每个
种子URL上
的
所有外部URL(其他站点
的
URL),并将结果导出到一个单独
的
文本文件
中
Scrapy
只应该访问文本文件
中
的
URL,而不是爬行
浏览 0
提问于2016-08-28
得票数 1
回答已采纳
3
回答
如何
重新组织子
列表
并排除这些子
列表
中
的
特定索引?
、
、
、
、
如何
重新组织子
列表
并从子
列表
中排除某些项以创建新
的
子
列表
列表
? 通过重组,我
的
意思是要在
每个
子
列表
中
更改
每个
子
列表
中
项
的
顺序。例如,将索引0处
的
每个
元素
移动到索引1,并在
每个
子
列表
中将索引2
中
的
每个
<em
浏览 5
提问于2014-01-26
得票数 0
回答已采纳
1
回答
scrapy
是
如何
使用规则
的
?
、
、
我刚开始使用
Scrapy
,我想了解这些规则是
如何
在CrawlSpider中使用
的
。如果我有一个在亚利桑那州图森市
的
纸杯蛋糕
列表
的
黄页
中
爬行
的
规则,那么产生一个URL请求
如何
激活该规则--具体地说,它是
如何
激活restrict_xpath属性
的
? 谢谢。
浏览 1
提问于2014-08-17
得票数 23
回答已采纳
1
回答
使用带有抓取命令
的
基本Spider类- parse()可以多次输出吗?
、
我运行下面的爬行器:from ..items import PythonlibrariesItem
return
item大多数项目的变量/
浏览 0
提问于2017-04-17
得票数 0
1
回答
如何
使用urls
的
数据作为start_urls
的
源
、
、
我有另外两个脚本来检索目标名称,然后找到api,这样我就可以刮掉我在熊猫
中
收集
的
所有urls了。到目前为止,我正在从清理urls
的
dataframe中将我
的
urls输出到csv文件;然后将该csv文件导入到我
的
刮伤脚本
中
,然后取出我
的
数据,然后再输出另一个csv文件。我想把已经有URL
的
数据连接起来吗?而不是创建一个csv并将其重新读入我
的
脚本
中
。脚本 lass DataCrawlerSpider(
s
浏览 1
提问于2022-10-31
得票数 -1
1
回答
如何
打开一个包含urls
列表
的
大型csv并抓取这些urls?
、
我在本地机器上有一个很大
的
csv,它只包含一个urls
列表
,没有其他我想要抓取
的
列,并从
每个
urls中
提取
特定
的
css
元素
。我已经完成了一个测试,不看csv,只做一个一次性
的
开始url。我不知道
如何
打开一个包含一百万个urls
的
大型csv,让
scrapy
遍历
每个
urls,然后再转到下一个。import
scrapy
from ..items import stks
浏览 3
提问于2020-04-30
得票数 0
1
回答
抓取爬行器输出
、
、
我在
Scrapy
文档
中
的
中有一个问题。它似乎爬得很好,但我很难将它输出到CSV文件(或任何真正
的
文件)。所以,我
的
问题是,我可以用这个:还是我必须创建一个import
scrapy
from
scrapy
.contrib.linkextrac
浏览 4
提问于2014-10-23
得票数 0
回答已采纳
1
回答
无法使用
scrapy
splash选择
元素
、
、
我使用这段代码来
提取
特定链接类
中
的
文本。我可以选择.extract_first()类
中
的
一个
元素
,但我不能选择同一个类
的
所有
元素
,我希望能够选择所有
元素
并将它们存储在
列表
中
。下面是我
的
代码:import
scrapy
浏览 7
提问于2020-02-27
得票数 0
3
回答
使用第一个URL
的
结果刮取多个URL
、
、
我使用
Scrapy
从第一个URL
中
抓取数据。 def parse(self, response):
li
浏览 3
提问于2015-03-11
得票数 1
回答已采纳
1
回答
在
Scrapy
中
的
单个
列表
中
追加产品名称
、
、
、
我目前
的
抓取爬行器可以根据需要从网站上
提取
产品名称,但会将
每个
start
的
摘录放在一个单独
的
['product']
列表
中
。我希望所有的start_url
提取
都放在一个单独
的
列表
中
(对于
每个
类类型:产品、价格等),这样我就可以在将来操作
提取
时调用
列表
中
的
每个
产品标题。这是我目
浏览 0
提问于2013-05-04
得票数 1
回答已采纳
1
回答
为什么xpath
的
extract()返回锚
元素
的
href属性
的
空
列表
?
、
、
为什么我在尝试使用
scrapy
提取
位于以下url:https://www.udemy.com/courses/search/?src=ukw&q=accounting上
的
锚标签
的
href属性时得到一个空
列表
?下面是我
提取
位于
list
-view-course-card--course-card-wrapper--TJ6ET类内部
的
<a></a>
元素</em
浏览 10
提问于2019-06-25
得票数 0
2
回答
而不是重复一个循环多次“合并”为一个
、
、
设置 除了循环
列表
中
的
元素
之外,我还想循环
处理
这些特性本身。也就是说,我想把每一个特征
的
所有循环“合并”成一个循环。我尝试了以下方法(我
的
浏览 0
提问于2017-04-28
得票数 3
回答已采纳
1
回答
我
如何
迭代一个
列表
?
、
我正在尝试用SML做基本
的
列表
操作。
List
: [A,B,C,D]Final
List
: [AA,AB,AC,AD]
如何
在SML
中
遍历
列表
中
的
每个
<
浏览 1
提问于2010-11-23
得票数 2
回答已采纳
1
回答
scrapy
LinkExtractor会检查
每个
yield(ed)请求
中
的
链接吗?
、
Scrapy
具有LinkExtractor类,该类跟踪链接并返回回调 Linkextractor是否检查来自
每个
yield(ed) Request
的
响应
中
的
链接?是否包含被其他规则yield(ed)
的
页面
中
的
链接?
浏览 1
提问于2015-08-13
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在Python中如何修改列表中元素的类型
如何使用Python从列表中删除指定的元素
如何根据部门主管标识,给 Excel 列表中的每个部门递增编号?
25个超有用的Python代码段
Scrapy向导
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券