腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Scrapy
:
将
HTML
提取
为
元素
内
的
字符串
、
、
、
我想
提取
dic中
的
超文本标记语言。例如,在这段
HTML
中: <div id="main"><h1><xyz>Title<xyz></h1></div> 我想
提取
div内容:<h1><xyz>Title<xyz></h1>作为
字符串
。是否可以使用CSS o Xpath
scrapy
选择器? 谢谢:)
浏览 19
提问于2020-04-06
得票数 0
回答已采纳
2
回答
仅剪贴式正文文本
、
、
、
我尝试使用python
Scrapy
从正文中抓取文本,但还没有成功。 希望一些学者能够在这里帮助我从<body>标记中抓取所有的文本。
浏览 1
提问于2011-03-22
得票数 9
回答已采纳
2
回答
用Python/
Scrapy
提取
h1中
的
p
、
、
、
我正在使用
Scrapy
从网站上
提取
一些有关音乐音乐会
的
数据。至少有一个我正在使用
的
网站(根据W3C -
的
说法是错误
的
)-- h1
元素
中
的
p
元素
。不过,我需要在p
元素
中
提取
文本,但无法知道如何
提取
。我已经阅读了文档,并查看了一些用法,但是对于
Scrapy
来说,它还是比较新
的
。我理解该解决方案与
将
Selector类型设置
为<
浏览 5
提问于2017-06-04
得票数 0
回答已采纳
1
回答
在保存到磁盘之前,如何更改由
Scrapy
爬行
的
网页
的
一部分?
、
在
Scrapy
蜘蛛
的
parse()方法中,我们可以在response上使用css()方法来获取所需
的
信息。例如,我们可以使用response.css("#container")获取以下
HTML
片段。</div> 在保存到磁盘上之前,我们如何更改
HTML
片段
的
一部分?例如,我希望
将
<div class="sep">
的
文本内容更改为1234,以便最终需要
的
H
浏览 0
提问于2020-10-12
得票数 0
回答已采纳
3
回答
提供所有匹配
元素
的
Scrapy
xpath
我有一个
HTML
文件,我想从其中
提取
特定DIV下
的
锚点href值。
HTML
文件如下所示<head></head> <div class="mainContainer4个锚
元素
。所以我使用了"Selector“,并将Div
元素
存储在其
浏览 16
提问于2022-03-29
得票数 0
回答已采纳
1
回答
Scrapy
可以用作实时包装吗?
、
、
、
、
我希望有人能够对利用
scrapy
框架创建实时包装器
的
可行性提供一些见解。为了澄清我对“包装器”一词
的
定义,请允许我描述一下我
的
情况.我希望使用
scrapy
来编写一个解决方案,允许用户在一个网站上执行搜索查询,而这个搜索查询反过来又会实时调用一只刮刮蜘蛛,在该蜘蛛被告知
的
范围
内
: 只检索返回查询
的
实际
html
结果,方法是通过指定唯一
的
结果集容器类和/或xpath来
浏览 3
提问于2013-08-20
得票数 2
1
回答
如何在
scrapy
中使用规则类
、
、
、
我正在尝试使用Rule类进入我
的
爬虫中
的
下一页。这是我
的
密码from
scrapy
.contrib.linkextractors.sgml importsummary'] = sel.xpath('div/div[2]/div/div[2]/h2/tt/a/span/text()').extr
浏览 2
提问于2015-03-20
得票数 3
1
回答
刮除:从
HTML
而不是URL中刮取项目
、
、
、
一切都应该以服务
为
基础。所以我决定设计两个服务。 第一个服务
将
基于
Scrapy
。如果我们可以提供
html
而不是start,或者我们必须使用BeatifulSoap或其他刮取库,我想我们是否
浏览 4
提问于2016-07-22
得票数 0
1
回答
生成意外
的
表达式语法
我正在创建一个使用yield
的
字典,
为
它赋值似乎会导致某种错误。我
的
yield值是一个包含title = response.
html
("h1").extract()
的
变量title import
scrapy
] def parse(self, respons
浏览 81
提问于2019-08-24
得票数 0
回答已采纳
3
回答
在本地
HTML
文件上使用
scrapy
内置选择器
、
、
我有一些本地
HTML
文件,需要从中
提取
一些
元素
。我习惯于在xpath和css以及.extract()和.extract_first()中使用内置选择器来编写
Scrapy
和
提取
元素
。有没有可以做到这一点
的
库?例如,我想做这样
的
事情: sample_file = "../raw_
html
_text
浏览 17
提问于2020-02-22
得票数 1
回答已采纳
2
回答
如何用XPath
提取
包含< not编码
的
文本<;
、
、
、
我想使用
Scrapy
从
html
页面中
提取
一些文本。<div></div>有没有办法获得全文( 'years
浏览 3
提问于2013-11-13
得票数 1
回答已采纳
2
回答
在
scrapy
和xpath中使用布尔()和count()之类
的
函数
、
、
、
因此,我试图使用xpath函数boolean()并使用
scrapy
提取
真正
的
false响应,但是所有的
scrapy
返回都是u'0'。不管它是返回布尔值真还是布尔值:false
scrapy
总是返回基本上这是我
的
xpath 布尔值(./
浏览 13
提问于2017-07-19
得票数 1
1
回答
如何按照链接列表从刮除
的
页面中获取数据?
、
、
、
在该页上,是<table>中
的
链接列表。我试图使用规则部分来要求
Scrapy
浏览链接,并在链接目标页面上获取数据。下面是我
的
代码: name = 'coinmarketcap'
浏览 4
提问于2017-03-29
得票数 3
回答已采纳
2
回答
无法使用xpath解析来自某些
html
元素
的
特定信息
、
、
、
、
我已经创建了一个xpath表达式来针对一个
元素
,这样我就可以使用
scrapy
中
的
xpath从一些
html
元素
中
提取
特定
的
信息。反正我也够不着。
Html
元素
: <label> </label我试过: from
scr
浏览 0
提问于2019-07-03
得票数 2
回答已采纳
1
回答
如何
将
Scrapy
与Mysql结合使用?
、
、
我正在尝试创建一个web爬虫,在给定一些启动urls
的
情况下,
提取
所有
元素
并跟踪它们,以便
提取
内部和内部
的
文本。我正在运行一个Django应用程序,该应用程序给定一个查询
字符串
,该应用程序返回以前存储在Mysql db中
的
所有项。在我看来,最好
的
选择是使用
Scrapy
,给他一些开始
的
urls,他可以通过简单地
提取
页面中
的
所有urls来找到其他
的
urls,然后,他会
浏览 6
提问于2012-04-10
得票数 0
回答已采纳
5
回答
提取
文本xpath抓取
、
、
大家好,我想用
scrapy
中
的
xpath从
html
块中
提取
所有文本。> <p><a>Bluhbluh</a></p></div> 我想把文本摘录
为
&quo
浏览 10
提问于2014-10-10
得票数 8
回答已采纳
1
回答
函数无法获得空
的
td
元素
。
、
、
、
、
我对网络抓取是非常非常新
的
,而且我还在学习。目前,我正在使用Python和
Scrapy
来构建我自己
的
web刮板,但是我遇到了一些非常奇怪
的
事情。我试着在这里刮一下这个网页,就像一个练习: import
scrapy
import pandas as p
浏览 3
提问于2020-10-27
得票数 0
回答已采纳
3
回答
从xml中
提取
HTML
、
、
我想从xml文件中
提取
html
页面。有什么想法吗? <first> </second> <
html
>.....some
html
code here </xhtm
浏览 1
提问于2013-04-15
得票数 0
3
回答
Python/
Scrapy
:如何确定页面是否
为
html
?
、
、
我需要确定由spider下载
的
页面是否
为
html
。我希望蜘蛛爬行
的
网站有一个pdf和
html
链接
的
组合。因此,如果它遇到一个pdf文件,它将把响应通过一个PDFReader,否则它将读取
html
文件
的
原样。(self, response): return ct 我
将<
浏览 1
提问于2018-09-23
得票数 0
回答已采纳
1
回答
如何在满足条件时将被刮掉
的
项添加到集合中并执行?
、
这段代码需要将
提取
的
reviewId添加到集中(以省略重复
的
代码)。然后进行检查,当string
为
100时,执行回调,并将带有所有is
的
长url
字符串
传递给主
提取
函数。我如何做到这一点(保存从不同回调中
提取
的
所有ids,并进一步使用它)?现在
的
问题是,第一次检查循环永远不会被占用。UPdate。我相信有两个选项-传递设置
为
元到每个回调,并以某种方式使用项目
为
这一个。import <
浏览 1
提问于2017-03-23
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
简单几行代码提取html文件中全部指定标签内的文本
Excel 如何按设定条件提取单元格内的字符串?
Scrapy向导
新手爬虫如何入门
Python数据科学实战系列之Web信息爬取
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券