腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
从
div
中
提取
所有
文本
,
包括
来自
Scrapy
和
Xpah
同级
的
文本
?
xpath
、
scrapy
在使用
scrapy
2.4
从
远程URL
提取
文本
时,我发现它只返回此
div
中
的
文本
,而不返回它
的
子节点中
的
文本
。 例如。<
div
> <p>text inside child</p> more text </
div<
浏览 16
提问于2020-12-26
得票数 0
回答已采纳
1
回答
用
Scrapy
从
文本
文件
中
从
多个URL
中
抓取
所有
外部链接
python
、
url
、
web-scraping
、
scrapy
、
web-crawler
我对
Scrapy
和
Python很陌生,因此我是个初学者。我希望能够让
Scrapy
读取一个包含大约100 k URL
的
种子列表
的
文本
文件,让
Scrapy
访问每个URL,并
提取
每个种子URL上
的
所有
外部URL(其他站点
的
URL),并将结果导出到一个单独
的
文本
文件
中
Scrapy
只应该访问
文本
文件
中
<
浏览 0
提问于2016-08-28
得票数 1
回答已采纳
1
回答
如何
利用刮擦获得工作描述?
python
、
xpath
、
scrapy-spider
我希望使用
scrapy
从
页面email、name of the person making the offer
和
phone
中
获取https://www.germanystartupjobs.com/job正如您所看到
的
,电子邮件
和
电话是在<p>标签
中
作为
文本
提供
的
,因此很难
提取
。我
的
想法是首先在Job Overview
中
获取
文本</
浏览 5
提问于2016-12-16
得票数 1
回答已采纳
2
回答
从
css选择器开始,
Scrapy
返回整个网页。
python
、
web-scraping
、
scrapy
我正在抓取博客文章,遇到了一个奇怪
的
问题。当
提取
一个完整
的
元素而不仅仅是它
的
文本
时,
scrapy
将返回所选
的
元素+网页
中
后面的每个元素/结束标记。_1 .text_inner h2').get()当运行时,标题中填充了正确
的
文本
。但是,内容是由正确
的
响应填充
的
,然后是后面的每个元素
和
结束标记。 如果我试图
提取</e
浏览 1
提问于2021-12-16
得票数 0
5
回答
提取
文本
xpath抓取
html
、
xpath
、
scrapy
大家好,我想用
scrapy
中
的
xpath
从
html块中
提取
所有
文本
。假设我们有这样一个街区: <p>Blahblah</p> <p><a><span>Bliblih</span></a>
浏览 10
提问于2014-10-10
得票数 8
回答已采纳
2
回答
将嵌套
同级
节点中
的
文本
与父节点中
的
文本
连接起来
xpath
、
scrapy
我尝试
从
同级
节点中
提取
文本
,并将其与父节点中
的
文本
连接起来。
如何
在xpath
中
做到这一点?下面显示
的
超
文本
标记语言中有几个<sup> and <sub>
的
实例。我
的
预期输出: ['2','1/2'] 应该像这样连接['<sup>'+'/'+
浏览 14
提问于2019-05-02
得票数 0
2
回答
仅剪贴式正文
文本
python
、
scrapy
、
scrape
、
scraper
我尝试使用python
Scrapy
从
正文中抓取
文本
,但还没有成功。 希望一些学者能够在这里帮助我
从
<body>标记
中
抓取
所有
的
文本
。
浏览 1
提问于2011-03-22
得票数 9
回答已采纳
1
回答
使用CSS
和
Scrapy
提取
所有
文本
,没有标记-失败
css
、
text
、
web-scraping
、
tags
、
scrapy
我已经成功地
提取
了我所需要
的
所有
文本
--但它完全被“包装”了?在标签,字体细节等。我是
从
网站
的
几个角色描述。我使用
的
代码是
从
Scrapy
教程
中
改编
的
--我想从站点中
提取
每个角色
的
所有
与工作相关
的
文本
: for href in response.css
浏览 3
提问于2017-10-31
得票数 0
回答已采纳
1
回答
如何
使用Nokogiri CSS选择器获取标记
中
的
所有
文本
?
ruby
、
nokogiri
我正在尝试使用Nokogiri
从
HTML页面中
提取
文本
。我使用CSS选择器来
提取
文本
。 我知道text方法用于
提取
特定标记
中
的
文本
,但它只给出了标记
的
直接子元素
文本
。
如何
获取标记
中
的
所有
文本
,
包括
嵌套在所述标记
中
的
任何标记
中
可能包含
浏览 4
提问于2015-02-18
得票数 0
回答已采纳
1
回答
刮擦脚本,
如何
找到特定
的
关键字并返回或打印url
python
、
xpath
、
web-crawler
、
scrapy
好
的
,所以我必须完全编辑这个。我已经让脚本部分工作,我可以启动它没有任何问题,这是脚本。粘贴链接在这里:,您可以看到我在cmd行
中
得到了什么。我确信正在搜索
的
关键字在这些链接
中
,因为我也尝试过其他单词,但它没有下载它们。import
scrapy
from
scrapy
.http import Request from FinalSpider.itemsitems.py URL = "http:
浏览 2
提问于2015-11-30
得票数 0
回答已采纳
3
回答
与
Scrapy
一起使用规范化空间
python
、
parsing
、
xpath
、
web-scraping
、
scrapy
下面是我正在处理
的
一个文档
的
模拟:<h4>Area</h4> <span class="bclass"><strong>Address:</strong> </span> </<em
浏览 7
提问于2015-11-24
得票数 4
回答已采纳
1
回答
如何
用BeautifulSoup排除元素(Python)
python
、
beautifulsoup
我试图
从
本文()中
提取
文章
文本
,并将底部
的
合法容器排除在外。
文本
部分似乎很简单,但似乎无法摆脱容器。为了便于使用,我将其与法律变量分开。到目前为止,我
的
代码如下:from bs4 import BeautifulSoup r = request
浏览 9
提问于2017-10-12
得票数 3
2
回答
在
scrapy
中
解析函数
中
的
内联请求
python
、
scrapy
、
web-crawler
在这种情况下,我想获得link.url
的
文本
。因此,links包含一组urls,并且在每次迭代
中
,将
来自
link.url
的
文本
附加到其中。为此,
scrapy
需要访问link.url。我这样做是通过发送一个请求,然后回调函数应该
提取
文本
。但是在输出文件
中
,我看到text字段包含links.url,而不是
来自
links.url
的
文本
。简单地说,我希望
从</em
浏览 2
提问于2021-03-30
得票数 0
回答已采纳
2
回答
使用
scrapy
从
div
类中
提取
文本
python
、
xpath
、
scrapy
我正在使用python
和
scrapy
。我想从
div
类
中
的
div
标记中
提取
文本
。例如: <h1>2013 Gulfstream G650ER for Sale</h1> <
div
id="header-price">Price - $46,500,000&
浏览 1
提问于2018-10-06
得票数 1
2
回答
Scrapy
Json输出
的
Unicode
python
、
json
、
unicode
、
utf-8
、
scrapy
使用
来自
json库
的
源导出程序
和
json编码器 这是标准刮痕爬虫。蜘蛛文件、设置文件
和
项文件。首先,
从
基ur
浏览 4
提问于2015-06-19
得票数 1
2
回答
在*a标记中
提取
文本
/参数*
xml
、
select
、
xpath
、
web-scraping
、
scrapy
我有以下源代码,试图从中
提取
我想要
的
信息: <a href="#" data-page="2" title>response.xpath('//
浏览 4
提问于2014-08-04
得票数 0
回答已采纳
1
回答
在python
中
为任何网页URL文档搜索特定标题
的
文本
python
、
web-scraping
、
beautifulsoup
、
scrapy
我已经搜索并介绍了python
中
的
一些网络爬行库,比如
scrapy
,漂亮汤等。使用这些库,我想抓取文档
中
特定标题下
的
所有
文本
。如果你们
中
的
任何人能帮助我,我将不胜感激。我看过一些教程,教你
如何
使用漂亮
的
soap获取特定类名下
的
链接(通过查看源页面选项),但
如何
获取简单
的
文本
,而不是特定类标题下
的
链接。对不起,我
浏览 0
提问于2017-10-25
得票数 0
1
回答
在xpath
中
获取
文本
值,而不
包括
脚本
xpath
、
web-scraping
你好,我刚开始使用web抓取
和
X路径,我在ID main
中
的
scrapy
(python框架)中使用了以下x路径,
如何
修改xpath以不收集“脚本”
和
“样式”
中
的
文本
?my_list=response.xpath('//*[@id="main"]//text()').extract() 在网上搜索后,我发现我可以使用|放置多个x路径(在我
的</em
浏览 1
提问于2019-12-02
得票数 1
回答已采纳
1
回答
包含图像和
文本
的
未命名
div
的
抓取更正xpath
python
、
xpath
、
web-scraping
、
scrapy
我正在构建一个遍历多个分页页面并从站点
提取
数据
的
爬虫:# -*- coding: utf-8 -*-from
scrapy
.contrib.spiders//
div
[3]/
div
[2]/text()').extract() item['score'] = sel.xpath('.//text()').extra
浏览 0
提问于2016-05-12
得票数 0
3
回答
使用带有条件
的
刮擦选择器
python
、
scrapy
、
css-selectors
、
web-crawler
我正在使用"
scrapy
“来抓取几篇文章,比如: def parse_article(self, response):在上面的代码片段
中
,我得到了如下内容: 我想要
的
短信标题-
文本
&
浏览 5
提问于2019-11-10
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
回炉重造七
Scrapy向导
Scrapy框架的使用之Selector的用法
使用 Python 和 Scrapy 半小时爬了10 个在线商店的网页
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券