腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4966)
视频
沙龙
1
回答
使用
Scrapy
进行
爬
网
时
,
某些
HTML
元素
丢失
、
、
、
我试图从一个网站的
HTML
元素
中抓取一些文本。大多数情况下都很好,但由于
某些
原因,
Scrapy
无法获得浏览器检查中所示的所有
HTML
元素
。内容是静态的,因为我尝试禁用JavaScript,但仍然在浏览器中显示那些缺少的
元素
。该网站的结构类似于: <ul class="paragraph-title">...</ul> 这是我的抓痕蜘蛛: import
scrapy
class MySpider(<e
浏览 19
提问于2021-04-24
得票数 1
2
回答
离线(本地)数据上的Python
Scrapy
、
、
我的计算机上有一个270MB的数据集(10000个
html
文件)。是否可以
使用
Scrapy
在本地对此数据集
进行
爬
网
?多么?
浏览 0
提问于2013-10-16
得票数 17
1
回答
抓取句柄302重定向
、
、
、
、
我试着改变我的用户代理,尝试通过创建一个类似于浏览器发送的http头来模仿浏览器的行为,即使我
使用
crawlera发送请求,也没有解决我的问题。/shopping-tourism.
html
> (referer: None)2017-11-06 02:11:34 [
scrapy
.core.eng
浏览 2
提问于2017-11-06
得票数 0
2
回答
在虚拟机上运行python程序
、
我安装了python和
scrapy
。我想从那里运行我的蜘蛛,
scrapy
crawl test -o test1.csv我从gcp打开终端并运行蜘蛛(工作),这将需要至少3个小时。如何确保在退出终端(浏览器)
时
脚本将继续执行。
浏览 23
提问于2019-08-31
得票数 1
回答已采纳
2
回答
具有许多重复
元素
类名的抓取网站
、
我刚接触
Scrapy
,正在尝试
爬
网
,但
HTML
元素
由许多DIV组成,其中有重复的类名,例如。> </a> </section> </section> 我问题是这个结构对许多其他
元素
重复,当我
使用
response.css
时
,我会得到多个我不想要的
元素
(基本上我想抓取口袋妖怪的信息
浏览 27
提问于2020-08-30
得票数 1
回答已采纳
2
回答
文档库
爬
网
、
、
由于
某些
原因,当我开始一个完整的
爬
网
时
,它看不到2个word文档。我正在尝试
使用
高级搜索the部件,以便能够从此范围
进行
搜索。当我输入诸如word文档的文件名之类的搜索词
时
,没有返回任何结果。 有什么想法吗?
浏览 2
提问于2009-02-13
得票数 2
回答已采纳
5
回答
如何在
scrapy
spider中传递用户定义的参数
、
、
我试图将用户定义的参数传递给
scrapy
的爬行器。有谁能建议一下如何做到这一点吗? 我在某处读到过一个参数-a,但不知道如何
使用
它。
浏览 7
提问于2013-03-25
得票数 121
回答已采纳
1
回答
使用
scrapy
进行
爬
网
时
没有名为
scrapy
.spider的模块
from
scrapy
.spider import Spider #print site.extract()from
scrapy
.spi
浏览 1
提问于2019-11-04
得票数 0
7
回答
用本地系统中保存的
html
抓取文件
、
例如,我有一个站点"www.example.com",实际上我想通过保存到本地系统来抓取这个站点的
html
。因此,为了
进行
测试,我将该页面保存在桌面上,名称为example.
html
class ExampleSpider(BaseSpider): start_urls = ["example.
html
"]
浏览 0
提问于2012-06-05
得票数 31
1
回答
Scrapy
:为什么我要对多个请求
使用
yield?
、
、
、
所以我想
使用
请求,而不是像下面这样
使用
“yield”。如何像C一样顺序调用
爬
网
方法?class HotdaySpider(
scrapy
.Spider): allowed_domains = ["test.com"] i = i + 1 def crawl(self, resp
浏览 7
提问于2015-07-21
得票数 0
1
回答
关于随机写入操作,有哪些“附加操作”的例子?
、
、
、
我刚刚读完Google文件系统(GFS)这篇文章。报纸上说GFS是鉴于这一特点在整篇论文中都得到了强调,我认为它肯定非常重要。
浏览 4
提问于2012-01-07
得票数 2
1
回答
我想
进行
网络
爬
网
,但有些项目已
爬
网
,但有些项目未
爬
网
。我不知道原因
、
我正在
使用
python中的BeautifulSoup来抓取一个网站。在对addrs、a_earths
进行
爬
网
时
,无法对末尾的points = soup.select('.addr_point')此部分
进行
爬
网
。我不知道原因(中的红色虚线框)import urllib.parseimport re url = 'h
浏览 5
提问于2020-02-24
得票数 1
2
回答
将解析后的内容提交到ElasticSearch
、
我正在尝试在Elasticsearch中上传文件(.txt、.pdf)。Elasticsearch只接收json格式的内容。有没有办法直接发送解析后的内容(.pdf或.txt to String),或者我必须将String解析成json文档才能将其发送到Elasticsearch。
浏览 0
提问于2018-08-13
得票数 0
1
回答
不完整的分页:无法分页
、
、
我一直在
使用
Python和
scrapy
来抓取次要数据,然而,我想拉入一些额外的信息,但我被分页卡住了。该网站为https://home.mobile.de/regional/baden-w%C3%BCrttemberg/0.
html
元素
是 <span class="jslink pg-btn page-next" data-href="https://home.mobile.de/regional
浏览 19
提问于2021-08-06
得票数 1
回答已采纳
2
回答
如何在失败
时
重试抓取的任务
、
我对
scrapy
比较陌生。我遇到了一些页面不能正确加载的情况。我想再次重试该任务2次,以确保其正常工作。请注意,我没有收到404错误,但由于
某些
元素
丢失
,在解析结果
时
失败。它只发生在几百个案例中的几个案例中,我不能在下次重试
时
重现它。(通过捕获整个响应正文
进行
验证) except:但我认为这些正
浏览 0
提问于2016-04-06
得票数 1
1
回答
动态表单操作-如何
使用
simple_
html
_dom捕获该操作
、
、
在上有一个页面除非我有那个jsessionid号,否则我不能
使用
simple_
html
_dom对自定义表单的结果
进行
爬
网
。
浏览 2
提问于2013-01-17
得票数 0
回答已采纳
1
回答
用
scrapy
抓取无限滚动的网站
、
我想抓取从网站https://www.seekingalpha.com与
scrapy
的通话记录。 爬行器的行为应该如下所示: 1)在开始
时
,提供了一个公司代码列表ccodes。json文件包含密钥
html
和count。关键字
html
应用于解析脚本urls,关键字count应用于在没有其他urls
时
停止。这方面的标准是count=0。 到目前为止,这是我的代码。但我不知道如何遍历json文件,并在没有urls
时
停止。预期的结果是对来自https://
浏览 24
提问于2019-02-04
得票数 0
回答已采纳
1
回答
scrapy
:在
scrapy
finishing处理urls之后发布一些表单
、
、
、
我正在
使用
scrapy
从一个会员的唯一
网
站抓取数据。我成功地执行了登录和抓取数据。如何获得
scrapy
完成处理所有url抓取的通知,以便我可以执行一些表单提交?我注意到了一个解决方案-请看这里(),但是由于
某些
原因,我不能继续在self.spider_closed方法中产生更多的请求,因为它在这些示例中被调用,所以我可以
进行
一些写操作。
浏览 0
提问于2015-04-15
得票数 2
1
回答
使用
scrapy
爬
网
数据
时
无法获取项目
、
、
我已经检查了chrome中的
元素
: 我想
使用
scrapy
获取红色框(可以不止一个)中的数据。我
使用
了以下代码(参见
scrapy
文档中的教程): name = "kamusset_spider我已经将它更改为这个(
使用
splash),但仍然不起作用: f
浏览 15
提问于2017-07-07
得票数 0
3
回答
为了
使用
Scrapy
正确发送电子邮件,我忘记了什么
、
、
、
我想
使用
Scrapy
发送电子邮件from
scrapy
.mail import MailSender我需要
使用
Scrapy
框架,而不是纯Python我不想通过
使用
mailer = MailSender.from_settings(settings)来应用默认设置,因为正如你所见,我有我的自定义选项,并且我尝试
浏览 0
提问于2015-03-19
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Scrapy向导
Python数据科学实战系列之Web信息爬取
python爬虫系列开发scrapy掌握(一)
Python爬虫学习Scrapy之Spiders
Python+Scrapy+妹子图
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券