腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用
Scrapy
难以
从
网页
中
抓取
所需
的
数据
、
、
、
我正在
抓取
以下
网页
http://www.starcitygames.com/catalog/category/Duel%20Decks%20Venser%20vs%20Koth,我需要获取卡名、价格、嗯,我让四个人中
的
三个都能工作,但我
的
身体状况有点问题。无论我尝试什么,它要么只是给我NULL,要么就是其他不正确
的
东西。http://www.starcitygames.com/content/cardconditio
浏览 14
提问于2019-06-05
得票数 0
回答已采纳
9
回答
BeautifulSoup和
Scrapy
crawler有什么区别?
、
、
、
我想做一个网站,显示亚马逊和易趣产品价格
的
比较。其中哪一个会工作得更好?为什么?我对BeautifulSoup比较熟悉,但对
Scrapy
crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
1
回答
对于web
抓取
和xml解析,这是最好
的
学习库。
、
、
、
、
对于相同
的
工作,我被多个库弄混了。我想学习一个库,它将同时处理xml和html解析。Do元素树与html解析兼容。我听说了lxml,xml.elementtree,漂亮汤,迷你,刮刮。有人能帮我吗。
浏览 4
提问于2020-02-03
得票数 0
回答已采纳
4
回答
在批处理文件中
使用
scrapy
crawl命令时继续批处理脚本命令
、
、
我
使用
scrapy
从
网页
抓取
信息。我已经写了爬虫代码,它工作得很好。我还有一些其他
的
python代码文件来优化
抓取
的
数据
。总而言之,我有一个批处理文件,我首先在其中
使用
"
Scrapy
Crawl“命令,然后运行我
的
python文件来优化
抓取
的
信息。问题是,批处理脚本在"
Scrapy
Crawl“命令
的
浏览 1
提问于2013-05-09
得票数 1
回答已采纳
2
回答
Scrapy
shell无法
抓取
网页
、
、
我正在尝试
使用
Scrapy
shell来尝试找出zone-h.org
的
选择器。我运行
scrapy
shell 'webpage'之后,我试图查看内容,以确保它是下载
的
。我试图进入网站,检查我
的
网站连接是否以某种方式被阻止,但它是可访问
的
。我试着将用户代理设置为更通用
的
东西,比如chrome,但也没有成功。这个网站以某种方式屏蔽了我,但我不知道如何绕过它。我通过网站挖掘,如果他们阻止爬行,它没有说它是禁止爬行
的
。有人
浏览 23
提问于2018-12-31
得票数 1
回答已采纳
2
回答
Scrapy
-如何
抓取
网站并将
数据
存储在Microsoft SQL Server
数据
库
中
?
、
、
、
我正在尝试
从
我们公司创建
的
网站中提取内容。我已经在MSSQL Server
中
为
Scrapy
数据
创建了一个表。我还设置了
Scrapy
并配置了Python来
抓取
和提取
网页
数据
。我
的
问题是,如何将
Scrapy
抓取
的
数据
导出到本地MSSQL Server
数据
库
中
?这是
Scrapy
用于提取
数据<
浏览 1
提问于2017-04-07
得票数 2
1
回答
抓取
我们当前所在
网页
的
url
、
、
我想知道我们是否能刮到我们目前所在
网页
的
网址?我正试着
从
网页
上
浏览 1
提问于2014-02-20
得票数 0
回答已采纳
1
回答
c# windows phone
中
的
网页
抓取
、
、
嗨,我需要得到所有的
数据
页面。以防照片和每个主题
的
名称。该页面为。int startIndex = e.Result.IndexOf(@"><img"); string result = e.Result;我创建了一个类来保存
数据
并创建了一个列表,但是字符串"pattern“肯定是完全错误
的
。因为我不喜欢
使用
这种类型
的
字
浏览 3
提问于2013-06-26
得票数 0
回答已采纳
0
回答
Scrapy
+ Splash:
抓取
内部html
中
的
元素
、
、
我正在
使用
Scrapy
+ Splash
抓取
网页
,并试图
从
google广告横幅和其他广告中提取
数据
,但我很难让
scrapy
跟随xpath进入它们。我
使用
google来渲染页面,以便加载他们
的
脚本和图像并截图,但似乎广告横幅是由JS脚本创建
的
,然后将其内容插入到
网页
中
iframe
中
的
新html文档
中
,如下所示: Splash
浏览 11
提问于2017-06-20
得票数 1
回答已采纳
1
回答
使用
scrapy
splash对
抓取
速度有显著影响吗?
、
、
、
、
到目前为止,我一直在
使用
scrapy
和编写自定义类来处理
使用
ajax
的
网站。但是,如果我
使用
scrapy
-splash,据我所知,它会在javascript之后
抓取
呈现
的
html,爬虫
的
速度会受到严重影响吗?
使用
scrapy
抓取
一个普通
的
html页面
所需
的
时间与
使用
scrapy
-splash<
浏览 3
提问于2018-04-18
得票数 12
回答已采纳
1
回答
使用
Scrapy
从
多个
网页
中
抓取
数据
、
我正在尝试
使用
scrapy
从
多个
网页
中提取电话标题(以及最终
的
其他
数据
)。我正在尝试
使用
已定义
的
函数来做到这一点。"但是,当我尝试设置第二个"parse_pages“时,代码似乎甚至不会尝试处理,并且我无法获得仅包含每个页面标题
的
CSV输出import
scrapy
from
scrapy
.http import Requ
浏览 7
提问于2019-11-12
得票数 0
3
回答
抓取
RSS
抓取
系统
、
、
、
、
我对python比较陌生,只有两个月左右
的
时间,主要是自学并喜欢上它。我一直在尝试设计一个程序,可以
从
国家气象局
抓取
文本RSS提要,但我不知道
从
哪里开始。我想要
的
东西,将扫描恶劣天气,又名龙卷风手表警告exct,并发送到我
的
电子邮件。我已经编写了一个简单
的
电子邮件警报系统,甚至会给我
的
手机发短信。我想知道你们
中
是否有人可以给我指出正确
的
方向,如何去构建一个rss刮板,并将其与电子邮件程序相结合,以构建一个功能强大<e
浏览 1
提问于2012-01-07
得票数 2
回答已采纳
1
回答
如何在google
的
网络商店搜索结果上
抓取
动态生成
的
数据
、
、
、
、
我想
抓取
一个
网页
,它显示了在谷歌
的
网络商店
的
搜索结果,该链接是静态
的
,为特定
的
关键字。问题是我无法呈现由Javascript代码生成
的
动态
数据
,以响应服务器。我尝试
使用
Scrapy
和
Scrapy
-Splash呈现
所需
的
页面,但仍然得到相同
的
响应。我
使用
Docker在端口8050
浏览 12
提问于2019-07-07
得票数 0
1
回答
动态内容
抓取
、
、
我们可以
使用
Scrapy
从
由Javascript加载
的
网页
中
获取内容吗?我正在尝试
从
页面
中
抓取
使用
示例,但是由于它们是
使用
Javascript作为JSON对象加载
的
,所以我无法
使用
Scrapy
获取它们。 你能提出什么是处理这些问题
的
最佳方法吗?
浏览 5
提问于2016-11-22
得票数 0
回答已采纳
1
回答
如何在每次爬网后阻止
scrapy
覆盖CSV导出文件
、
目前,我
使用
scrapy
抓取
一个
网页
的
多个页面,并将
数据
导出到CSV文件。每天,爬行器都会遍历页面并保存
数据
;但是,它会覆盖前几天
的
数据
。我想知道如何对管道进行编程,使其只在同一文件
中
从
文件末尾开始写入CSV。通过这种方式,我可以将以前
抓取
的
所有
数据
保存在一个位置。
浏览 0
提问于2012-07-20
得票数 0
1
回答
如何在
Scrapy
中有条件地重试和重新整理当前页面?
、
、
我是
Scrapy
的
新手,对Python也不是很熟悉。我已经设置了一个
抓取
器来
从
网站上
抓取
数据
,但是虽然我
使用
的
是代理,但如果同一个代理被
使用
太多次,那么我
的
请求就会显示一个页面,告诉我访问太多页面太快(HTTP状态代码200)。因为我
的
抓取
器看到
的
是页面的状态代码为on,它找不到
所需
的
数据
并移动到下一页。 我可
浏览 1
提问于2013-03-25
得票数 3
回答已采纳
4
回答
在
Scrapy
中
单击按钮
、
、
、
我正在
使用
Scrapy
抓取
网页
。我需要
的
一些信息只有在您单击某个按钮时才会弹出(当然,单击后也会出现在HTML代码
中
)。我如何才能简单地单击一个按钮,然后显示我需要
的
信息? 我必须
使用
像mechanize或lxml这样
的
外部库吗?
浏览 0
提问于2011-07-14
得票数 62
回答已采纳
1
回答
抓取
抓取
多个页面,提取
数据
并保存到mysql
中
。
、
、
我正在尝试
抓取
抓取
所有的网站
网页
。
从
"start_urls“开始,但它似乎并不会自动爬行所有页面,而是
使用
pipelines.py保存到mysql
中
。当f= open("urls.txt")中提供urls时,它也会
抓取
所有页面,并
使用
pipelines.py保存
数据
。这是我
的
密码import
scrapy
from
scrapy
.co
浏览 6
提问于2015-03-30
得票数 0
回答已采纳
1
回答
如何配置
Scrapy
以
使用
BeautifulSoup解析器
、
、
、
我
使用
BeautifulSoup
的
默认html.parser
从
任何
网页
中提取
数据
,没有什么原因让我觉得它比
使用
XPATH/CSS选择器更灵活、更强大。在
抓取
之前,我学习了
使用
BeautifulSoup进行网络
抓取
。我想不出一种让
Scrapy
使用
bs4作为解析器
的
方法。有可能吗?
浏览 2
提问于2019-08-18
得票数 0
回答已采纳
1
回答
如何
使用
Scrapy
自动获取请求头?
、
我们知道,在浏览器
中
,可以查看->网络-> XHR -> Headers和get Request Header。然后可以将这些标头添加到
Scrapy
请求
中
。但是,有没有一种方法可以
使用
Scrapy
请求自动获取这些请求头,而不是手动获取?我尝试
使用
:response.request.headers,但此信息还不够: {b'Accept': [b'text/html,application/xhtml+xml,applica
浏览 50
提问于2021-05-21
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
从零开始学Scrapy:一步步教你掌握Python最强大的爬虫框架,轻松实现网页数据抓取!
scrapy 框架实践爬虫-思路篇
Scrapy 爬取分析酷安网 6000 款App
使用 Python 和 Scrapy 半小时爬了10 个在线商店的网页
Python爬虫入门,快速抓取大规模数据6
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券