腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
抓取
爬行
器
不
返回
任何
内容
,
但
Xpath
是
正确
的
python
、
xpath
、
web-scraping
、
scrapy
我正在尝试使用scrapy
抓取
一个网站,并且我正在编写我
的
爬行
器
的
早期阶段。首先,我只是尝试
返回
电影
的
名称,
但
当我运行
爬行
器
时,名称将
返回
'None‘或
返回
每个条目。我已经使用'
XPath
助手‘chrome扩展检查了
Xpath
,它看起来
是
正确
的
,所以我不确定为什么爬虫没有<
浏览 34
提问于2020-04-29
得票数 1
回答已采纳
1
回答
用Scrapy
爬行
特定
的
网页
html
、
xpath
、
scrapy
嗨,我
是
个剪贴上
的
菜鸟,我试着
抓取
一些文章(
内容
、机构名称、通讯员等)。来自以下页面: 问题
是
,我
的
爬行
器
返回
大多数文章
的
正确
结果,但是对于代理名称为“reuters”(例如- )
的
文章,它只
返回
一组转义字符而不是
内容
(它确实
返回
标题和代理名称)。main_path=response.
xpath
('&
浏览 1
提问于2017-05-11
得票数 1
回答已采纳
1
回答
如何让scrapy使用url遍历归档文件?
python
、
python-3.x
、
scrapy
我正在尝试让一个
抓取
蜘蛛
抓取
归档中
的
几个页面,目的
是
打开每个单独
的
链接并
抓取
链接页面的
内容
。我遇到了一些随机
的
HTTP500错误,我试图通过简单
的
尝试跳过这些错误-除了跳过那些
返回
500个错误
的
页面。 解析函数
的
第一部分使用parse_art函数遍历归档页面中
的
href,以获取要
抓取
的
页面。第二部分
是
在归档中查
浏览 18
提问于2019-07-08
得票数 1
回答已采纳
2
回答
Scrapy -
Xpath
可以在shell中运行,但不能在代码中运行
python
、
xpath
、
web-scraping
、
web-crawler
、
scrapy-spider
我正在尝试
抓取
一个网站(我得到了他们
的
授权),我
的
代码在scrapy shell中
返回
了我想要
的
东西,但我
的
爬行
器
什么也得不到。, response.url)我正在尝试
爬行
的
网站
是
response.selector.
xpath
('//*[@id=
浏览 36
提问于2018-04-25
得票数 1
回答已采纳
1
回答
在Coles.com.au 429上
抓取
产品链接时出现错误,共1个请求
python
、
python-3.x
、
scrapy
我
是
网络
抓取
的
新手,想用
抓取
从下面的网站
抓取
链接: https://shop.coles.com.au/a/national/everything/search/bread?pageNumber=1 我创建了下面的
xpath
来
抓取
链接,当我通过查看并按下ctrl +f来测试它时,我得到了51个匹配项,这与产品
的
数量相等,因此看起来
是
正确
的<
浏览 14
提问于2020-07-05
得票数 1
1
回答
正确
的
xpath
返回
空结果
xpath
、
scrapy
我想要从这个网页上
的
表格中
抓取
数据 假设我想提取左上角单元格中
的
文本LM2015122827458,我使用了response.
xpath
("//tr[@class = 'tr_css']/td[1]/text()&
浏览 2
提问于2016-01-05
得票数 0
0
回答
Xpath
是
正确
的
,
但
Scrapy不起作用
python
、
xpath
、
web-scraping
、
scrapy
、
spyder
我尝试从网页下载两个字段,我为每个字段确定
XPath
表达式,然后运行
爬行
器
,
但
没有下载
任何
内容
。我想逐项列出
的
字段
是
ISIN。item['ISIN'] = response.
xpath
('//*[@id="overviewQuickstatsD
浏览 0
提问于2018-07-17
得票数 2
回答已采纳
1
回答
Scrapy Spider
python
、
web-scraping
、
scrapy
、
scrapy-spider
我正在尝试
抓取
亚马逊,但我获得
的
file.csv
是
空白
的
。看看我
的
代码:import scrapyfrom scrapy.linkextractors: ml_item['articulo'] = response
浏览 0
提问于2018-03-25
得票数 1
1
回答
刮擦蜘蛛不跟随链接
python
、
scrapy
、
scrapy-spider
我正在写一只
抓取
蜘蛛,为今天
的
“纽约时报”
的
文章从主页上
爬行
,
但
出于某种原因,它没有跟随
任何
链接。当我在scrapy shell http://www.nytimes.com中实例化链接提取
器
时,它成功地用le.extract_links(response)提取了一个文章urls列表,但是除了主页之外,我无法获得
爬行
命令(scrapy crawl nyt -o out.json)来
抓取
任何
东西。是
浏览 4
提问于2015-06-18
得票数 3
回答已采纳
1
回答
Scrapy,python:无法使用在firebug中看到
的
xpath
提取数据
python
、
xpath
、
firebug
我对网络
抓取
、刮擦和巨蟒相当陌生。我正试图从这个中
抓取
数据。我想提取页面页脚中给出
的
电子邮件id : info@bikramyogasg.com,并尝试使用两个x路径来提取刮伤蜘蛛中
的
电子邮件id: 绝对: /html/body/div4/div/div/div/div/p/
浏览 2
提问于2015-07-06
得票数 0
回答已采纳
1
回答
刮伤:无法理解关于robots.txt
的
日志
python
、
web-scraping
、
scrapy
我
的
问题
是
,如果这个日志意味着网站不能被刮掉?我改变了我
的
用户代理看起来像一个浏览
器
,但它没有帮助。此外,我省略了"start_requests“中
的
"s”,
但
这也没有帮助。这是我得到
的
日志:2020-1
浏览 1
提问于2020-11-18
得票数 0
回答已采纳
1
回答
我在
抓取
的
项目中找不到字符串
python
、
scrapy
我有一个非常简单
的
爬虫,但是当我试图搜索我正在
抓取
的
项目的
内容
时,它没有被找到 被
抓取
的
url:https://www.filmlinc.org/nyff2019/films/the-irishmannyff2019/films/the-irishman/', title=response.
浏览 12
提问于2019-09-14
得票数 0
回答已采纳
6
回答
用scrapy
抓取
多个域名
的
最好方法是什么?
python
、
screen-scraping
、
scrapy
我有大约10多个网站,我希望从中
抓取
。其中有几个
是
wordpress博客,它们遵循相同
的
html结构,尽管具有不同
的
类。其他
的
要么
是
论坛,要么
是
其他格式
的
博客。我喜欢
抓取
的
信息很常见--帖子
内容
、时间戳、作者、标题和评论。 我
的
问题
是
,我必须为每个域创建一个单独
的
爬行
器
吗?如果没有,我如何创建一个通用
的
浏览 3
提问于2011-03-31
得票数 6
2
回答
Python在
抓取
IMDb网站时出现
的
问题
python
、
python-3.x
、
xpath
、
web-scraping
、
imdb
我试图使用IMDb在上
抓取
电影,我可以获得关于所有重要方面的数据,
但
演员
的
名字除外。下面
是
我正在处理
的
一个示例URL:使用“检查”浏览
器
功能,我找到了与所有参与者名称相关
的
XPath
,但是当在Python上运行代码时,
XPath
看起来
是
无效
的
(
不
返
浏览 0
提问于2018-09-08
得票数 0
回答已采纳
1
回答
抓取
爬虫
不
爬行
或不能写入csv文件?
python
、
python-2.7
、
web-scraping
、
scrapy
、
web-crawler
项目:sudo scrapy crawl indeed_resume -o items.csv/home/shap/Desktop/resume_crawlers/resume_scraper-master/resume_data/s
浏览 3
提问于2017-01-09
得票数 0
回答已采纳
2
回答
是否有
任何
SEO问题,以给邮件链接不跟踪?
seo
、
nofollow
、
hyperlink
、
mailto
我见过一些在邮件地址使用nofollow
的
网站。示例 📷
浏览 0
提问于2018-03-16
得票数 2
1
回答
无异常运行
的
Scrapy脚本,但未收集
任何
数据
python
、
python-3.x
、
scrapy
这是我从一些材料书中学到
的
Python Scrapy脚本。这是一个简单
的
web
抓取
示例。我可以在没有
任何
exception.But
的
情况下运行它,似乎通过运行它实际上没有收集到
任何
数据。因为这是学习示例,我不认为它是错误
的
,或者可能我
的
python库
不
匹配。谢谢。pythonevents/',]
浏览 0
提问于2018-12-15
得票数 1
0
回答
在满足条件时关闭
抓取
爬行
器
并
返回
输出对象
python
、
scrapy
、
web-crawler
、
screen-scraping
我做了一个蜘蛛,用来从像这个这样
的
页面上获取评论。我希望产品评论只持续到某个日期(在这种情况下
是
2016年7月2日)。我希望在审查日期早于给定日期时立即关闭
爬行
器
,并
返回
项目列表。
爬行
器
工作得很好,但我
的
问题
是
我不能关闭我
的
爬行
器
如果条件
是
met..if我引发一个异常,
爬行
器
关闭而
不
返回
<em
浏览 0
提问于2016-07-12
得票数 2
1
回答
HTTPS页面造成
的
重复
内容
seo
、
https
、
duplicate-content
有人说,你浪费谷歌
爬行
学分,因为谷歌需要再次
爬行
相同
的
内容
。这是真的吗? 我真的对重复
的
内容
有问题吗?
浏览 0
提问于2013-11-05
得票数 2
1
回答
Xpath
是
正确
的
,
但
Scrapy
爬行
器
不起作用
xpath
、
scrapy
我尝试从网页下载,我识别了
XPath
表达式,然后运行
爬行
器
,
但
没有下载
任何
东西。网页:https://octopart.com/electronic-parts/integrated-circuits-ics代码如下: for product in response.
xpath
("//div[@class='serp-card-header media']/div[@class='
浏览 28
提问于2019-03-04
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
python爬虫系列开发scrapy掌握(一)
南挚seo:什么是搜索引擎?常见的搜索引擎蜘蛛有哪些?
站长,请不要小瞧服务器对SEO优化效果的影响
万人网络讲解:“沈阳SEO”浅析搜索引擎蜘蛛的工作方式
scrapy官方文档提供的常见使用问题
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券