腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(5255)
视频
沙龙
1
回答
使用
requests.get
或
scrapy
抓取
链接
后
看不到
某些
数据
web-scraping
、
python-requests
、
scrapy
我正在尝试从a stock exchange website中
抓取
数据
。具体来说,我需要读取左上角表格中的数字。我尝试
使用
selenium,延迟了大约20秒(以便加载javascript ),但这不起作用,并且找不到元素。是否有解决此问题的方法?
浏览 27
提问于2021-01-03
得票数 0
回答已采纳
2
回答
抓取
并发
或
分布式爬网
concurrency
、
scrapy
、
distributed
我想用
scrapy
抓取
相当大的网站。在
某些
情况下,我已经有了
抓取
的
链接
,而在其他情况下,我需要提取(
抓取
)它们。我还需要在运行时访问
数据
库两次。一次是为了确定是否需要
抓取
url (蜘蛛中间件),一次是为了存储所提取的信息(项目流水线)。理想情况下,我可以运行并发
或
分布式爬行,以加快速度。
使用
scrapy
运行并发
或
分布式爬网的推荐方式是什么?
浏览 5
提问于2015-05-28
得票数 4
4
回答
如何在
抓取
的CrawlSpider中访问特定的start_url?
python
、
django
、
scrapy
我正在
使用
Scrapy
,特别是
Scrapy
的CrawlSpider类来
抓取
包含
某些
关键字的web
链接
。我有一个相当长的start_urls列表,它从一个连接到Django项目的SQLite
数据
库中获取条目。我想将
抓取
的web
链接
保存在此
数据
库中。为了将
抓取
的web
链接
正确地保存到
数据
库中,我需要告诉CrawlSpider的parse_item()方法,
抓取
浏览 1
提问于2012-05-15
得票数 7
回答已采纳
0
回答
如何在同一位置
使用
Scrapy
请求和获取响应?
python
、
callback
、
scrapy
我正在编写
抓取
爬虫从电子商务网站
抓取
数据
。该网站有颜色的变化,每个变化有自己的价格,大小和库存的大小。要获得变种的价格、尺寸和库存,需要访问变种的
链接
(颜色)。并且所有
数据
都需要在一条记录中。我尝试过
使用
请求,但速度很慢,有时无法加载页面。 我已经
使用
requests.get
()编写了爬虫程序,并在
scrapy
.selector.Selector()和解析
数据
中
使用
响应。我的问题是,是否有任何方法可
浏览 2
提问于2018-07-13
得票数 3
2
回答
抓取
蜘蛛从
链接
中随机
抓取
数据
为什么?
python
、
scrapy
首先,我从网站上
抓取
了所有的硬币
链接
,并要求那些
链接
。但是
scrapy
没有串行地请求从
链接
list.after请求这些
链接
抓取
数据
成功,但当保存到csv文件时,它使一个完整的
抓取
项目
后
每一次都是一个空行。我期待它将从
链接
列表中串行请求,它不会使任何空白row.how我能做到吗?我
使用
的是python 3.6和
scrapy
版本1.5.1import <
浏览 3
提问于2018-12-02
得票数 0
1
回答
Python requests.post的刮伤版
python
、
web-scraping
、
python-requests
、
scrapy
我正在对特定端点执行请求,
使用
python请求添加一些头和json。但是,由于我正在编码的存储库的体系结构是基于
scrapy
的,所以我想提出相同的请求,但要翻译为
scrapy
json_data = { 'page_size没有给我预期的反应的粗糙的替代方案from
scrapy
.http import JsonRequest j_response = JsonRequest(url
浏览 5
提问于2022-10-11
得票数 0
4
回答
从urls列表中下载<very large> number of pages的最佳方式是什么?
python
、
multithreading
、
multiprocessing
、
scrapy
、
web-crawler
我有一个>100,000的urls (不同的域名)在一个列表中,我想下载并保存在
数据
库中,以便进一步处理和修补。
使用
scrapy
而不是python的多处理/多线程是否明智?
浏览 2
提问于2013-06-06
得票数 5
回答已采纳
1
回答
爬网完成
后
运行自定义代码(
scrapy
)
python
、
scrapy
我需要在
抓取
完成
后
测试所有
抓取
的
数据
(
某些
字段的可用性百分比等)。
数据
包含在csv文件中,因此为了测试,我决定
使用
Pandas。在
scrapy
告诉我爬行已经完成之后,有没有办法启动代码来测试
Scrapy
爬行器中的.csv文件?我尝试过
使用
扩展,但是不能让它工作。Thx name = 'scrapyspider'
浏览 0
提问于2019-01-17
得票数 1
1
回答
在实际
抓取
数据
之前,
scrapy
是否有可能导航
链接
?
python
、
scrapy
2)告诉
抓取
页面中的哪些部分我想知道的是,当
数据
本身不在起始页面时,我是否能够
使用
scrapy
刮取
数据
?例如,我有一个
链接
,去一个论坛。该论坛包含几个子论坛的
链接
。每个子论坛都有几个线程的
链接
。每个线程包含多个消息(可能在多个页面上)。这些信息是我最终想要刮的。是否有可能这样做,并只
使用
最初的
链接
到论坛?
浏览 0
提问于2018-10-18
得票数 0
回答已采纳
9
回答
BeautifulSoup和
Scrapy
crawler有什么区别?
python
、
beautifulsoup
、
scrapy
、
web-crawler
我对BeautifulSoup比较熟悉,但对
Scrapy
crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
1
回答
递归地爬行网站及其外部
链接
,为
数据
分析项目n Python创建一个图表。
python
、
beautifulsoup
、
scrapy
、
web-crawler
、
scrapy-spider
我有一个项目,我想把它放在一起做一个
数据
分析实验。我有一个管道,但我不知道如何继续获取我需要的
数据
。我想
抓取
一个网站,并找到所有的内部和外部
链接
,分开他们和爬行的外部
链接
递归,直到它达到一定的深度。我想要这样做,以创建一个网站的所有连接的图表,然后
使用
中心算法找到中心节点并从那里开始。理想情况下,我希望在这个项目中
使用
python 2。在爬行和创建图表时,任何帮助和/
或
建议都将是非常感谢的,特别是编辑: 我正在尝试实现您建议的解决方案
浏览 2
提问于2017-11-25
得票数 0
1
回答
与检查器HTML不同的HTTP响应
html
、
python-3.x
、
xpath
、
web-scraping
、
python-requests
我试图获得以下网站的
数据
使用
请求和
抓取
选择。import requestsheaders = {'user-agent': 'AppleWebKit/537.36'} req =
requests
浏览 2
提问于2019-12-19
得票数 0
1
回答
在网站/屏幕中查找所有可能的
链接
-
使用
Python进行Web
抓取
python
、
web-scraping
、
screen-scraping
、
web-crawler
、
web-search
基本上,就是
抓取
页面。 这是我在页面中搜索的代码。我需要找到网站上所有可能的这样的网页,并获得
链接
。这不是家庭作业。
浏览 7
提问于2013-04-01
得票数 0
回答已采纳
2
回答
当
数据
表在页源中没有显示时如何刮取
python
、
web-scraping
、
beautifulsoup
、
scrapy
我想从上的
数据
表中
抓取
所有的运行时间(而不仅仅是前10个结果)。但是,显示在网页上的
数据
并不显示在webpage源中。在每个
数据
表下,都有一个超
链接
("hier")。这些
链接
指向完整的
数据
表页。但这些
链接
也不在页面源中。 任何建议
或
代码片段如何刮取这些
数据
(
使用
或
Scrapy
)。
浏览 0
提问于2019-06-08
得票数 1
回答已采纳
1
回答
处理NotSupported异常
python
、
scrapy
我正在
使用
Scrapy
Spider从网站上
抓取
一些
数据
,但并不是所有的
链接
都很好。我得到了其中的一些NotSupported错误,我想把这些网址存储在一个文件
或
定义一些其他行为。有没有办法捕获
scrapy
.exceptions.NotSupported并定义自定义行为?我天真地尝试了以下代码,但它不起作用。try:except
scrapy
浏览 20
提问于2019-01-04
得票数 0
2
回答
使用
scrapy
将
抓取
的项目保存到json/csv/xml文件
python
、
scrapy
通过以下示例和文档,我创建了我的爬行器,以便
使用
站点地图
抓取
数据
from
scrapy
.selectorlog在屏幕上看到
抓取
的结果通过在命令中添加选项,我可以将
抓取
的结果保存到json/csv/xml文件中 用于在文件中获取结果的
scrapy
crawl myspide
浏览 2
提问于2014-02-04
得票数 4
1
回答
抓取
,不
抓取
scrapy
我正在
使用
scrapy
runspider命令在相同的域中
抓取
大约10,000个具有相同结构的
链接
。随机地在一些页面之间(大约40%到50%的页面)爬行,但不
抓取
,因为在我的parse方法中,我计算页面中的特定元素,并根据该元素
抓取
页面的其他元素。但由于某种原因(稍后将详细介绍此原因),对于
某些
urls,该元素的计算结果不正确。出现上述现象的可能原因:我的网页
链接
类型是www.example.com/search_term/,它实际
浏览 2
提问于2016-10-19
得票数 1
1
回答
Scrapy
-删除重复
数据
并将
数据
输出为单个列表?
python
、
scrapy
、
scrapy-spider
我
使用
下面的代码来
抓取
页面上的多个
链接
,并从每个相应的
链接
中获取
数据
列表: name = "quotesdata = {'data': response.css('strong.data::text').extract()}它工作得很好,但当它返回每个
链接
的<e
浏览 5
提问于2017-07-12
得票数 0
回答已采纳
3
回答
将刮擦设置为cron作业时出错:“刮伤:未找到”
cron
我想设置一个cron作业,以运行我的
scrapy
(python脚本)ubuntu@ip-1-2-3-4-:cd /home/ubuntu/scrapers/my_scraper/现在,我尝试以cron作业的形式运行上面的命令:增加了以下几行: PATH=/home/u
浏览 0
提问于2020-07-13
得票数 1
1
回答
如何从网站上
抓取
二级网页
python
、
sql
、
web-scraping
、
beautifulsoup
、
scrapy
我想问你如何
使用
python + Beautiful soup
或
Scrapy
来
抓取
网页,如果有2个级别的页面,一个简短的描述+一个到职位帖子完整细节的
链接
,那么它包含了例如招聘公告?我需要从招聘公告的标题中
抓取
数据
,然后更深入地提取完整的描述,并将这些
数据
添加到
数据
库
或
文本文件中?问题是转到第二层,在那里完整的描述和获得完整的细节,包括图像
链接
,如果存在的话…有人这么做过吗?
浏览 0
提问于2019-09-26
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
常用Python爬虫框架汇总
python爬虫系列开发scrapy掌握(一)
大神教你十分钟写界面化爬虫,爬取百思不得姐美眉视频:附源码
码以致用01-Scrapy 爬虫框架简介
Scrapy框架的使用之Scrapy入门
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券