腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
9
回答
BeautifulSoup
和
Scrapy
crawler有什么区别?
python
、
beautifulsoup
、
scrapy
、
web-crawler
我对BeautifulSoup比较熟悉,但对
Scrapy
crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
1
回答
Web
抓取
与
'
scrapy
‘
抓取
0个
页面
和
项目
python
、
web-scraping
、
scrapy
我正在设置一个代理
抓取
从一个网站,但我什么也得不到。import
scrapy
from
scrapy
.spiders import CrawlSpider, Rulefrom
scrapy
.loader import ItemLoader from
scrapy
.loader.processors im
浏览 17
提问于2019-03-24
得票数 1
回答已采纳
1
回答
使用python从同一网页中的多个链接中提取数据
python
、
web-scraping
、
beautifulsoup
、
python-requests
我是蟒蛇
和
网络
抓取
的新手。 我试图从这个链接中提取关于临床诊断测试的测试成分的信息。单击每个名称将带您到另一个
页面
,其中包含有关单个测试组件的详细信息。我想从这一页中提取出有共同问题的部分。
浏览 1
提问于2018-01-19
得票数 0
1
回答
数据采集Urllib2+bs4
与
Scrapy
python
、
web-scraping
、
beautifulsoup
、
scrapy
、
screen-scraping
数据收集是我日常工作的一部分,通常我收集数据的方式是使用urllib2收集html
页面
,然后使用漂亮汤解析我想要的数据。 我经常听说Python包。我看了一下
Scrapy
,他们网站上的内容基本上是关于一般刮擦的重要性,而不是“刮起”本身。我想知道,对于一个拥有合法的urllib2知识和美丽的汤的人来说,刮风的酷还是简单到足以让我放弃urllib2
和
bs4?如果是的话,最重要的理由是什么?
浏览 3
提问于2013-09-16
得票数 2
回答已采纳
1
回答
在python中浏览/解析html
页面
python
、
html
、
parsing
、
browser
、
web-scraping
为了
与
html
页面
进行交互,我试图把一些我需要的插件集合在一起。我需要的范围从简单的浏览
和
与
按钮或网页链接(如“在这个文本框中写一些文本并按这个按钮”)进行交互,到解析html
页面
和
向服务器发送自定义get/post消息。我正在使用Python3,到目前为止,我有Request用于简单的网页加载、自定义get
和
post消息,BeautifulSoup用于解析HTML树,我正在考虑尝试机械化来进行简单的网页交互。
浏览 3
提问于2014-04-17
得票数 1
回答已采纳
1
回答
用Python
抓取
加载AJAX的网站,我应该使用哪个url?
javascript
、
python
、
json
、
ajax
、
api
因此,我开始搜索替代方案,并在StackOverflow上使用API向服务器发送请求,但经过几个小时的尝试
和
搜索(例如,我放弃了),因为我没有得到一些东西: 如何逆向工程API发送正确的请求?
浏览 4
提问于2017-11-25
得票数 1
1
回答
使用
scrapy
splash对
抓取
速度有显著影响吗?
python
、
selenium
、
web-scraping
、
scrapy
、
scrapy-splash
到目前为止,我一直在使用
scrapy
和
编写自定义类来处理使用ajax的网站。但是,如果我使用
scrapy
-splash,据我所知,它会在javascript之后
抓取
呈现的html,爬虫的速度会受到严重影响吗?使用
scrapy
抓取
一个普通的html
页面
所需的时间
与
使用
scrapy
-splash
抓取
javascript渲染的html所需的时间进行了怎样的比较?最后,
scrapy
splash
和<
浏览 3
提问于2018-04-18
得票数 12
回答已采纳
3
回答
在使用
Scrapy
进行
抓取
之前,检查URL是否在文件中
python
、
scrapy
、
file-read
我正在
抓取
一个包含URL列表的大文件。显然,我不能连续地
抓取
所有的URL。我当前的解决方案从文件中读取URL。一旦它从该
页面
抓取
和
下载文档,我就会写入一个新文件,如下所示: # >
scra
浏览 6
提问于2019-10-11
得票数 0
1
回答
带有刮刀的
Web
爬行器,使用木偶
和
刮除器
javascript
、
html
、
reactjs
、
selenium
、
scrapy
我必须
抓取
和
刮相当多的网站,这些网站是由React / javascript / html技术组合而成的。这些网站在所有地方都有大约。10万至50万页。我计划使用Selenium
和
Scrapy
来完成爬行
和
抓取
。单是
Scrapy
就不能对
页面
进行
抓取
,使用Selenium来
抓取
常规的javascript/html是非常耗时的。我想知道是否有任何方法我的爬虫/刮刀可以理解反应
浏览 3
提问于2019-12-04
得票数 0
回答已采纳
4
回答
如何在
抓取
的CrawlSpider中访问特定的start_url?
python
、
django
、
scrapy
我正在使用
Scrapy
,特别是
Scrapy
的CrawlSpider类来
抓取
包含某些关键字的
web
链接。我有一个相当长的start_urls列表,它从一个连接到Django
项目
的SQLite数据库中获取条目。我想将
抓取
的
web
链接保存在此数据库中。所有
抓取
的网页链接都是start_urls列表中的一个开始网址的子网站。
web
链接模型
与
起始url模型具有多对一关系,即
web
链接模型具有指向起始url模
浏览 1
提问于2012-05-15
得票数 7
回答已采纳
1
回答
如何使用
scrapy
或selenium
抓取
动态
页面
?
javascript
、
python
、
html
、
parsing
、
screen-scraping
我正在尝试
抓取
web
动态
页面
,但使用
scrapy
时,我不能检索所有信息,因为我想要的信息是动态的。 我试着使用Selenium,但
与
Scrapy
不同的是,你不能指定头部,网站阻止了我。(我不能说出这个网站的名字,因为
抓取
是非法的,但它是一个著名的旅游元搜索引擎...)。我有一个带有验证码解算器的
页面
(用脚本很难解决重新验证码),因为网站会检测到我是机器人。我想拥有所有的动态信息,并有权访问网站,但不可能与selenium
和
sc
浏览 23
提问于2019-06-13
得票数 0
2
回答
Scrapy
-没有列表
页面
,但我知道每个
项目
页面
的url
python
、
scrapy
我正在使用
Scrapy
来
抓取
一个网站。我想要
抓取
的
项目
页面
类似于:。其中x是从1到100的任意数字。因此,我有一个SgmlLinkExractor规则,并为类似的
页面
指定了一个回调函数。该网站没有
与
所有
项目
的列表
页面
,所以我想以某种方式很好地
抓取
这些网址(从1到100)。这个叫的家伙似乎也有同样的问题,但是他想不出来。 有谁有解决方案吗?
浏览 0
提问于2011-05-17
得票数 0
1
回答
在heroku上部署
scrapy
项目
python-2.7
、
heroku
、
scrapy
、
scrapyd
我有一个
抓取
蜘蛛
项目
,它报废了一些网站,并获取我的数据上。我的爬行器生成两个JSON文件,所有
抓取
的数据都存储在这两个文件中。现在,我有一个flask
web
服务,它使用上述两个JSON文件来满足用户的请求。我想自动化这个过程,即
scrapy
项目
应该每天运行,产生的JS
浏览 1
提问于2014-04-24
得票数 2
1
回答
使用
Scrapy
抓取
ajax
页面
python
、
selenium
、
scrapy
我已经用
Scrapy
一个月了。我能够
抓取
和
抓取
几个网站(事实上我已经
抓取
了900个网站),基于pipelines.Now给出的关键字,问题是当我们遇到javapages (ajax)时,
抓取
不能
抓取
。我正在尝试使用以下代码,并对
抓取
ajax
页面
进行适当的更改第二个问题是,我面临的问题是
scrapy
无法
抓取
浏览 2
提问于2013-06-19
得票数 0
回答已采纳
1
回答
Python是否有可能进入每个产品
页面
并刮取数据?
python
、
web-scraping
、
scrapy
我对python
和
web
抓取
很陌生,我想知道是否有可能用刮伤从产品
页面
中
抓取
。示例:我在amazon.com上搜索监视器,我希望
scrapy
转到每个产品
页面
并从那里刮取,而不是只是从搜索结果
页面
中
抓取
数据。我正确地拥有了一个从搜索结果
页面
中
抓取
的刮擦
项目
,但是我想将它改进为从产品
页面
中刮取。): product_title =
scrapy
.Fi
浏览 3
提问于2020-11-10
得票数 0
回答已采纳
3
回答
用不同的刮板
抓取
跟随链接
python
、
scrapy
我正在用
Scrapy
抓取
一个网页。我写了我的爬行器,它工作得很好,它
抓取
一个
页面
上的
项目
列表(让我们称它为主页)。在主页中,我考虑的每个
项目
都有一个链接,该链接指向详细
项目
页面
(让我们这样叫它),在那里可以找到关于每个
项目
的详细信息。 现在我也想
抓取
细节
页面
,但蜘蛛会不同,在不同的地方会有不同的信息。是否可以告诉
scrapy
在特定位置查找链接,然后
抓取
那些链接到我
浏览 2
提问于2013-09-16
得票数 2
1
回答
在搜索Google时转到下一页
python
、
python-3.x
、
web-scraping
、
beautifulsoup
请参阅以下链接
和
屏幕截图 Hotel List Dublin on Google ? 我想知道这里有没有人以前通过过这个问题?我已经成功地从第一页
抓取
了数据,但我需要为那里的每一页做这件事 请看下面我的当前代码。
浏览 10
提问于2019-12-18
得票数 0
2
回答
是否需要为每个目标站点编写
抓取
器?
python
、
html
、
web-scraping
、
beautifulsoup
、
html-parsing
我使用Python语言和BeautifulSoup来
抓取
存储。我想问的是,如果我需要清理一些其他的eCommerce商店(比如亚马逊、Flipkart),我是否需要定制我的代码,因为它们具有不同的HTML (
和
名字是不同的,另外还有其他东西)。我想知道比价网站是如何从所有在线商店中
抓取
数据的?他们对不同的在线商店有不同的代码,还是有通用的代码?他们会研究每个在线商店的HTML模式吗?
浏览 40
提问于2014-12-28
得票数 7
回答已采纳
2
回答
如何
抓取
一个网站只给定域网址
与
scrapy
python
、
web-crawler
、
scrapy
、
scrape
我正在尝试使用
scrapy
抓取
一个网站,但网站没有网站地图或
页面
索引。如何使用
scrapy
抓取
网站的所有
页面
? 我只需要下载网站的所有
页面
,而不提取任何
项目
。我只需要在蜘蛛规则中设置关注所有链接吗?但我不知道
scrapy
是否会以这种方式避免复制urls。
浏览 0
提问于2013-01-06
得票数 5
回答已采纳
2
回答
数据挖掘,用于收集网站的详细信息并放入CSV或SQL中
data-mining
我如何开始编写一个程序,它将
抓取
他们的
页面
,并将
页面
的选择性信息放入CSV格式,然后我可以将其导入到我的网站中? 至少,我可以在哪里学到这一点?谢谢。
浏览 9
提问于2011-03-26
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
常用Python爬虫框架汇总
scrapy爬取1024种子
大神教你十分钟写界面化爬虫,爬取百思不得姐美眉视频:附源码
Python常用框架之Scrapy
Python爬虫入门,快速抓取大规模数据6
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券