腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
结构
不同
的
多个
URLS
中
抓取
信息
python
、
web
、
web-scraping
、
beautifulsoup
我想刮
多个
网址,但他们是
不同
的
性质,如
不同
的
公司网站与
不同
的
html后端。有没有一种方法可以做到这一点,而不需要为每个url提供定制
的
代码? 我知道我可以将
多个
URLS
放到一个列表
中
并循环它们
浏览 15
提问于2021-05-11
得票数 1
1
回答
scrapy
中
的
动态start_
urls
web-crawler
、
scrapy
我正在使用scrapy在一个网站上
抓取
多个
页面。变量start_
urls
用于定义要爬行
的
页面。我最初会
从
第一页开始,因此在文件example_spider.py
中
定义start_
urls
= [1st page] 在从第一页获得更多
信息
后,我将确定下一页将被
抓取
,然后将相应地分配start_
urls
因此,我必须用对start_
urls
= [1st page, 2nd page, ..., Kth
浏览 1
提问于2012-01-10
得票数 12
回答已采纳
1
回答
如何为父网站和独立文件夹
结构
化网站创建站点地图?
seo
、
sitemap
、
analytics
我们正在考虑创建一个父和子站点文件夹
结构
,并且我们不确定如何最好地为这些独立
的
安装创建一个站点地图,这些安装都位于一个主站点名下。其中将有一个由Magento eCommerce制作
的
商店作为一个单独
的
文件夹
从
视频共享PHP安装生成
的
视频共享文件夹: www.MyWebsite.com虽然对SEO
的
限制意味着文件夹
结构
将优化我们网站
的
SEO格式。假设它们都是独立
的</e
浏览 0
提问于2016-08-26
得票数 0
回答已采纳
2
回答
我如何知道哪个浏览器被用来在Scrapy框架
中
爬行?
python
、
selenium
、
web-scraping
、
scrapy
、
web-crawler
我
的
背景是: 正如你所知道
的
,Chrome,Firefox,Safari上
的
网站HTML
结构
是非常
不同
的
。因此,当我使用CSS-Selector
从
HTML
结构
中
获取元素标记
中
的
数据时,有时这个标记已经在Chrome浏览器中有了,而另一个则没有。因此,我只想专注于一个浏览器,以减少我
的
工作量。当我使用Scrapy框架
从
urls
抓取</e
浏览 0
提问于2018-12-05
得票数 0
回答已采纳
1
回答
从
正在
抓取
的
页面上
的
链接检索
信息
python
、
scrapy
、
hdf5
我在一个众筹论坛
中
收集项目,并将数据保存在hdf5文件
中
。class ExperimentScraperSpider(scrapy.Spider): allowed_domains= ['pr
浏览 0
提问于2017-10-03
得票数 2
2
回答
在Scrapy中一次生成
多个
项目
python
、
web-scraping
、
scrapy
如何同时生成
多个
项目?我正在
抓取
一个
URLS
列表,其中每个
URLs
都有大约10-20个嵌套
的
URLs
。我
从
每个嵌套
的
URL
中
抓取
需要生成
的
10项
信息
。有没有办法同时生产10件商品?也许是通过一个列表,或者我附加每一项,然后在最后生成所有项
的
东西?我不太确定该怎么做。有什么建议吗?代码示例: na
浏览 16
提问于2020-07-30
得票数 0
回答已采纳
3
回答
我有12000个已知
的
URL,用Python
抓取
它们最快
的
方法是什么?
python
、
web-scraping
、
scrapy
因此,我有一个
从
数据库中提取
的
URL列表,我需要
抓取
和解析每个URL
的
JSON响应。一些URL返回null,而其他URL返回发送到csv文件
的
信息
。我目前使用
的
是Scrapy,但它需要大约4个小时来
抓取
这12000个URL。我研究过像、和这样
的
东西,但我不确定它们是否适合我
的
用例,因为它们似乎是围绕着
抓取
网站上找到
的
URL。对于单机
抓取
的如此多
的
浏览 0
提问于2020-08-25
得票数 0
1
回答
从
多个
网页
中
抓取
urls
html
、
python-3.x
、
web-scraping
、
beautifulsoup
我试图
从
多个
网页中提取URL(在本例
中
为2),但出于某种原因,我
的
输出是
从
第一页提取
的
URL
的
重复列表。我做错了什么?我
的
代码:
urls
= [] baseUrl = 'https://www.goodreads.comstartswith('/author/
浏览 0
提问于2020-05-28
得票数 0
回答已采纳
1
回答
从
r
中
的
多个
urls
中进行from
抓取
r
、
web-scraping
我正在尝试
从
多个
urls
中
抓取
表。我使用以下代码
从
单个url
中
抓取
表:library(rvest) html_element('table.table_subtle') %>
浏览 4
提问于2022-08-05
得票数 0
回答已采纳
1
回答
使用rvest
抓取
多个
URL
html
、
r
、
screen-scraping
、
rvest
在rvest中使用read_html时如何
抓取
多个
urls
?目标是
从
相应
的
urls
中
获得一个由文本主体组成
的
单个文档,以在其上运行各种分析。我尝试连接
urls
: page <-read_html(url)
浏览 8
提问于2020-02-25
得票数 1
回答已采纳
1
回答
使用rvest和for循环进行高效
抓取
r
、
for-loop
、
web-scraping
、
rvest
我正在尝试使用rvest来收集大量
的
辩论。辩论发生在
不同
的
网页上,我
从
搜索结果
中
收集这些网页
的
urls
。有超过1000页
的
搜索结果,其中有20,000页
的
辩论(即20,000个
urls
)。我目前
的
方法成功地
从
辩论页面
中
抓取
了我需要
的
数据,然而,对于任何超过20页
的
搜索结果(即20,000个
urls</e
浏览 18
提问于2019-12-11
得票数 1
1
回答
抓取
不同
深度
的
多个
起始
urls
python
、
scrapy
我正在尝试让scrapy0.12在爬行器
的
start_
urls
变量
中
为
不同
的
url修改它
的
“最大深度”设置。如果我正确理解了文档,那是不可能
的
,因为DEPTH_LIMIT设置对于整个框架来说是全局
的
,并且没有“来自初始请求”
的
概念。 有没有办法绕过这一点?有没有可能用每个起始url和
不同
的
深度限制初始化同一个爬行器
的
多个
实例?
浏览 0
提问于2011-10-23
得票数 1
3
回答
如何
从
多个
urls
中
刮取数据并将这些数据保存在同一个csv文件
中
?
python
、
loops
、
web-scraping
、
beautifulsoup
、
python-requests
我正在使用beautifulsoup来
抓取
数据。有
多个
urls
,我必须将我从这些
urls
中
抓取
的
数据保存在同一个CSV文件
中
。当我试图从
不同
的
文件
中
抓取
并保存到相同
的
CSV文件时,我在CSV文件
中
刮到
的
最后一个url
中
的
数据就在那里了。下面是我
从
其中
抓取
数据
浏览 17
提问于2022-09-05
得票数 0
回答已采纳
2
回答
如何使用preg_match_all获取页面
中
的
特定部分
php
你好,我使用preg_match_all函数来
抓取
页面上
的
内容,但是当我试图
抓取
一些特定
的
部分时,比如细节部分,它会给我一个数组!该页面上
的
代码
结构
是以前,对于grab
urls
n标题,我使用了如下代码
浏览 0
提问于2012-05-05
得票数 0
回答已采纳
1
回答
从
多个
搜索结果
中
抓取
信息
r
、
web-scraping
、
rvest
我可以得到每个配置文件
的
URL,但我不知道如何
从
每个配置文件
中
抓取
信息
并将其放入表
中
这并不违反他们
的
使用条款,但网站也没有API。我能够
从
搜索结果
的
所有页面中提取每个配置文件
的
URL,然后将它们粘贴到域名。但是,我只能对一个页面的结果执行此操作,并且无法按照这些URL从
浏览 0
提问于2021-03-12
得票数 0
1
回答
是否有类似队列
的
数据库能够很好地处理并发性?
python
、
database
、
amazon-ec2
、
web-scraping
我有一台服务器,其工作是通过给定
的
urls
下载网页。它始终
从
同一个集群
中
的
多个
服务器接收
urls
。为此,我考虑使用类似队列
的
数据库来接收来自
不同
服务器
的
urls
,而且数据库也应该确保处理并发性。其他服务器不断向数据库提供
urls
,此服务器上
的
程序将
抓取
这些
urls
,然后下载网页。是否有类似队列
的
数据库可以完成这
浏览 5
提问于2014-10-08
得票数 0
回答已采纳
1
回答
Scrapy不跟随提取
的
链接
python
、
web-scraping
、
scrapy
、
data-extraction
Scrapy不遵循
抓取
的
链接。当我调用这个函数时,它应该
从
之前
抓取
的
链接中提取详细
信息
,但它不起作用,而是
从
start_
urls
中
抓取
内容。import scrapy name = 'olx' start_
urls
= ['https://www.olx.plmies
浏览 2
提问于2021-04-17
得票数 0
1
回答
Scrapy:如何开始
从
使用Javascript
的
搜索结果
中
抓取
数据
python
、
web-scraping
、
scrapy
我是新手使用scrapy和python我想开始
从
搜索结果
中
抓取
数据,如果你会加载页面默认内容将会出现,我需要
抓取
的
是过滤后
的
内容,同时做分页?下面是我需要从时间过滤器
中
抓取
项目的URL:"Today“我所做
的
就是这些,但更多
的
是关于布局
结构
。class TmcnfSpider(scrapy.Spider): name
浏览 1
提问于2019-05-10
得票数 0
2
回答
使用Rvest
抓取
文本、表格,并从
多个
页面
中
组合这两者
r
、
web-scraping
、
screen-scraping
、
purrr
、
rvest
我有一种情况,我想要在
不同
的
urls
上
抓取
多个
表。我确实设法
抓取
了一个页面,但是当我试图
抓取
页面并将表堆叠为dataframe/list时,我
的
函数就失败了。library(rvest)library(purrr)
urls
<- paste0("https:electdmemberdet/20
浏览 21
提问于2020-11-02
得票数 2
回答已采纳
2
回答
如何用R
中
的
几个页面
从
网站
中
抓取
特定
信息
r
、
function
、
web-scraping
我刚刚开始在R中进行网络
抓取
,我很难找到如何从一个有几个页面的网站
中
抓取
特定
的
信息
,而不必为每个个人url运行代码。到目前为止,我已经使用这个示例成功地完成了第一页
的
操作。我还设法使用以下代码根据分页编号生成
urls
:问题是集成它,并使用生成
的
urls
来获取我需要
的
信息
,使用一个函数并
浏览 7
提问于2020-12-05
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用 Python 和 Scrapy 半小时爬了10 个在线商店的网页
Python爬虫入门,快速抓取大规模数据6
爬虫之scrapy框架
你需要知道的………
python爬虫系列开发scrapy掌握(一)
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券