从结构不同的多个URLS中抓取信息_如何从以前抓取的urls中抓取图像(嵌套urls)_R从多个唯一的urls中抓取表 - 腾讯云开发者社区

python、web、web-scraping、beautifulsoup

我想刮多个网址，但他们是不同的性质，如不同的公司网站与不同的html后端。有没有一种方法可以做到这一点，而不需要为每个url提供定制的代码？我知道我可以将多个URLS放到一个列表中并循环它们

浏览 15提问于2021-05-11得票数 1

1回答

scrapy中的动态start_urls

web-crawler、scrapy

我正在使用scrapy在一个网站上抓取多个页面。变量start_urls用于定义要爬行的页面。我最初会从第一页开始，因此在文件example_spider.py中定义start_urls = [1st page] 在从第一页获得更多信息后，我将确定下一页将被抓取，然后将相应地分配start_urls因此，我必须用对start_urls = [1st page, 2nd page, ..., Kth

浏览 1提问于2012-01-10得票数 12

回答已采纳

1回答

如何为父网站和独立文件夹结构化网站创建站点地图？

seo、sitemap、analytics

我们正在考虑创建一个父和子站点文件夹结构，并且我们不确定如何最好地为这些独立的安装创建一个站点地图，这些安装都位于一个主站点名下。其中将有一个由Magento eCommerce制作的商店作为一个单独的文件夹从视频共享PHP安装生成的视频共享文件夹： www.MyWebsite.com虽然对SEO的限制意味着文件夹结构将优化我们网站的SEO格式。假设它们都是独立的</e

浏览 0提问于2016-08-26得票数 0

回答已采纳

2回答

我如何知道哪个浏览器被用来在Scrapy框架中爬行？

python、selenium、web-scraping、scrapy、web-crawler

我的背景是：正如你所知道的，Chrome，Firefox，Safari上的网站HTML结构是非常不同的。因此，当我使用CSS-Selector从HTML结构中获取元素标记中的数据时，有时这个标记已经在Chrome浏览器中有了，而另一个则没有。因此，我只想专注于一个浏览器，以减少我的工作量。当我使用Scrapy框架从urls抓取</e

浏览 0提问于2018-12-05得票数 0

回答已采纳

1回答

从正在抓取的页面上的链接检索信息

python、scrapy、hdf5

我在一个众筹论坛中收集项目，并将数据保存在hdf5文件中。class ExperimentScraperSpider(scrapy.Spider): allowed_domains= ['pr

浏览 0提问于2017-10-03得票数 2

2回答

在Scrapy中一次生成多个项目

python、web-scraping、scrapy

如何同时生成多个项目？我正在抓取一个URLS列表，其中每个URLs都有大约10-20个嵌套的URLs。我从每个嵌套的URL中抓取需要生成的10项信息。有没有办法同时生产10件商品？也许是通过一个列表，或者我附加每一项，然后在最后生成所有项的东西？我不太确定该怎么做。有什么建议吗？代码示例： na

浏览 16提问于2020-07-30得票数 0

回答已采纳

3回答

我有12000个已知的URL，用Python抓取它们最快的方法是什么？

python、web-scraping、scrapy

因此，我有一个从数据库中提取的URL列表，我需要抓取和解析每个URL的JSON响应。一些URL返回null，而其他URL返回发送到csv文件的信息。我目前使用的是Scrapy，但它需要大约4个小时来抓取这12000个URL。我研究过像、和这样的东西，但我不确定它们是否适合我的用例，因为它们似乎是围绕着抓取网站上找到的URL。对于单机抓取的如此多的

浏览 0提问于2020-08-25得票数 0

1回答

从多个网页中抓取urls

html、python-3.x、web-scraping、beautifulsoup

我试图从多个网页中提取URL(在本例中为2)，但出于某种原因，我的输出是从第一页提取的URL的重复列表。我做错了什么？我的代码：urls = [] baseUrl = 'https://www.goodreads.comstartswith('/author/

浏览 0提问于2020-05-28得票数 0

回答已采纳

1回答

从r中的多个urls中进行from抓取

r、web-scraping

我正在尝试从多个urls中抓取表。我使用以下代码从单个url中抓取表：library(rvest) html_element('table.table_subtle') %>

浏览 4提问于2022-08-05得票数 0

回答已采纳

1回答

使用rvest抓取多个URL

html、r、screen-scraping、rvest

在rvest中使用read_html时如何抓取多个urls？目标是从相应的urls中获得一个由文本主体组成的单个文档，以在其上运行各种分析。我尝试连接urls： page <-read_html(url)

浏览 8提问于2020-02-25得票数 1

回答已采纳

1回答

使用rvest和for循环进行高效抓取

r、for-loop、web-scraping、rvest

我正在尝试使用rvest来收集大量的辩论。辩论发生在不同的网页上，我从搜索结果中收集这些网页的urls。有超过1000页的搜索结果，其中有20,000页的辩论(即20,000个urls)。我目前的方法成功地从辩论页面中抓取了我需要的数据，然而，对于任何超过20页的搜索结果(即20,000个urls</e

浏览 18提问于2019-12-11得票数 1

1回答

抓取不同深度的多个起始urls

python、scrapy

我正在尝试让scrapy0.12在爬行器的start_urls变量中为不同的url修改它的“最大深度”设置。如果我正确理解了文档，那是不可能的，因为DEPTH_LIMIT设置对于整个框架来说是全局的，并且没有“来自初始请求”的概念。有没有办法绕过这一点？有没有可能用每个起始url和不同的深度限制初始化同一个爬行器的多个实例？

浏览 0提问于2011-10-23得票数 1

3回答

如何从多个urls中刮取数据并将这些数据保存在同一个csv文件中？

python、loops、web-scraping、beautifulsoup、python-requests

我正在使用beautifulsoup来抓取数据。有多个urls，我必须将我从这些urls中抓取的数据保存在同一个CSV文件中。当我试图从不同的文件中抓取并保存到相同的CSV文件时，我在CSV文件中刮到的最后一个url中的数据就在那里了。下面是我从其中抓取数据

浏览 17提问于2022-09-05得票数 0

回答已采纳

2回答

如何使用preg_match_all获取页面中的特定部分

php

你好，我使用preg_match_all函数来抓取页面上的内容，但是当我试图抓取一些特定的部分时，比如细节部分，它会给我一个数组！该页面上的代码结构是以前，对于grab urls n标题，我使用了如下代码

浏览 0提问于2012-05-05得票数 0

回答已采纳

1回答

从多个搜索结果中抓取信息

r、web-scraping、rvest

我可以得到每个配置文件的URL，但我不知道如何从每个配置文件中抓取信息并将其放入表中这并不违反他们的使用条款，但网站也没有API。我能够从搜索结果的所有页面中提取每个配置文件的URL，然后将它们粘贴到域名。但是，我只能对一个页面的结果执行此操作，并且无法按照这些URL从

浏览 0提问于2021-03-12得票数 0

1回答

是否有类似队列的数据库能够很好地处理并发性？

python、database、amazon-ec2、web-scraping

我有一台服务器，其工作是通过给定的urls下载网页。它始终从同一个集群中的多个服务器接收urls。为此，我考虑使用类似队列的数据库来接收来自不同服务器的urls，而且数据库也应该确保处理并发性。其他服务器不断向数据库提供urls，此服务器上的程序将抓取这些urls，然后下载网页。是否有类似队列的数据库可以完成这

浏览 5提问于2014-10-08得票数 0

回答已采纳

1回答

Scrapy不跟随提取的链接

python、web-scraping、scrapy、data-extraction

Scrapy不遵循抓取的链接。当我调用这个函数时，它应该从之前抓取的链接中提取详细信息，但它不起作用，而是从start_urls中抓取内容。import scrapy name = 'olx' start_urls = ['https://www.olx.plmies

浏览 2提问于2021-04-17得票数 0

1回答

Scrapy:如何开始从使用Javascript的搜索结果中抓取数据

python、web-scraping、scrapy

我是新手使用scrapy和python我想开始从搜索结果中抓取数据，如果你会加载页面默认内容将会出现，我需要抓取的是过滤后的内容，同时做分页？下面是我需要从时间过滤器中抓取项目的URL："Today“我所做的就是这些，但更多的是关于布局结构。class TmcnfSpider(scrapy.Spider): name

浏览 1提问于2019-05-10得票数 0

2回答

使用Rvest抓取文本、表格，并从多个页面中组合这两者

r、web-scraping、screen-scraping、purrr、rvest

我有一种情况，我想要在不同的urls上抓取多个表。我确实设法抓取了一个页面，但是当我试图抓取页面并将表堆叠为dataframe/list时，我的函数就失败了。library(rvest)library(purrr) urls <- paste0("https:electdmemberdet/20

浏览 21提问于2020-11-02得票数 2

回答已采纳

2回答

如何用R中的几个页面从网站中抓取特定信息

r、function、web-scraping

我刚刚开始在R中进行网络抓取，我很难找到如何从一个有几个页面的网站中抓取特定的信息，而不必为每个个人url运行代码。到目前为止，我已经使用这个示例成功地完成了第一页的操作。我还设法使用以下代码根据分页编号生成urls：问题是集成它，并使用生成的urls来获取我需要的信息，使用一个函数并

浏览 7提问于2020-12-05得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云