从多个url中抓取

从多个URL中抓取数据是一种常见的网络爬虫技术，用于从互联网上获取特定网页的内容。以下是关于从多个URL中抓取的完善且全面的答案：

概念：从多个URL中抓取是指通过编写程序自动化地访问多个URL，并提取所需的数据或信息。这种技术通常用于数据挖掘、信息收集、搜索引擎索引等应用场景。

分类：从多个URL中抓取可以分为两种主要类型：静态网页抓取和动态网页抓取。

静态网页抓取：静态网页是指内容在请求后不会发生变化的网页。静态网页抓取可以通过HTTP请求直接获取网页的HTML源代码，并从中提取所需的数据。
动态网页抓取：动态网页是指内容在请求后会根据用户的操作或其他条件发生变化的网页。动态网页抓取需要模拟浏览器行为，执行JavaScript代码，并通过解析DOM树获取所需的数据。

优势：从多个URL中抓取数据具有以下优势：

自动化：通过编写程序，可以自动化地从多个URL中获取数据，提高效率和准确性。
大规模处理：可以处理大量的URL，从而获取大量的数据。
实时更新：可以定期或实时地抓取URL中的数据，保持数据的最新状态。

应用场景：从多个URL中抓取数据的应用场景广泛，包括但不限于：

网络爬虫：用于搜索引擎索引、数据挖掘、舆情监控等。
数据采集：用于获取特定网站的数据，如商品价格、新闻内容等。
竞品分析：用于获取竞争对手的产品信息、价格等。
社交媒体监测：用于监测社交媒体上的话题、评论等。

推荐的腾讯云相关产品：腾讯云提供了一系列与数据抓取相关的产品和服务，包括：

腾讯云爬虫：提供了一站式的爬虫解决方案，包括数据抓取、数据处理、数据存储等功能。
腾讯云CDN：通过全球分布式节点，加速网页的访问速度，提高数据抓取效率。
腾讯云API网关：提供了API管理和调用的功能，可以方便地对多个URL进行批量抓取。
腾讯云数据库：提供了多种数据库产品，如云数据库MySQL、云数据库MongoDB等，用于存储抓取到的数据。

产品介绍链接地址：

腾讯云爬虫：https://cloud.tencent.com/product/crawler
腾讯云CDN：https://cloud.tencent.com/product/cdn
腾讯云API网关：https://cloud.tencent.com/product/apigateway
腾讯云数据库：https://cloud.tencent.com/product/cdb

我有12000个已知的URL，用Python抓取它们最快的方法是什么？

、、

因此，我有一个从数据库中提取的URL列表，我需要抓取和解析每个URL的JSON响应。一些URL返回null，而其他URL返回发送到csv文件的信息。我目前使用的是Scrapy，但它需要大约4个小时来抓取这12000个URL。我研究过像、和这样的东西，但我不确定它们是否适合我的用例，因为它们似乎是围绕着抓取网站上找到的URL。对于单机抓取的如此多的URL来说，4小时是“正常”时间吗？或者，有没有更适合我的包，当页面被抓取时，没有“关注”链接？

浏览 0提问于2020-08-25得票数 0

1回答

用Java存储数据。文本文件、csv或其他方法？

、、

我正在创建一个工具，用于从多个URL中抓取链接。我想要存储这些信息，然后测试刮过的链接的状态。我预计必须测试许多链接，大约6万。所以我的问题是决定如何存储要测试的链接。我想做的是为我将要抓取的URL创建文本文件。我必须为我要抓取的URL创建大约40个文本文件(我正在抓取的URL是相同的URL，只是区域化)。创建大量文本文件会导致性能问题吗？我最好将URL存储在数组中，然后将数组写入文本文件，还是应该在运行过程中将URL写入文本文件？还是有更好的方法？有比在文本文件中存储更好的方法吗？(我真的不想使用数据库，但如果有很好的理由，我可以相信)

浏览 1提问于2012-04-20得票数 0

回答已采纳

1回答

有什么好的亚马逊api，我可以用从产品的名称获得产品的详细信息吗？

、、、、

我正在构建一个项目，它要求我获取amazon产品的图片、价格和URL。每个用户都有自己的产品，其他用户可以看到其他用户的产品，而且我把所有的东西都保存在数据库中，所以我想要抓取数据，但是服务器上的内容太多了，无法在每个请求上进行抓取。因此，我试图找到一个API，可以从产品的关键字中获取产品URL、ProductImage和Product 。会很乐意帮忙的。

浏览 3提问于2020-12-28得票数 0

1回答

优化PHP刮板以避免500个服务器错误

、

我运行的PHP网络刮刀，从网上商店获取信息(免责声明，我有从商店这样做的许可)。刮刀有三种功能：从JSON文件中获取存储URL的列表(为了方便起见，假设我将一个URL传递给该函数) 函数getLinks抓取提供的URL页面上的所有链接，查找"next item“链接，转到它，从该页面抓取产品链接，依此类推。它将它们放入数组$allLinks中。我运行foreach ($allLinks as $key => $value) {getInfo($value);} 函数getInfo($value)转到每个产品URL，并从每个单独的产品页面获取产品信息。

浏览 2提问于2013-05-06得票数 0

1回答

如何在scrapy中合并多进程

、、

我正在尝试抓取：为了一次抓取和抓取多个页面，我使用了多进程 def parse(self, response): p = Pool(10) # Pool tells how many at a time print("in herre") self.product_url = response.xpath('//div[@class = "collection-grid js-filter-grid"]//a/@href').getall() print(self.product_url) reco

浏览 15提问于2019-08-17得票数 0

1回答

抓取PHP cURL和XPath，如何提高速度？

、、、

目前我正在使用PHP cURL和XPath进行抓取，但速度非常慢。每个网站都有许多使用Javascript的带有许多子页面的URL。一个网站将有30个产品类别，每个类别有大约70个子页面，每个页面上有10个项目。我用上面的代码总共刮掉了大约150个网页。一个脚本获取一个网站，并一次一个地从该页面中抓取所有URL。与此同时，另一个脚本正在运行，执行相同的操作。每个脚本获取一个URL，将数据提取到一个变量中，然后使用XPath抓取该变量，然后将值存储在DB中。许多页面使用带有微软ASP.NET视图状态的Javascript，所以需要执行许多循环才能从页面1跳到页面2，等等。一个脚本可

浏览 1提问于2011-07-25得票数 1

1回答

Facebook点赞facebook帖子的固定链接按钮

、

我想为Facebook的个人页面做一个像按钮的Facebook。例如：我从facebook开发人员页面获取代码，并将其放到my html中。我的网址：但引发了一个错误。因此，我尝试通过url Linter检查URL。上面写着"Facebook不能自己抓取。对不起！“ 有没有可能是我想做的？

浏览 0提问于2011-11-16得票数 0

回答已采纳

2回答

Python刮刀无法刮动img src

、、、、

我无法从www.kissmanga.com网站上抓取图片。我使用的是Python3和RequestandBeautiful外地库。刮过的图像标签为空白"src“。 SRC： from bs4 import BeautifulSoup import requests scraper = cfscrape.create_scraper() url = "http://kissmanga.com/Manga/Bleach/Bleach-634--Friend-004?id=235206" response = requests.get(url) soup2 = Bea

浏览 3提问于2015-07-15得票数 1

回答已采纳

1回答

刮取规则不调用解析方法。

、、

我是新刮刮，并试图抓取一个域，跟踪所有内部链接，并用模式/示例/*抓取网址的标题。爬行工作，但是由于输出文件是空的，所以标题的抓取不起作用。很可能我弄错了规则。这是正确的语法使用规则，以实现我想要的？ import scrapy class BidItem(scrapy.Item): url = scrapy.Field() title = scrapy.Field() spider.py import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import Crawl

浏览 1提问于2018-11-22得票数 1

回答已采纳

2回答

在硒上使用BeautifulSoup和Geckodriver有什么区别？

、、、

我现在刚接触到漂亮的汤和硒3的geckodriver，我正在做一个必须从网页中抓取URL的项目。我发现它们都是用于网络抓取，但无法得到两者之间的区别。BeautifulSoup和Geckodriver有什么区别？谢谢你的帮助。

浏览 0提问于2018-08-23得票数 2

回答已采纳

1回答

优化Web爬行

、、、

我正在开发一个快速的工具，可以从网页上抓取图像。目前，我使用WebClient获取页面的源数据，解析源中的图像URL，然后使用WebClient.DownloadFile将它们单独下载到一个文件夹中。这可能需要相当长的一段时间。我知道所需的大部分时间是由于我的连接和下载数据。有没有其他更有效的方法来做这件事，无论是C#超文本标记语言解析库还是其他什么？

浏览 0提问于2012-12-18得票数 0

回答已采纳

2回答

抓取蜘蛛从链接中随机抓取数据为什么？

、

首先，我从网站上抓取了所有的硬币链接，并要求那些链接。但是scrapy没有串行地请求从链接list.after请求这些链接抓取数据成功，但当保存到csv文件时，它使一个完整的抓取项目后每一次都是一个空行。我期待它将从链接列表中串行请求，它不会使任何空白row.how我能做到吗？我使用的是python 3.6和scrapy版本1.5.1 我的代码： import scrapy class MarketSpider(scrapy.Spider): name = 'market' allowed_domains = ['coinmarketcap.com

浏览 3提问于2018-12-02得票数 0

1回答

怎样才能让我用一只抓取的蜘蛛就能一直浏览一系列的站点呢？

、、

我写了从Python script.Now启动抓取爬虫的代码，我想要一致的绕过网站列表，即我为一个网站运行爬虫，当它完成抓取时，我关闭爬虫并重复调用另一个网站的爬虫。 from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings from datetime import datetime start_urls=['https://sentek.ru/','http://www.s-kab.ru/',https://sevkab.nt-

浏览 0提问于2019-04-27得票数 0

1回答

使用多台机器(使用不同的IP)抓取大量页面

、

我必须从几个网页中抓取信息，并使用BeautifulSoup + requests +线程。我创建了许多工作人员，每个工作人员从队列中获取一个URL，下载它，从HTML中抓取数据，并将结果放到结果列表中。是我的代码，我认为它太长了，不能直接粘贴在这里。但是我遇到了以下问题--这个网站的概率限制了每分钟来自一个IP的请求的数量，所以抓取变得没有它可能的那么快。但是有一个服务器有一个不同的IP，所以我想我可以利用它。我想为服务器创建一个脚本，用于侦听某个端口(带有套接字)并接受URL，对它们进行处理，然后将结果发送回我的主计算机。但我不确定是否有现成的解决办法，这个问题对我来说是很常见的。如

浏览 3提问于2015-10-07得票数 0

回答已采纳

1回答

如何使用scrapy抓取内层url？

、

我在看一些在线视频的时候创建了一个抓取蜘蛛。它从网站上抓取个人资料url。我想扩展这一点，以报废数据，如地址，姓名，电话，网站网址从每个配置文件网址抓取。我在考虑创建分离的刮板。一个用于抓取配置文件url。以及从抓取的第一url中抓取数据的第二个url。有没有其他的解决方案？这是我的爬虫，它抓取配置文件的urls。 # -*- coding: utf-8 -*- import scrapy from ..items import ...scraperItem class SpiderSpider(scrapy.Spider): name = 'spider'

浏览 22提问于2019-04-14得票数 1

回答已采纳

1回答

PCollection中的项目数不会影响已分配的工作进程数

、、、

我有一个包含三个步骤的管道。在第一步中，它是接受PCollection中的5个urls的ParDo。这5个项目中的每一个都会生成数千个urls并输出。所以第二步的输入是另一个PCollection，大小可以是100-400k。在最后一步中，每个url的抓取输出被保存到存储服务中。我注意到，从5个输入url中生成url列表的第一步分配了5个工作进程，并生成了一组新的url。但是，一旦第一步完成，所有的工作进程都不会减少并达到1。当第二步运行时，它只在一个工作进程中运行(有一个进程，我的数据流已经运行了2天，所以通过查看日志，我做出了一个合理的假设，即第一步已经完成)。所以我的问题是，尽管P

浏览 25提问于2020-11-05得票数 0

2回答

IMPORTXML没有页眉、导航和页脚

、、、

我使用=importxml("URL-TO-SCRAPE";"//html//body//text()")来抓取urls的文本。然而，这样的内容从页眉，导航和页脚也包括在内。我怎么能排除这个？

浏览 7提问于2022-11-09得票数 0

1回答

Scrapy:如何构建一个从多个URL收集信息的项目？

、、、

在不情愿地编写了几年的代码后，我发现了，我几乎把它当做今年给自己的圣诞礼物！它的使用很自然，而且似乎是为了让几乎所有东西都变得优雅和可重用而构建的。但我正处于一种不确定如何处理的情况:我的爬虫爬行并抓取一个列表页面A，我从该页面生成一组条目。但对于每个项目，我需要获取一个不同的互补链接(从一些抓取的信息构建，但不是明确的页面上Scrapy可以遵循的链接)，以获得额外的信息。我的问题分为两个部分:在抓取过程之外获取URL的协议是什么？如何以一种优雅的方式从多个来源构建项目？这个问题已经在StackOverflow上的中得到了部分询问(并得到了回答)。但我更感兴趣的是Scrapy的哲学在这个

浏览 0提问于2012-08-05得票数 4

回答已采纳

3回答

使用nutch抓取PDF文档

、

我也必须从给定的URL抓取PDF文档...推荐任何工具/API来抓取PDF文档...现在我正在使用nutch抓取，但我不能抓取PDF从给定的URL...should我使用任何插件抓取PDF在nutch？ seed.txt --> regex-urlfilter.txt->+^ 提前感谢

浏览 1提问于2013-08-05得票数 3

1回答

如何使用python抓取多页网站并将数据导出到.csv文件中？

、、

我想使用python抓取以下网站，并需要将已抓取的数据导出到CSV文件中：该网站包括154页的相关搜索。我需要调用每个页面，并希望刮取数据，但我的脚本无法连续调用下一个页面。它只刮一页数据。在这里，我给值i<153，因此，这个脚本只运行154页，并给了我10个数据。我需要从第一页到第154页的数据如何在运行脚本后从所有页面抓取全部数据，以及如何将数据导出为CSV文件？？我的脚本如下 import csv import requests from bs4 import BeautifulSoup i = 0 while i < 153: url =

浏览 2提问于2016-07-24得票数 0

1回答

Python段错误，使用pyqt4

、、、、

我写了一段代码来抓取一个网页，它实际上是用一个url来工作的，但是一旦我在.txt中放入超过2个url，就会告诉我“分割错误”。我不知道问题出在哪里。任何帮助都将不胜感激。 import sys import time import gc from bs4 import BeautifulSoup from PyQt4.QtGui import * from PyQt4.QtCore import * from PyQt4.QtWebKit import * class Render(QWebPage): def __init__(self, url): self

浏览 0提问于2015-11-13得票数 4

1回答

在Java中快速获取网站数据的方法

我正在尝试编写一个利用Wikipedia API的程序。据我所知，使用该应用程序接口的最简单方法是使用所请求的命令访问HTTP页面，例如，在“苹果”维基百科文章中查找所有链接。我想在我的Java程序中实现这样的命令，所以我创建了以下代码片段来从HTTP页面获取数据： URLConnection connection = null; // Connection to the URL data InputStreamReader iSR = null; // Stream of the URL data BufferedReader bR = null;

浏览 3提问于2017-04-30得票数 0

2回答

循环调用apply抛出错误的函数

、、

我正在尝试从多个页面中抓取表格。我已经写了一个接受urls列表的函数： head(url2) [1] "http://www.fake URL1/WordDocuments.htm" [2] "http://www.fake URL2/WordDocuments.htm" [3] "http://www.fake URL3/WordDocuments.htm" [5] "http://www.fake URL4/WordDocumentS.htm" [6] "htt

浏览 1提问于2016-01-21得票数 1

2回答

使用多线程卷曲

、、

我正在使用cURL从URL抓取数据。 for ($i = 0; $i < 1000000; $i++) { $curl_handle = curl_init(); curl_setopt($curl_handle, CURLOPT_URL, 'http://example.com?page='.$i); curl_exec($curl_handle); curl_close($curl_handle); // some code to save the HTML page on HDD } 我想知道有没有什么方法可以加速这个过程

浏览 1提问于2014-11-05得票数 0

1回答

从r中的多个urls中进行from抓取

、

我正在尝试从多个urls中抓取表。我使用以下代码从单个url中抓取表： library(tidyverse) library(rvest) url='https://uboat.net/allies/commanders/1.html' read_html(url) %>% html_element('table.table_subtle') %>% html_table 然而，我想这样做的50个urls，编号顺序从1-50。有什么快捷的方法吗？

浏览 4提问于2022-08-05得票数 0

回答已采纳

1回答

使用simlpeXML和php解析许多远程文件的最佳方法

、、

我有一个脚本，循环通过许多基于url的XML文件来比较值。目前有超过50个独立的XML文件，但这个数字将增长到数百个。比较值很简单，可以从字符串中检索。 XML文件结构良好，很小，10-26KB，我只从基于url的API中抓取1-2个值。例如： foreach(); //loop starts, left out details $value1 = "some_number"; //load all the xml $request_url = "example.com/file.xml"; $request_url = urlencode($reque

浏览 1提问于2011-04-01得票数 0

回答已采纳

1回答

用漂亮的汤抓取网络来寻找动物

、、

我试着从搜索引擎网站上抓取一只狗，在我的例子中它是一只博美拉尼亚狗，我不确定应该在soup.find_all中出现什么这是我所做的： url = "https://www.winwin.co.il/Animals/Search/SearchResults/AnimalPage.aspx?search=f1b130870fcd32672a71e39ae8e26898" response = requests.get(url) data = response.text soup = BeautifulSoup(data,'html.parser')

浏览 13提问于2019-10-24得票数 0

1回答

用烧瓶和刮水器进行交互式刮擦

、、、

我正在使用烧瓶和抓取刮从网站的结果。在这里，烧瓶网页是能够获取输入URL被刮，然后开始爬行。在此之前，一切都很好。现在，我想让这个Flask网页以HTML标签(它包含一些要被抓取的项目的信息)作为输入，并且基于输入标签的结果应该被抓取。简单地说，用户可以决定哪些项目应该报废，即项目应该被选择dynamically.Provide我有一些想法，我如何传递这些标签来设置在项目类别中要刮的项目？

浏览 1提问于2015-08-18得票数 0

回答已采纳

3回答

如何使用Python Pandas Lib设置For循环来读取URL列表并抓取数据

、

这是我的第一个Python脚本。我目前正在尝试从多个url中抓取嵌入到HTML表中的数据，这些url位于一个名为url-list.txt的文件中。我已经成功地使用Python的Panda库从一个页面中抓取了所需的数据，然而，我正在尝试执行一个简单的for循环，从url-list.txt文件中加载每个url，以便从剩余的100个左右的url中抓取数据。这是我到目前为止所得到的。您可以看到我在for循环中的尝试被注释掉了。任何帮助都将不胜感激。 import bs4 as bs import urllib.request import pandas as pd #url_list = "

浏览 4提问于2019-06-08得票数 0

2回答

在Python3中使用多处理的Web爬虫

、、、、

我基本上试图得到与下面的代码相同的结果，但使用了多进程。下面的代码是一个基本的网络爬虫，它打印给定网站内的所有URL。我希望能够检查新的网址从多个网站一次使用多个进程。我有一个单独的web抓取脚本，它使用pools和apply_async一次抓取多个站点，但我从URL的静态列表开始。然后我有这个脚本，它一次迭代一个站点，以获得一个非重复URL的完整列表。不过，我想不出怎么才能两全其美。因为我的URL列表不是静态的(它是随着新的URL被添加到其中的)，所以我不知道如何遍历它并使用apply_async返回结果。我已经读过了，我觉得队列可能是解决方案的关键，但我已经尝试了所有方法，但都不能正常工

浏览 0提问于2014-02-13得票数 0

1回答

使用任务并行库一次抓取多个Urls

、

我想使用多个URL爬行数据，并将数据存储在SQLite中，如果我使用并行的话。对每个循环调用或并行，也可以爬行URL并获取数据。我对如何执行项目的这一部分感到困惑。我也在为如何开始我的项目的这个部分而挣扎，这个部分实际上是在一个网站中从不同语言中抓取文章。

浏览 3提问于2022-04-07得票数 0

2回答

带正则表达式的Java String.split()

、、、、

我有一个解析问题。我的句子被储存成字符串。我想抓取每个句子中的每个单词，但是我想过滤我抓取的单词。例如，假设我有如下句子： Hell0 3v3ryb0dy @ stackoverflow $people \意味着皇后$= ~queen -> ~people。/#logic 我要做以下几点：抓取“H3ll0” 抓取3v3ryb0dy 扔掉@ 从'$people‘抓取'people’ 抓取‘暗示’从‘\暗示’ 从‘皇后$’抓取‘皇后’ 抓住‘等价物’ 从“~皇后”抓取“女王” 扔掉-> 从“~人”抓取“人” 从‘/#

浏览 1提问于2012-11-05得票数 1

回答已采纳

2回答

Scrapy:为每个start_url动态生成规则

、、

我已经创建了一个蜘蛛，它应该爬行多个网站，我需要为start_url列表中的每个URL定义不同的规则。 start_urls = [ "http://URL1.com/foo" "http://URL2.com/bar" ] rules = [ Rule (LinkExtractor(restrict_xpaths=("//" + xpathString+"/a")), callback="parse_object", follow=True) ] 规则中唯一需要更改的是restrict_

浏览 5提问于2016-06-05得票数 1

回答已采纳

1回答

搜索结果后，屏幕抓取/Web抓取url不会更改

、、

我正在做一个网络抓取项目，我需要我的“开始”页面开始刮。当导航到这样的URL时：和我输入我的数据(因为我想将搜索结果页面传递到我的屏幕抓取程序)。当搜索结果(页面)返回时，URL没有改变。我如何从搜索结果页面获得URL，或者模仿“搜索”来获取屏幕抓取程序中的搜索结果页面？

浏览 1提问于2014-01-28得票数 0

回答已采纳

1回答

如何使Facebook共享Wordpress上url中的特征子宫图像

、

我使用这个函数来添加来自wordpress "是否可以设置带有外部图像URL的特征图像？“上的url的特色图片，但是当我在Facebook上分享这篇文章时，Facebook不会从url抓取特征图像，它会从侧边栏或相关内容中获取任何图像。我添加了元标签，但没起作用。我认为它需要一个功能来告诉Facebook从url抓取特征图像。

浏览 0提问于2015-10-20得票数 0

1回答

连接URL和抓取数据时出现问题

、

我尝试在python中附加一个URL，以便从目标URL中抓取详细信息。我有下面的代码，但它似乎是从url1而不是网址抓取数据。我已经从NFL网站上抓取了球队的名字，没有任何问题。问题出在spotrac URL上，我在其中添加了我从NFL网站上抓取的球队名称。 import requests from bs4 import BeautifulSoup URL ='https://www.nfl.com/teams/' page = requests.get(URL) soup = BeautifulSoup(page.text, 'html.parser

浏览 3提问于2020-08-14得票数 0

1回答

在PHP中可以从字符串的开头获取图像URL吗？

、、、

我有一个示例字符串，如下所示 $string = ' http://image.gsfc.nasa.gov/image/image_launch_a5.jpg http://pierre.chachatelier.fr/programmation/images/mozodojo-original-image.jpg http://image.gsfc.nasa.gov/image/image_launch_a5.jpg Alot of text http://www.google.com/intl/en_ALL/images/logos/images_logo_lg.gif mo

浏览 0提问于2012-06-24得票数 1

回答已采纳

1回答

使用R在多个页面上进行Web抓取

、

我正在尝试使用R中的以下url来抓取产品的评论。当我运行下面的代码时，我能够获得单个评论被抓取。 comment<- read_html("https://www.influenster.com/reviews/chobani-greek-yogurt") comment %>% html_node(".content-item-text") %>% html_text() comment %>% html_node(".date") %>% html_text() 但是，当我使用下面的代码抓取多个页面上的多个注释时

浏览 10提问于2017-06-27得票数 0

1回答

如何在python中使用selenium点击<a>标签？

、、

我刚接触网络抓取，我正在尝试从亚马逊上抓取评论。在亚马逊上打开一个特定产品的页面后，我想点击“查看所有评论”按钮。我检查了页面上的元素，我发现see all reviews按钮有这样的结构 structure 所以我尝试使用类名a-link-emphasis a-text-bold来查找这个元素。这是我写的代码 service = webdriver.chrome.service.Service('C:\\coding\\chromedriver.exe') service.start() options = webdriver.ChromeOptions() #opti

浏览 203提问于2021-04-03得票数 1

回答已采纳

1回答

登录页面上的抓取内容未通过管道传递

我有一个elasticsearch管道，它将索引所有抓取的内容到elasticsearch。我的问题是从start_urls页面抓取的内容被编入了索引。这些数据甚至没有通过我的elasticsearch管道传递。我遗漏了什么？在scrapy中有什么设置可以实现它吗？scrapy是否只考虑从start_url页面抓取页面中的抓取内容？

浏览 0提问于2014-08-26得票数 0

2回答

抓取一个要求他们先给你会话cookie的网页

、、、

我正试着从一个政府的“集合名单”数据库中抓取一个excel文件。但是，我必须访问此excel文件的URL：要求我将来自政府网站的会话cookie附加到请求。我如何抓取初始请求到登录页面的会话cookie (当他们给你会话cookie时)，然后用它点击上面的URL来抓取我们的excel文件？我在使用Python的Google App Engine上。我试过这个： import urllib2 import cookielib url = 'http://nrega.ap.gov.in/Nregs/FrontServlet?requestType=HouseholdInf_eng

浏览 7提问于2012-03-18得票数 5

回答已采纳

1回答

如何使用preg_match_all组合两个抓取的变量？

我使用preg_match_all从另一个页面抓取urls和标题，抓取是可以的，但我不能使用foreach将它们放入其中！或者，有没有其他方法来代替foreach？ //gets URLs of href='xxxx' preg_match_all('/a href="([^"]+)" class=l.+?>.+?<\/a>/',$sear,$results); //gets titles of >xxxx</a> preg_match_all('/a href="

浏览 1提问于2012-05-05得票数 0

回答已采纳

1回答

Scrapy不跟随提取的链接

、、、

Scrapy不遵循抓取的链接。当我调用这个函数时，它应该从之前抓取的链接中提取详细信息，但它不起作用，而是从start_urls中抓取内容。 import scrapy class OlxSpider(scrapy.Spider): name = 'olx' start_urls = ['https://www.olx.pl/nieruchomosci/mieszkania/wynajem/wroclaw/'] allowed_domains = ['www.olx.pl'] def parse(self,

浏览 2提问于2021-04-17得票数 0

1回答

为从另一个爬行器抓取的start_requests提供URL值

、、

我完全是python和scrapy的新手。我正在尝试创建一个抓取器，它将首先清除URL，获取所有要抓取的URL，并将URL值逐个获取到另一个抓取器，然后获取实际所需的数据。到目前为止，我有两个独立的爬行器获取这些值并将其保存到一个文本文件中。然后第二个爬虫从文本文件中抓取URL。但是，有没有办法让第一个爬行器调用第二个爬行器，一个接一个地提供URL，而不是将其存储在外部文件中，并在URL获取结束后手动触发它？在这方面的任何帮助都将非常感谢。

浏览 29提问于2019-03-07得票数 0

回答已采纳

1回答

如何从python抓取的URL列表中抓取数据？

、、、

我正在尝试使用Orange中的BeautifulSoup4从同一网站抓取的URL列表中抓取数据。当我手动设置URL时，我已经成功地从单个页面中抓取了数据。 from urllib.request import urlopen from bs4 import BeautifulSoup import requests import csv import re url = "https://data.ushja.org/awards-standings/zone-points.aspx?year=2021&zone=1&section=1901" req =

浏览 21提问于2021-07-23得票数 1

回答已采纳

2回答

从整个web上抓取数据

我需要开发一个抓取工具，从整个网络上抓取产品的数据(价格，标题等)。现在，我确实有抓取的经验，但这是一个单一的网站。我不知道如何抓取整个网络。一种可能的解决方案是查询google，然后从google中出现的链接中抓取每个网站。这是一种好的方法吗？我只需要一个通用的方法，你将如何解决这个问题，因为在我看来，每个网站可能有自己的方式来表示数据。如何合并所有这些变体？有什么指导/小贴士吗？

浏览 0提问于2012-04-14得票数 1

回答已采纳

1回答

一个浏览器中的多个页面与木偶剧中多个浏览器中的多个页面之间的差异

、

我正在使用puppeteer从网站上抓取内容，我需要打开多个页面。我想知道一个浏览器中的多个页面和多个浏览器中的多个页面有什么不同？

浏览 1提问于2017-10-13得票数 0

1回答

使用Python PyQt对Javascript内容进行网页抓取

、、、

我现在正在执行一项任务，系统地从似乎是由javascript呈现的课程列表中抓取内容。我在web上使用PyQt4遵循了一些脚本，但失败了(我在下面复制了它)。更准确地说，这个脚本在一些网站上使用javascript，它通过点击特定的链接来加载内容。然而，下面的网站(ouhk，我在下面的脚本中复制的链接)似乎没有指向特定内容的链接，即节目信息、节目结构和费用等。相反，它使用标签容器和FTP来存储和加载信息(我从其源代码中找到)。我想知道是否有任何方法可以修改以下脚本，以便我可以使用PyQt4抓取这些内容，或者我必须寻找其他方法来实现此目的？ import sys from PyQt4.Qt

浏览 17提问于2016-09-21得票数 3

0回答

Scrapy跟随链接未获取数据

、、

我试图用一个简单的抓取蜘蛛来跟踪一个链接列表，并从每个链接中删除数据，但我遇到了麻烦。在scrapy shell中，当我重新创建脚本时，它会发送新url的get请求，但是当我运行爬网时，我没有从链接中得到任何数据。我得到的唯一数据是从链接之前抓取的起始url。如何从链接中抓取数据？ import scrapy class QuotesSpider(scrapy.Spider): name = "players" start_urls = ['http://wiki.teamliquid.net/counterstrike/

浏览 4提问于2017-11-26得票数 0

回答已采纳

1回答

如何使用不同的URL重试失败的抓取？

、

我有一个功能刮刀，从数据库中抓取大量网站，并将结果读取到相同的数据库中。我从数据库中获取域，并手动附加。在网址上。即使这个url不正确，绝大多数站点都可以正确地重定向爬行器，但是对于一些站点，我得到了一个DNSLookup错误，因为没有重定向，即使该站点明显存在并且可以通过浏览器访问。我的问题是，有没有办法重试获得DNSLookup错误的抓取，但使用不同的URL？我目前在errback中处理我的错误，我根据我得到的错误类型将必要的信息插入到数据库中。有没有办法从抓取结果中请求新的抓取？

浏览 0提问于2019-04-08得票数 1