将链接中的数据与主页中的数据同时抓取到scrapy中_将数据文件中的数据读取到R数据帧中_将JSON文件中的数据提取到c中的结构中 - 腾讯云开发者社区

python、scrapy、web-crawler、scrapy-spider

因此，我尝试使用CrawlSpider并理解中的以下示例： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class MySpider(CrawlSpider): name = 'example.com' allowed_domains = ['example.com'] start_urls = ['http://www.example.com'] r

浏览 1提问于2017-06-13得票数 11

回答已采纳

1回答

使Scrapy仅爬爬子链接

python、web-scraping、scrapy

我有以下Scrapy代码，我使用它来尝试在代码中仅从网站抓取英超联赛数据： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import Selector from scrapy.item import Item from scrapy.spider import BaseSpider from scrapy import log from scrapy.cmdlin

浏览 3提问于2014-07-19得票数 2

1回答

python scrapy在尝试使用参数时找不到爬行器

python、scrapy

我已经成功地创建了一个蜘蛛检索一个域的每个网页的链接。我也想做同样的事情，但是对于和我托管的域一样多的域，我更喜欢使用我的爬行器，简单地将它添加为要监视的域的参数。文档解释说，我们应该显式地定义构造函数并在其中添加参数，然后使用scrapy crawl myspider命令启动爬行器。下面是我的代码： class MySpider(BaseSpider): name= 'spider' def __init__(self, domain='some_domain.net'): self.domain = domain

浏览 0提问于2012-10-09得票数 0

1回答

按html标记值计算的刮取链接提取器

recursion、scrapy、tags

我使用抓取来抓取隐私政策，从它的主页抓取一个网站，我想智能地抓取包含特定关键字的页面中的特定链接(隐私、数据、保护等)。我看到了scrapy的CrawlSpider和对象只允许这样做，但是，我希望不仅对已发现的链接应用正则表达式，而且还要应用到<a></a>标记中的文本例如，为了更好地查明以下情况： <a href="http://example.com/legal">Check out our privacy policy</a> 其中，URL可能不是一个完美的匹配，但是HTML标记中的文本更有帮助。我看到scrapy的L

浏览 0提问于2019-06-05得票数 0

回答已采纳

1回答

如何使用Scrapy在链接之间导航？

python、web-scraping、scrapy

我想从网站获取数据，但为了获取数据，我必须从主页访问链接，然后获取数据，之后我需要返回主页，然后重复访问链接的循环，获取数据，然后返回。我知道如何访问链接和获取数据，但我想知道如何访问其他链接，并在访问第一个链接后返回到我所在的位置。下面是我目前编写的代码： # -*- coding: utf-8 -*- import scrapy class SsFamilleSpider(scrapy.Spider): name = 'ss_famille' allowed_domains = ['rexel.fr'] start_urls

浏览 7提问于2019-03-04得票数 0

回答已采纳

1回答

用于抓取链接内内容的xpath问题

web-scraping、xpath、scrapy

我开始学习scrapy，我想知道如何在excel文件中获得每个州的学校信息。每个状态都是一个指向另一个页面的链接，我不确定如何为此编写xpath语法。请给我建议。 import scrapy class RaisemeSpider(scrapy.Spider): name = 'raiseme' allowed_domains = ['raise.me/high-school'] start_urls = ['http://raise.me/high-school/'] def parse(self, respo

浏览 5提问于2021-03-20得票数 0

1回答

scrapy Redis无法连接到AWS

amazon-web-services、amazon-ec2、redis、amazon-elasticache

我有两个运行Scrapy的Ubuntu EC2实例，它们都使用scrapy来控制dupe。我正在尝试使用ElastiCache红宝石作为刮红店。我有完全相同的设置在不同的AWS帐户，它运行良好。我试图复制一个新帐户的设置，它将无法工作。两个EC2实例和ElastiCache实例都在同一个VPC中，我遵循这篇文章允许安全组从Scrapy实例访问ElastiCache。您可以看到下面的设置： 📷 ElastiCache实例位于选定的安全组中；其他两个组是两个Scrapy EC2实例。这个问题被隔离到Scrapy，因为我可以使用redis-cli连接到两个Scrapy框中，并且没有问题。我的set

浏览 0提问于2019-06-01得票数 0

1回答

刮擦蜘蛛不跟随链接

python、scrapy、scrapy-spider

我正在写一只抓取蜘蛛，为今天的“纽约时报”的文章从主页上爬行，但出于某种原因，它没有跟随任何链接。当我在scrapy shell http://www.nytimes.com中实例化链接提取器时，它成功地用le.extract_links(response)提取了一个文章urls列表，但是除了主页之外，我无法获得爬行命令(scrapy crawl nyt -o out.json)来抓取任何东西。我有点不知所措了。是因为主页不产生解析函数的文章吗？任何帮助都是非常感谢的。 from datetime import date

浏览 4提问于2015-06-18得票数 3

回答已采纳

4回答

从包含正则表达式的urls中抓取

url、expression、scrapy

我一直在尝试从网站上抓取数据。我想从一些我不知道名字的网站上的老师那里得到信息。每个老师在网站上都有一个遵循一定规律的页面。举个例子，这个老师Lois Bank存储在：。所以模式是老师的名字，斜杠，一个数字，破折号t。在我尝试使用CrawlSpider使用正则表达式从主页爬行之前，因为我试图访问的页面没有链接到主页，所以它不起作用，访问它们的唯一方法是在搜索框中搜索老师的名字。我试着写了下面的爬虫，但它不能工作： from scrapy.selector import HtmlXPathSelector from scrapy.contrib.linkextractors.sgml im

浏览 0提问于2011-06-28得票数 0

1回答

在刮伤之间保存饼干

scrapy

我每天从一个网站收集数据。每天我运行刮刮，第一个请求总是被重定向到网站主页，因为它似乎还没有设置任何cookie。然而，在第一个请求之后，scrapy收到了cookie，从那时起就可以正常工作了。然而，这使我很难使用工具，如“刮除视图”等与任何特定的网址，因为网站将始终重定向到主页，这是刮刮将打开在我的浏览器。 scrapy可以保存cookie并指定在所有擦伤中使用它吗？我可以指定使用它与刮目相看等。

浏览 2提问于2014-08-02得票数 5

1回答

scrapy.spider或爬虫适合这个任务吗？

python、web-scraping、scrapy、web-crawler

我正在尝试使用python的Scrapy包来抓取足球运动员的数据。我正在刮的网站有这样的格式 -我会把它称为“主页” 在这里，有一个球员在联赛中的名单。要获得我正在寻找的数据从主页开始，我必须点击球员的名字，它带我到一个“概述”页面的球员，其中有我需要的数据。要获取我想要为第二个播放器抓取的数据，我必须返回到主页，然后单击第二个播放器的名称，然后再将数据>复制到主页，然后单击第三个播放器的名称等等。那么，我应该如何在Scrapy中完成这个任务呢？我应该使用scrapy.spider还是爬行蜘蛛？我如何告诉刮刮，我想进入一个特定的页面(球员的概述页面)，并在主页上的所有球员的名单存在，这

浏览 9提问于2022-09-17得票数 -1

1回答

我在Scrapy的CrawlSpider不遵守规则

python-2.7、scrapy、scrapy-spider

我在Scrapy v1.0.5中很难让我的蜘蛛工作： class MaddynessSpider(CrawlSpider): name = "maddyness" allowed_domains = ["www.maddyness.com"] start_urls = [ 'http://www.maddyness.com/finance/levee-de-fonds/' ] _extract_article_links = Rule( LinkExtractor( allow=( r&

浏览 2提问于2016-04-28得票数 1

回答已采纳

3回答

Scrapy是单线程还是多线程？

python、multithreading、scrapy、web-crawler

在Scrapy中几乎没有并发设置，比如。这是否意味着Scrapy crawler是多线程的？所以如果我运行scrapy crawl my_crawler，它会同时并行地触发多个请求吗？我问这个是因为，我读到过Scrapy是单线程的。

浏览 0提问于2014-07-15得票数 17

1回答

使用刮擦器导航href的最佳实践

python、scrapy

我正在构建一个网络刮刀，从网站下载csv文件。我必须登录到多个用户帐户，以下载所有的文件。我还需要浏览几个href，才能为每个用户帐户找到这些文件。为了完成这项任务，我决定使用刮除蜘蛛。下面是我到目前为止掌握的代码：我将用户名和密码信息存储在字典中。 def start_requests(self): yield scrapy.Request(url = "https://external.lacare.org/provportal/", callback = self.login) def login(self, response): for unam

浏览 1提问于2017-01-20得票数 0

回答已采纳

1回答

Web Scraper无法转到正确的页面

python、beautifulsoup、scrapy

所以我一直尝试去上获取标书清单。但是，读取的数据始终来自主页，即：。我用美汤和Scrapy试过了，什么都不起作用。有什么建议吗？当我卷曲第一个url时，它也会加载主页数据。代码： import scrapy class QuotesSpider(scrapy.Spider): name = "quotes" def start_requests(self): urls = [ 'http://ofcc.ohio.gov/Opportunities2#lt-126679-construction-bids', ]

浏览 1提问于2018-07-02得票数 1

1回答

只抓取给定页面

python、web-scraping、scrapy、scrapy-spider

我开始学习刮伤，我在谷歌搜索这个问题大约4到5个小时，但什么都找不到。有人能帮我吗？我有一个电子商务网站。我只会取产品页面。其他页面无，并将传递另一页。我给了starturls主页，之后我设置了urls允许()，并解析和跟踪true，但是我无法管理它来跟踪链接 scrapy crawl loom 2014-05-14 12:33:20+0000 [scrapy] INFO: Scrapy 0.23.0 started (bot: loom) 2014-05-14 12:33:20+0000 [scrapy] INFO: Optional features available: ssl, htt

浏览 3提问于2014-05-14得票数 1

回答已采纳

1回答

使用Scrapy从网站查找和下载pdf文件

python、scrapy

我的任务是使用Scrapy从网站上提取pdf文件。我对Python并不陌生，但Scrapy对我来说是一个非常新的东西。我一直在用控制台和一些基本的爬虫进行实验。我已经找到并修改了下面的代码： import urlparse import scrapy from scrapy.http import Request class pwc_tax(scrapy.Spider): name = "pwc_tax" allowed_domains = ["www.pwc.com"] start_urls = ["http://www.

浏览 0提问于2016-03-21得票数 22

回答已采纳

3回答

用不同的刮板抓取跟随链接

python、scrapy

我正在用Scrapy抓取一个网页。我写了我的爬行器，它工作得很好，它抓取一个页面上的项目列表(让我们称它为主页)。在主页中，我考虑的每个项目都有一个链接，该链接指向详细项目页面(让我们这样叫它)，在那里可以找到关于每个项目的详细信息。现在我也想抓取细节页面，但蜘蛛会不同，在不同的地方会有不同的信息。是否可以告诉scrapy在特定位置查找链接，然后抓取那些链接到我将要定义的另一个爬行器的页面？我希望我的解释足够清楚。谢谢

浏览 2提问于2013-09-16得票数 2

2回答

尝试抓取电子邮件地址的TripAdvisor时获取链接：‘KeyError’

python、web-scraping

这是我的代码到目前为止，应该刮掉链接，餐厅名称和他们的电子邮件地址。在我添加电子邮件之前，一切都很正常，尽管它返回了电子邮件地址 import scrapy from scrapy import Request class RestaurantSpider(scrapy.Spider): name = 'restaurant' start_urls = [ 'https://www.tripadvisor.com.my/Restaurants-g298570-Kuala_Lumpur_Wilayah_Persekutuan.html

浏览 23提问于2019-10-17得票数 0

回答已采纳

1回答

到另一个域的规范链接？

seo、canonical-url

我在多个网站(不同的域名)上有相同的页面和数据，但只有其中一个网站是数据的“主页”，我希望那个“主页”站点在搜索结果中显示该数据，而不是其他网站。我认为规范链接是最好的方法，对吗？谷歌关于规范链接的页面似乎认为到不同域的规范链接有点奇怪，如果可能的话应该避免。如果没有，还有其他方法来实现这一点吗？编辑:更清楚的是，我有一个数据集，可以在几个网站。每个网站都有一个子集的数据，它的“家”。所以当搜索引擎指向子集A中的数据时，我希望链接到站点A，尽管这些数据在所有站点上都可用。

浏览 0提问于2012-05-22得票数 2

1回答

如何使用pip在Scrapinghub上安装中间件

python、scrapy、pip、scrapinghub

我有一个很粗糙的项目，它通过pip使用中间件安装。更具体地说，。设置文件#-编码: utf-8 -- # Scrapy settings for batdongsan project # # For simplicity, this file contains only settings considered important or # commonly used. You can find more settings consulting the documentation: # # http://doc.scrapy.org/en/latest/topics/settings.

浏览 4提问于2017-09-02得票数 0

1回答

通过登录主页来抓取主页的内部链接

python、web-scraping、scrapy

我会让它变得简单。我有一个登录页面。我登录了。我看到主页了。主页有两个链接。我想打开这两个链接。每个链路有两个数据。我只想从两个链接上的四个数据，这也是登录后来的主页。我可以刮擦直到链接步骤。我可以刮擦链接，而不是链接内的数据。我该怎么做呢？谢谢我的简陋代码:附注:我只是凭自己的直觉这么做的，我不知道这是否可能。 import scrapy class ClassroomSpider(scrapy.Spider): name = 'classroom' start_urls =['http://classroom.dwit.edu.n

浏览 35提问于2018-09-02得票数 0

回答已采纳

1回答

我们能在scrapy shell之外运行擦伤代码吗？

python、web-scraping、scrapy

我试着用Scrapy建造一个爬虫。在scrapy的官方文档或博客中，我看到人们在.py代码中创建一个类，并通过scrapy执行它。在它们的主页上，给出了以下示例 import scrapy class BlogSpider(scrapy.Spider): name = 'blogspider' start_urls = ['https://blog.scrapinghub.com'] def parse(self, response): for title in response.css('h2.entry-

浏览 0提问于2018-03-09得票数 3

回答已采纳

1回答

从表中的链接获取数据

python、scrapy、scrapy-spider

我正在尝试从html表中抓取数据。我可以使用下面的爬行器脚本从表中提取现有数据： from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from texasdeath.items import DeathItem class DeathSpider(BaseSpider): name = "death" allowed_domains = ["tdcj.state.tx.us"] start_urls = [ &#

浏览 1提问于2016-05-16得票数 1

1回答

引发ValueError(‘request url中缺少的方案：%s’‘% self._url) ValueError: request url中缺少的方案: javascript:void(0)；

python、web-scraping、scrapy

这是我的蜘蛛密码 spider.py import scrapy class ExampleSpider(scrapy.Spider): name = 'moneycontrol' # allowed_domains = ['moneycontrol.com'] start_urls = ['https://www.moneycontrol.com/india/stockpricequote/'] def parse(self, response): stoke_link_list = resp

浏览 2提问于2020-08-20得票数 1

回答已采纳

2回答

Scrapy XPath页面上的所有链接

python、xpath、scrapy

我正在尝试收集一个域名下的所有网址使用Scrapy。我试着用CrawlSpider从主页开始抓取他们的网站。对于每个页面，我希望使用Xpath来提取所有href。并以类似键-值对的格式存储数据。键:当前URL值:此页面上的所有链接。 class MySpider(CrawlSpider): name = 'abc.com' allowed_domains = ['abc.com'] start_urls = ['http://www.abc.com'] rules = (Rule(SgmlLinkExtract

浏览 2提问于2013-09-20得票数 6

回答已采纳

4回答

SharePoint2010中的DropdownList

sharepoint、sharepoint-2010、cascadingdropdown

我需要在SharePoint 2010的主页上放置2级联下拉列表。数据必须从两个下拉列表中的Sharepoint列表中填充。我知道在InfoPath表单上很容易做到这一点，但有没有办法像我们在asp.net网站上那样在网页上实现这一功能呢？

浏览 0提问于2013-06-11得票数 0

1回答

空的刮掉的链接被忽略。

python、web-scraping、scrapy

我是刮从这个网页的链接和第一级数据，，为ex：(项目名称，状态，HI名称，PI名称，开始日期)然后我将需要刮刮每个链接内的第二级数据，对于ex，该链接将带来到，并合并两个数据。在某些情况下，在第一页中刮到的链接将重定向到主页，因为没有第二级数据可用于链接刮取。对于每一个数据输入，我都需要组合一级数据和二级数据。我遇到的问题是当链接没有二级数据时，第一级数据也不会显示。这意味着即使存在第一级数据，也会忽略整个条目。在没有二级数据的情况下，如何显示第一级数据？刮伤编码： class ToScrapeCSSSpiderSG(scrapy.Spider): name = "toscrapes

浏览 1提问于2019-12-12得票数 2

回答已采纳

1回答

为什么抓取提高响应内容不是文本？

python-2.7、scrapy

我在试着刮报纸上的分类。当我试图运行我的代码时，我得到的是错误： NotSupported:响应内容不是文本。这是我的代码： import scrapy from imagecrawl.items import ImagecrawlItem class ImgspiderSpider(scrapy.Spider): name = "imgspider" start_urls = ['http://www.deccanheraldepaper.com/data/pp3-20190621_10/webepaper/photos/541862.p

浏览 0提问于2019-06-21得票数 0

3回答

Scrapy:对同一个URL运行多个嵌套搜索

python、scrapy

我对Python非常陌生，对Scrapy非常陌生。我正在尝试构建一个蜘蛛，它将转到给定的URL，并在该站点中运行多个嵌套搜索。例如，如果我正在搜索一家在线商店，我首先会请求，然后在站点内的3层子菜单中搜索各种产品，这些产品在运行时通过CSV输入文件指定。在每个级别的脑膜下，我正在寻找目标类别，并发出一个请求，以获得该子类别，直到我到第3级时，我分析结果寻找一个特定的项目。存储基本URL ->家庭->厨房->电器:解析结果寻找“搅拌器”。存储基本URL ->家庭->厨房->电器:解析结果寻找“水壶”。存储基本URL ->主页->电

浏览 2提问于2014-02-26得票数 1

1回答

仅抓取域名

dns、scrapy、web-crawler

如何使用Scrapy实现只抓取域名？我对任何domain.tld的深度搜索不感兴趣。我的想法是从每个域的索引页面只使用1跳的深度-所以直接从主页链接将足够作为链接缓冲区。我需要尽可能快的爬虫作为唯一的。我想将域领域限制为.cz 谢谢。

浏览 11提问于2019-03-14得票数 0

1回答

从Django视图启动Scrapy

python、django、web-scraping、scrapy

我对Scrapy的经验是有限的，每次我使用它，它总是通过终端的命令。我如何从django模板中获取表单数据(一个要被刮掉的url )来与scrapy通信，从而开始进行抓取？到目前为止，我只考虑从django的视图中获取表单的返回数据，然后尝试将表单数据的url添加到爬行器的spider.py中。从那里开始，我真的不知道如何触发实际的爬行，因为我习惯于使用诸如“”之类的命令严格地通过我的终端进行爬行。谢谢。小编辑:刚刚发现了剪贴..。我想我这样做可能会朝着正确的方向发展。

浏览 1提问于2014-11-14得票数 11

回答已采纳

1回答

杂志网站上的筒仓结构

html、wordpress、nofollow、theme

我将不得不编码使用筒仓结构的杂志主题。设计的要求是在主页上显示每个类别的最新帖子，边栏中的流行/最后评论帖子等等。我想不出任何其他的东西，除了设置no追随者属性的每一个提到的链接。但是这样做，例如在主页上，我将有50-80个不跟踪链接. 这真的会伤害SEO吗？你有什么建议？

浏览 0提问于2014-09-07得票数 2

1回答

在Django中向用户显示Scrapy结果

python、django、scrapy

我对Python非常陌生，我正在尝试将Scrapy与Django集成。以下是我想要实现的目标：用户提交要刮除的URL URL被刮掉刮过的数据在屏幕上返回给用户。用户分配属性(如果必要的话)，然后将其保存到数据库。实现这一目标的最佳方法是什么？我玩过Django动态刮刀，但我认为我最好保持对Scrapy的控制。

浏览 2提问于2014-01-17得票数 0

回答已采纳

1回答

为什么Facebook不能正确解析Twitter URL？

ajax、facebook、url、twitter、web-crawler

我在抓我的头取一个(新的) twitter url，例如。将此链接粘贴到你的Facebook墙上或“你在想什么？”Facebook主页上的输入框。在它抓取链接之后，看看它解析到了什么链接。这不是正确的twitter url。昨晚它解析到了http://twitter.com/#!/d3nidhint，现在又解析到了。怎么回事？ Facebook清楚地解析了这个url，并将其解析为不同的东西。如果它能做到这一点，它应该将url解析到正确的twitter页面。我在网上搜索，找到了谷歌链接，建议抓取这些AJAX urls，但与这个奇怪的异常无关: http://code.google.com/

浏览 2提问于2010-12-03得票数 0

2回答

Scrapy:无法以正确的格式获取输出文件

python-2.7、web-scraping、scrapy

我将输出作为连续数据以行形式显示，而不是以正确的记录格式显示(每行一条记录)。 import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkExtractor class famousPeopleItem(scrapy.Item): # define the fields for your item here like: Name = scrapy.Field() Profession = scrapy.Field

浏览 5提问于2017-05-10得票数 0

回答已采纳

2回答

为什么我的破蜘蛛什么都不刮？

python、python-2.7、web-scraping、scrapy、scrapy-spider

我不知道问题在哪里，可能是超级容易解决，因为我是新刮刮。谢谢你的帮忙! 我的蜘蛛： from scrapy.spiders import CrawlSpider, Rule from scrapy.selector import HtmlXPathSelector from scrapy.linkextractors import LinkExtractor from scrapy.item import Item class ArticleSpider(CrawlSpider): name = "article" allowed_domains = [

浏览 3提问于2016-02-04得票数 1

回答已采纳

2回答

从从主页提取的新页面中提取文本

python、web-crawler、extract、scrapy、permalinks

我正在尝试从我从“主页”中提取出来的链接中获取文本。这个爬虫被设定为从“主页”获取所有的te链接，然后抓取所有这些链接并从其中获取文本。我希望你能理解我的意思，如果不问我，我会尽量解释得更详细。编辑: 因此，我阅读了更多关于scrapy的内容，并找到了这个页面-- ，我阅读了"SitemapSpider“，我认为这可以是我需要用于这个问题的蜘蛛。蜘蛛文件*编辑* from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from craigslist_randstad.

浏览 4提问于2013-12-04得票数 1

回答已采纳

1回答

如何添加具有相同优先级的不同提供横幅的阔叶网站主页横幅滑块？

jquery、css、slider、broadleaf-commerce

我在阔叶树数据库中制作了不同的广告。我想把这作为幻灯片的网站主页。请帮我把html滑块放在主页上。

浏览 1提问于2015-01-08得票数 0

回答已采纳

4回答

从命令列表中调用shell命令，直到所有命令都完成为止

linux、bash、shell

我有要调用的shell命令列表。最多可有四个进程同时运行。我的基本想法是将命令发送到shell，直到4个命令处于活动状态。然后，脚本通过查找一个常见的字符串，例如“”，不断检查所有进程的进程计数。一旦进程计数降到4以下，下一个命令就会发送到shell，直到所有命令都完成为止。有什么方法可以用shell脚本来完成这个任务吗？我想这会涉及到某种无穷无尽的循环，中断条件以及检查活动进程的方法。不幸的是，我并不擅长shell脚本，所以也许有人能引导我走向正确的方向？ nohup scrapy crawl urlMonitor -a slice=0 & nohup scrapy crawl

浏览 8提问于2014-12-15得票数 3

回答已采纳

2回答

如何使用CrawlSpider从刮刮点击一个链接与javascript的点击？

javascript、python、onclick、scrapy、web-scraping

我希望抓取的页面上的下一个链接如下所示： <a href="#" onclick="return gotoPage('2');"> Next </a> scrapy能够解释javascript代码吗？使用livehttpheaders扩展，我发现单击Next会生成一个包含非常大的“垃圾”的帖子，开始如下所示： encoded_session_hidden_map=H4sIAAAAAAAAALWZXWwj1RXHJ9n 我正试图在CrawlSpider类上构建我的蜘蛛，但我真的想不出如何对它进行编码，使用BaseSpide

浏览 4提问于2010-03-16得票数 25

1回答

如何在刮削中设置深度极限

python、web-scraping、scrapy

我用这个蜘蛛爬行一个页面并下载它的图片： import scrapy from scrapy.contrib.spiders import Rule, CrawlSpider from scrapy.contrib.linkextractors import LinkExtractor from imgur.items import ImgurItem import re from urlparse import urljoin class ImgurSpider(CrawlSpider): name = 'imgur' allowed_domains =

浏览 3提问于2016-02-01得票数 1

回答已采纳

1回答

刮擦“下一页”实现错误

scrapy

我的目标是：废弃start_url上的所有产品链接将产品链接发送到parse_items，报废产品详细信息，保存在json中从start_url查找下一页链接重复并冲洗，直到目录结束。到目前为止，我已经尝试了两种方法，但都不起作用。谁能给我指明正确的方向吗？ (1)使用LinkExtractor获取所有项链接，可能出现错误:下一个链接被排除，因此不包含next_page_url class urllink(CrawlSpider): name = "urllink" allowed_domains =

浏览 0提问于2018-04-03得票数 1

1回答

一些urls重定向到主页

scrapy、scrapy-shell

我是新的Scrapy框架&目前使用它从多个‘健康与健康’网站上提取文章。对于某些请求，scrapy是重定向到主页(在浏览器中没有观察到这种行为)。以下是一个例子：命令: scrapy shell "“结果: 2015-06-19 21:32:15+0530 scrapy调试: 21:32:15+0530服务监听127.0.0.1:6080 2015-06-19 21:32:15+0530默认信息: Spider打开了2015-06-19 21:32:15+0530默认调试:将(301)从 2015-06-19 21:32:16+0530默认调试:爬行(200) 重定向到 (引

浏览 1提问于2015-06-19得票数 0

回答已采纳

1回答

用Scrapy从文本文件中从多个URL中抓取所有外部链接

python、url、web-scraping、scrapy、web-crawler

我对Scrapy和Python很陌生，因此我是个初学者。我希望能够让Scrapy读取一个包含大约100 k URL的种子列表的文本文件，让Scrapy访问每个URL，并提取每个种子URL上的所有外部URL(其他站点的URL)，并将结果导出到一个单独的文本文件中。 Scrapy只应该访问文本文件中的URL，而不是爬行并跟踪任何其他URL。我希望能够让Scrapy尽快工作，我有一个非常强大的服务器与1 1GBS线。我列表中的每个URL都是来自一个唯一的域，所以我根本不会访问任何一个站点，因此不会遇到IP块。如何在Scrapy中创建一个项目，以便从存储在文本文件中的urls列表中提取所有外部链接

浏览 0提问于2016-08-28得票数 1

回答已采纳

1回答

如何在Azure数据资源管理器中查询日志分析数据？

azure-log-analytics、azure-data-explorer

我需要在Azure数据资源管理器中查询我的Log Analytics工作区，但我对此一无所知。以下是我的疑问? 1.在使用数据之前，我是否需要从日志分析向Azure数据资源管理器注入数据? 2.我找不到任何方法将日志分析连接到Azure数据资源管理器? 3.我看到在Azure数据资源管理器中注入数据的唯一选项是通过事件中心。但现在我的问题是，我如何使用事件中心将日志分析数据摄取到Azure data Explorer中？我需要编写任何流程来摄取吗？如果任何人有，那么请分享，以便我可以探索它。谢谢,

浏览 1提问于2018-11-22得票数 0

1回答

尝试在网站上抓取google地图api生成的动态数据，但正常抓取返回空白

javascript、google-maps、python-2.7、web-scraping、scrapy

我正在使用scrapy从这个中抓取作业数据。一个作业页面看起来像。静态数据可以很容易地被scrapy抓取，但是google地图apis生成的动态数据，如“距离”和“时间”，给我带来了问题。对于distance字段，我得到了"Distance Unknown“值，而对于time字段，我得到了空值。当我在chrome中打开控制台，然后在脚本部分的网络选项卡中，我可以看到一个对googles map api发出的java请求("DirectionsService.Route")，所有我需要的值都是JSON格式的。有没有一种方法可以让我使用scrapy来获得这个由谷歌地图a

浏览 1提问于2015-02-05得票数 0

2回答

python的抓取似乎并不能从所有可用的URL中获取数据

python、screen-scraping、web-scraping、scrapy

我试图刮，以创建一个表，说明每个曲目被添加到memeber的音乐本中的次数，这样我就可以找到一些流行的曲目来学习。我从“刮伤”教程开始，并试图对其进行修改以适应我的目的。问题是，尽管thesession.org网站似乎有大约10390个曲调，但我的刮刀只返回其中10个曲调的数据(只有上的那些)。如何获得所有曲调(或排名最高的100首曲子)的数据？如有任何建议，将不胜感激。到目前为止，我得到的是： items.py from scrapy.item import Item, Field class tuneItem(Item): url = Field() name1 = F

浏览 8提问于2011-11-26得票数 6

回答已采纳

2回答

用刮除管道过滤表格数据

python、scrapy

我已经从一页纸上删除了我想要的表格数据。现在，我想使用管道过滤它们(只有“版本”)：网络数据可在这里获得： “”“ from scrapy.exceptions import DropItem class ScrapytestPipeline: def process_item(self, item, spider): if item['Channel'] == 'Release': return item else: rais

浏览 5提问于2022-07-19得票数 -1

1回答

使用scrapy将数据刮到一个变量，而不是文件/数据库

python、scrapy

我正在尝试将scrapy作为python脚本运行，并希望处理被刮掉的数据，而不是存储在文件/数据库中。代码看起来就像 import scrapy import scrapy.crawler as crawler from scrapy.utils.log import configure_logging from multiprocessing import Process, Queue from twisted.internet import reactor # spider class QuotesSpider(scrapy.Spider): name = "quotes

浏览 5提问于2022-06-16得票数 2