如何在scrapy中添加一个值来描述值来自哪个链接_Kendo Grid - ASP.net MVC -如何在添加新记录的同时，根据在另一个下拉列表中的选择来选择下拉列表中的值？ - 腾讯云开发者社区

python、scrapy

我目前正在为我的大学机构知识库项目使用Scrapy，在那里我需要获得每个大学的外部链接。有没有办法拒绝某些URL，比如'google.com‘和'twitter.com’。下面是我目前所拥有的。我是新手，所以任何帮助都将不胜感激。谢谢! import scrapy class UtmSpider(scrapy.Spider): name = 'utm' start_urls = ['http://eprints.utm.my/id/eprint/'] def start_requ

浏览 21提问于2019-03-11得票数 2

回答已采纳

2回答

如何在Scrapy中设置Item.Field()的默认值？

python、scrapy

我试图刮一个网站，不显示相同的数据从一页到另一页。我希望我的蜘蛛返回一个默认值，用于它不能刮掉的每个属性。我知道，在这样的项目声明中可以这样做： class MyItem(scrapy.Item): myfield = scrapy.Field(default='NULL') 但是，这个方法似乎不再起作用了(我正在使用Scrapy1.3.0)。如果在未找到值时尝试导出此特定字段，则得到： KeyError: 'myfield' 有解决办法吗？

浏览 2提问于2017-02-02得票数 3

回答已采纳

2回答

Scrapy没有拿起我的url

python、scrapy、scrapy-spider

我有一个破烂的代码，应该能够采取电话和地址从一个网页中的表格： import scrapy class PeopleSpider(scrapy.Spider): name="People" start_urls=[ 'http://canada411.yellowpages.ca/search/si/1/519-896-7080/', ] def parse(self,response): for people in response.css("div.person-search__table--row"): yield

浏览 0提问于2017-02-16得票数 0

1回答

回调函数不会在爬行器中触发，scrapy

python、scrapy、web-crawler

我需要使用我的函数parsePage作为回调请求链接，我从网站爬行。但是，请求只发送一次到第一个链接，而我没有得到响应。这是我的代码： class diploma(CrawlSpider): name = "diploma" allowed_domains="pikabu.ru" start_urls = [ "https://pikabu.ru/hot" ] def parse(self, response): for sel in response.xpath("//div[@class='stories-f

浏览 0提问于2018-03-15得票数 2

回答已采纳

2回答

提取所有分页链接到有刮痕的网页？

python、scrapy、scrapy-spider

import scrapy class QuotesSpider(scrapy.Spider): name = 'quotes' allowed_domains = ['www.onthemarket.com'] start_urls = ['https://www.onthemarket.com/for-sale/property/london/'] def parse(self, response): next_page_url = response.css("li > a.arr

浏览 8提问于2017-12-11得票数 1

回答已采纳

2回答

如何在抓取蜘蛛中使用网址的站点地图？

xml、scrapy、web-crawler、screen-scraping、sitemap

我想创建一个蜘蛛，抓取网址的基础上的网页sitemap.xml。所以我没有start_urls。我想确定哪些urls要使用sitemap.xml抓取。我考虑添加一个方法_parse_sitemap，并使用requests和lxml解析它，但这可能是一种矫饰。有没有什么内置的方法来获取<loc>标签中的所有urls？到目前为止，我所做的是：爬行器得到一个url和meta = {'sitemap':True}，所以解析方法知道它必须调用_parse_sitemap，这是基于来自站点地图的url的yield的Request对象。 import scrapy fro

浏览 0提问于2017-10-10得票数 1

1回答

无法在Scrapy蜘蛛中使用多个代理

python、python-3.x、web-scraping、scrapy、scrapy-spider

我用python编写了一个脚本，使用Scrapy通过代理向网页发送请求，而不更改settings.py或DOWNLOADER_MIDDLEWARES中的任何内容。现在效果很好。但是，我唯一不能使用的就是创建一个代理列表，这样如果其中一个失败了，另一个就会被使用。我如何调整这个部分的os.environ["http_proxy"] = "http://176.58.125.65:80"，以得到一个一个的代理列表，因为它只支持一个。在这方面的任何帮助都将受到高度赞赏。这就是我到目前为止尝试过的(工作)： import scrapy, os from scrapy.

浏览 1提问于2018-04-22得票数 8

1回答

在从深度网络创建抓取文档时面临的问题

python、scrapy

我想让我的蜘蛛抓取每个人的“追随者”和“追随者”的数量。目前，它只给出了几千个结果中的6个。怎样才能得到完整的结果？ "items.py“包括： import scrapy class HouzzItem(scrapy.Item): Following = scrapy.Field() Follower= scrapy.Field() 名为"houzzsp.py“的爬虫包括： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import

浏览 1提问于2017-04-09得票数 0

4回答

使用scrapyd部署项目时出错

python、scrapy、scrapyd

我的项目文件夹中有多个蜘蛛，并且希望一次运行所有的蜘蛛，所以我决定使用scrapyd服务运行它们。我是通过看到开始这么做的首先，我在当前项目文件夹中。之后，我打开了scrapy.cfg文件并取消了url行的注释。部署我运行了scrapy server命令，运行良好，并且运行scrapyd服务器。我尝试了这个命令scrapy deploy -l 结果：default http://localhost:6800/ 当我尝试这个命令scrapy deploy -L scrapyd时，我得到了以下输出结果： Usage ===== sc

浏览 4提问于2012-07-06得票数 7

回答已采纳

2回答

从亚马逊网站获取href链接的问题。xpath找到比预期更多的href链接。

python、html、xpath、web-scraping、scrapy

我试图收集所有的网址为每一个视频从亚马逊网站下面。 https://www.amazon.com/video-Prime/s?ie=UTF8&page=1&rh=n%3A2858778011%2Ck%3Avideo 我正在使用scrapy来交互测试我的代码。我像下面这样开始刮壳。我 scrapy shell 'https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-alias%3Dinstant-video&field-keywords=video&rh=n%3A2858778011%2Ck%3Avide

浏览 1提问于2018-01-27得票数 1

回答已采纳

1回答

刮掉的SgmlLinkExtractor推荐人无

python、scrapy

我想让我的蜘蛛发挥作用。这是我在蜘蛛里的代码： start_urls = ["http://www.khmer24.com/"] rules = ( Rule(SgmlLinkExtractor(allow=(r'ad/\w+/67-\d+\.html',), ), callback='parse_items'), ) 示例url如下所示：我想保留“广告”和"67-“ scrapy crawl khmer24的输出是： Crawled (200) <GET http://www.khmer24.com/&

浏览 1提问于2013-02-28得票数 1

1回答

对不需要的URL进行快速解析

python、scrapy

我在和Scrapy刮apartments.com我得到了一些不想要的结果。具体地说，我从附近的城市和西班牙语版本的apartments.com获得了结果。在每个公寓列表的底部，都有一个“附近的公寓”功能，这可能是Scrapy在波士顿以外的地方获得搜索结果的原因。我试图用我的拒绝规则阻止/es/ listings，但它似乎不起作用。 import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from apt.items import AptI

浏览 0提问于2021-03-08得票数 1

2回答

如何以编程方式将产品添加到Opencart数据库

database、insert、opencart

我想知道是否有一个特殊的opencart函数可以使用前端页面上的php/html表单(例如wordpress "wp_insert_post“函数)以编程方式向Opencart数据库添加/编辑产品，或者我必须编写我所有的代码PHP方式(插入到DB_TABLE中……) 另外，我必须使用哪些opencart db表来添加带有图像的简单产品信息，它是只有产品表和product_description表吗?当然，在使用前端页添加产品之后，我需要该产品也出现在管理页面中。我真的需要一些参考资料来告诉我怎么做。 (我正在使用opencart 1.5.1.3)

浏览 3提问于2013-06-15得票数 20

回答已采纳

1回答

在爬行器中配置规则时，跟随参数似乎不起作用

python、python-3.x、scrapy

我只想在第一页提取我想要的链接，我在爬虫中将DEPTH_LIMIT设置为1，并在匹配规则follows=False中将参数rule()设置为1，但我仍然发起了多个请求，我不知道为什么。我希望有人能回答我的疑问。提前谢谢。 # -*- coding: utf-8 -*- import scrapy from scrapy.http import Request from scrapy.spiders import CrawlSpider,Rule from scrapy.linkextractors import LinkExtractor class OfficialSpider(Craw

浏览 2提问于2018-10-19得票数 1

1回答

当使用Privoxy代理Tor时，Scrapy会得到NoneType错误

python、proxy、scrapy、polipo

我正在使用Ubuntu14.04LTS。我试过Polipo，但它一直拒绝火狐的连接，即使我将自己添加为allowedClient，并在没有解决方案的情况下进行了数小时的研究。因此，我安装了Privoxy，并通过访问Tor网站验证了它与Firefox一起工作，并表示祝贺此浏览器配置为使用Tor。这证实了我应该能够刮到Tor的网站。然而，当我使用Scrapy时，我得到了一个似乎没有人会犯的错误.？ 2016-07-14 02:43:34 [scrapy] INFO: Enabled downloader middlewares: ['scrapy.downloadermiddlewar

浏览 3提问于2016-07-14得票数 6

回答已采纳

1回答

如何让Scrapy只抓取Xpath中的链接？

python、web-scraping、scrapy

我是Scrapy的新手，我想做的是做一个爬虫，它只会跟踪给定start_urls上的HTML元素中的链接举个例子，假设我只想让一个爬虫程序遍历start_urls设置为的AirBnB清单我不想抓取URL中的所有链接，而是只想抓取xpath中的链接目前，我正在使用以下代码来抓取所有的链接，我如何才能使其仅抓取//*[@id="results"] from scrapy.selector import HtmlXPathSelector from tutorial.items import DmozItem from scrapy.contrib.sp

浏览 0提问于2012-12-25得票数 6

回答已采纳

1回答

如何从站点中刮取项目名称，同时进入一个循环，输入项目链接和解析描述？

python、scrapy

所以我对刮擦和学习刮擦完全是新手。首先，对于，如果有超过1页的产品需要浏览，我想从第一类的所有产品中刮取项目名称。这就是我得到的，它起作用了： import scrapy class QuotesSpider(scrapy.Spider): name = 'killertools' start_urls = ['https://www.killertools.com/Dent-Removal-Aluminum-Steel_c_11.html', ] def parse(self, response):

浏览 1提问于2020-09-06得票数 1

回答已采纳

2回答

在mac上安装scrapy成功，但运行错误

python、macos、scrapy

gaoyaqiu:git gaoyaqiu$ scrapy Traceback (most recent call last): File /usr/local/bin/scrapy, line 7, in <module> from scrapy.cmdline import execute File /Library/Python/2.7/site-packages/scrapy/cmdline.py, line 9, in <module> from scrapy.crawler import CrawlerProcess F

浏览 0提问于2017-02-14得票数 1

1回答

Scrapy在检索文本时苦苦挣扎

python、web-scraping、scrapy

我正在尝试用Scrapy构建一个刮板，我正在努力返回所需的文本。任何帮助都将不胜感激。下面是我的代码： import scrapy from scrapy.spiders import Request from scrapy.linkextractors import LinkExtractor from scrapy.http import HtmlResponse import re from urllib import * BASE_URL = 'http://murderpedia.org/' PROTOCOL = 'https:' 这是我的项

浏览 0提问于2018-10-26得票数 0

1回答

按html标记值计算的刮取链接提取器

recursion、scrapy、tags

我使用抓取来抓取隐私政策，从它的主页抓取一个网站，我想智能地抓取包含特定关键字的页面中的特定链接(隐私、数据、保护等)。我看到了scrapy的CrawlSpider和对象只允许这样做，但是，我希望不仅对已发现的链接应用正则表达式，而且还要应用到<a></a>标记中的文本例如，为了更好地查明以下情况： <a href="http://example.com/legal">Check out our privacy policy</a> 其中，URL可能不是一个完美的匹配，但是HTML标记中的文本更有帮助。我看到scrapy的L

浏览 0提问于2019-06-05得票数 0

回答已采纳

1回答

抓取爬行蜘蛛只接触start_urls

python、scrapy

我发现我的CrawlSpider只爬行start_urls，没有任何进展。下面是我的代码。 import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class ExampleSpider(CrawlSpider): name = 'example' allowed_domains = ['holy-bible-eng'] start_urls = ['file:///G

浏览 2提问于2017-04-08得票数 1

回答已采纳

1回答

为什么粗糙的yield.Request()没有递归？

python-3.x、scrapy、web-crawler

这是我的代码吗？ class QuotesSpider(scrapy.Spider): name = 'quotes' allowed_domains = ['quotes.toscrape.com/'] start_urls = ['http://quotes.toscrape.com//'] def parse(self, response): quotes = response.css('.quote') for quote in quotes: item = QuoteItem()

浏览 8提问于2017-07-08得票数 0

回答已采纳

1回答

刮取规则不调用解析方法。

python、scrapy、scrapy-spider

我是新刮刮，并试图抓取一个域，跟踪所有内部链接，并用模式/示例/*抓取网址的标题。爬行工作，但是由于输出文件是空的，所以标题的抓取不起作用。很可能我弄错了规则。这是正确的语法使用规则，以实现我想要的？ import scrapy class BidItem(scrapy.Item): url = scrapy.Field() title = scrapy.Field() spider.py import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import Crawl

浏览 1提问于2018-11-22得票数 1

回答已采纳

1回答

抓取打开SSl错误

python、ssl、openssl、scrapy、scrapy-spider

我是scrapy的新手，我正在尝试抓取以下网站的标题我查看了所有以前关于这个主题的帖子，但仍然收到打开ssl错误下面是我的代码: settings.py DOWNLOADER_CLIENTCONTEXTFACTORY ='scrapy.core.downloader.contextfactory.ScrapyClientContextFactory' 这是我的爬虫的代码 import scrapy from skitter.items import SkitterItem class mdcalc(scrapy.Spider): name = "mdcal

浏览 2提问于2017-09-27得票数 1

1回答

在指定python版本时使用pip和virtualenv发出问题

python、python-2.7、pip、virtualenv

我使用 virtualenv (1.11.6)来管理我的python项目，我创建了一个新的，但是我注意到它使用了一个旧的python版本(2.7.2而不是2.7.8)，所以我使用-p选项重新创建了一个虚拟版本： virtualenv -p /opt/local/bin/python ENV 现在该项目使用python2.7.8，但是如果我尝试使用pip 1.5.6 (例如scrapy)安装任何python库，我将得到命令python setup.py egg_info失败，错误代码1 如果我在没有指定python版本的情况下创建一个virtualenv，则不会发生这种情况。这种行为

浏览 2提问于2014-09-15得票数 1

回答已采纳

1回答

如何在Heroku云上部署Scrapy spider

python、python-2.7、heroku、scrapy

我在scrapy中开发了几个爬虫&我想在Heroku云上测试它们。有没有人知道如何在Heroku云上部署Scrapy spider？

浏览 1提问于2012-10-08得票数 11

回答已采纳

1回答

我的Scrapy CrawlSpider在初始start URL之后停止

python、web-scraping、scrapy-spider

我的蜘蛛长得像这样 import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from scrapy.selector import Selector from craigslist_sample.items import CraigslistSampleItem class MySpider(CrawlSpider): name = "craig" # allowed_domains = ["support.t-

浏览 0提问于2016-10-25得票数 1

回答已采纳

2回答

只在刮伤中返回特定的urls

python、scrapy

我正在使用刮除从一个网站的网址。目前，它返回所有的urls，但我希望它只返回包含单词“download”的urls。我该怎么做？ from scrapy.selector import HtmlXPathSelector from scrapy.spider import BaseSpider from scrapy.http import Request import scrapy DOMAIN = 'somedomain.com' URL = 'http://' +str(DOMAIN) class MySpider(scrapy.Spider):

浏览 5提问于2017-03-27得票数 1

回答已采纳

2回答

我如何知道哪些网址正在使用starts_url (Scrapy)？

python、scrapy、web-crawler

我正在构建一个抓取两个页面(e.x: PageDucky，PageHorse)的Scrapy，并在starts_url字段中传递这两个页面。但是对于分页，我需要传递我的URL并连接"?page="，所以我不能传递整个列表。我已经尝试过创建一个for循环，但是没有成功。我怎么才能让分页对两个页面都起作用呢？下面是我现在的代码： class QuotesSpider(scrapy.Spider): name = 'QuotesSpider' start_urls = ['https://PageDucky.com', 'ht

浏览 4提问于2021-11-23得票数 0

2回答

我如何从有下一个按钮的网站刮擦，如果它滚动？

python、scrapy

我正试着从一个叫做商示波器的网站上搜集所有的数据。但是，当我试图运行我的代码时，它只是得到一个随机引用。它至少应该从那个页面中获取所有的数据，但它只需要一个。另外，如果我从第1页得到数据，我想要的是从所有页面中获取数据。那么如何解决这个错误(应该从page1获取所有数据)？如何使用下一页中的所有数据？ items.py文件 import scrapy class QuotetutorialItem(scrapy.Item): title = scrapy.Field() author = scrapy.Field()

浏览 0提问于2019-04-15得票数 0

1回答

Scrapy和Twisted错误

python、scrapy、twisted

我继承了一个项目，在尝试解决一个问题时，我必须升级该项目的所有包。在这样做的过程中，我遇到了更多的问题，我束手无策。这是一个网络抓取项目使用了许多包，我已经更新了Scrapy和Twisted到最新的版本，现在遇到以下错误，当我从cmd行运行我的刮刀。我尝试过降级、扭曲和卸载/重新安装，但仍然得到相同的错误。我运行的是Windows 8.1 下面是错误： c:\RND\scraper\crawlers>scrapy crawl reuters 2015-08-24 12:40:34 [scrapy] INFO: Scrapy 1.0.3 started (bot: crawle

浏览 2提问于2015-08-25得票数 1

2回答

如何提取副本，同时使用抓取链接提取器？

python、scrapy、rules

我正在尝试提取多个产品的网址出现在分类页面。同样，我想得到多个产品网址的类别页面网址，但由于一个产品可以出现在不同的类别页面，剪贴画得到它被过滤掉。如何防止这种情况，因为不过滤= True在这里不起作用？另外，有没有一种方法可以让scrapy不检查提取的url的response.status，而只是将其输出。 import scrapy import csv from scrapy.spiders import SitemapSpider from scrapy.spider import CrawlSpider, Rule from scrapy.linkextractors import

浏览 12提问于2018-12-18得票数 0

1回答

如何使用Electron.js显示彼此相邻的自定义Windows消息框按钮

javascript、node.js、windows、electron、messagebox

我正在尝试使用Electron.js对话框showMessageBoxSync创建一个消息框。我希望按钮是‘取消’和‘覆盖和继续’。我希望当按钮为“取消”和“确定”时，它以与框相同的方式显示。当按钮为“取消”和“确定”时，按钮将并排显示：但是，当我尝试将按钮设置为“取消”和“覆盖和继续”时，消息框的显示方式有所不同：是否可以设置“覆盖和继续”按钮以与“确定”按钮相同的方式显示？我的消息框代码是： const userSelection = dialog.showMessageBoxSync(mainWindow, { type: 'warning&#

浏览 1提问于2020-11-08得票数 0

回答已采纳

1回答

尝试用scrapy抓取网页的所有链接。但是我不能输出页面上的链接

python、scrapy、web-crawler

我的第一个问题是:) 我试着在我的学校网站上搜索所有可能的网页。但是我不能把链接放到文本文件中。我有正确的权限，所以这不是问题所在。 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector from scrapy.item import Item from scrapy.spider import BaseSpider cl

浏览 0提问于2012-12-06得票数 5

回答已采纳

1回答

抓取和xpath来抓取我的站点并导出URLs -我做错了什么？

python、xpath、web-scraping、scrapy

我试图建立一个基本的抓取爬行我的网站，并提取我的网站的所有网页网址。我认为这会很容易。下面是我的items.py，它是从教程中复制的： from scrapy.item import Item, Field class Website(Item): name = Field() description = Field() url = Field() 这是我的蜘蛛，从教程中取名为example.py。 from scrapy.spiders import Spider from scrapy.selector import Selector from cspenn.i

浏览 1提问于2016-04-13得票数 1

回答已采纳

1回答

uproot4不再支持tree.pandas.df()函数了吗？

root、uproot

我曾经使用tree.pandas.df()函数(2年前)从根文件中检索熊猫数据。但是，在最近运行代码时，我得到了以下错误。有人能告诉我问题出在哪里吗？ f = uproot.open(inputFile) treeName = "myTreeName" tree = f[treeName] myDf = tree.pandas.df('branchName',entrystop=nEvent, flatten = False) AttributeError：“Model_TTree_v19”对象没有“熊猫”属性

浏览 8提问于2022-09-22得票数 1

1回答

如何在本地文件上使用Scrapy而不获取robot.txt错误？

python、scrapy

我试图让Scrapy刮本地文件，而不是使用HTTPS的URL网站。我发现了一些与robots.txt文件相关的错误： 2020-07-13 23:58:43 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retrying <GET file:///robots.txt> (failed 3 times): [Errno 2] No such file or directory: '/robots.txt' 2020-07-13 23:58:43 [scrapy.downloadermiddlewares.ro

浏览 2提问于2020-07-17得票数 1

回答已采纳

1回答

如何在Visual basic2010中向RichTextBoxes添加表

.net、vb.net、visual-studio-2010、formatting、richtextbox

如何在VB.NET 2010中将表添加到RichTextBox？我尝试过使用RTF代码来添加表，但是我不能让它工作。没有什么能像richTextBox1.AddTable()一样让事情变得非常简单。至少，如果有的话，我还没有找到。谢谢。

浏览 1提问于2012-02-29得票数 2

2回答

从刮取的URL中刮取信息

python、scrapy

我是新刮刮，目前正在学习如何从一个名单刮刮的URL信息。我已经能够从一个网址上抓取信息，通过在刮伤网站上的教程。然而，即使在谷歌在线搜索解决方案之后，我也面临着从url中刮出的url列表中的信息的问题。我在下面写的刮刀可以从第一个网址刮起。但是，它不成功地从刮过的URL列表中抓取。这个问题从def parse_following_urls(self，response)开始:这样我就无法从被刮掉的URL列表中抓取有人能帮忙解决这个问题吗？提前谢谢。 import scrapy from scrapy.http import Request class SET(scrapy.Item):

浏览 7提问于2016-02-12得票数 0

回答已采纳

1回答

在爬虫蜘蛛中从相对url生成绝对路径

python、scrapy

我需要从这些相对urls中创建绝对urls。尝试使用process_links，但徒劳无功。有什么建议吗？ # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class FfySpider(CrawlSpider): name = 'FFy' allowed_domains = ['cartoon3rbi.net'] star

浏览 0提问于2019-10-29得票数 1

1回答

对于Scrapy，如何从robots.txt文件中检查单个页面上的链接？

python、scrapy

使用Scrapy，我将刮除单个页面(通过脚本，而不是从控制台)来检查这个页面上的所有链接(如果robots.txt文件允许的话)。在scrapy.robotstxt.RobotParser抽象基类中，我找到了方法，但我不知道如何使用它。 import scrapy class TestSpider(scrapy.Spider): name = "TestSpider" def __init__(self): super(TestSpider, self).__init__() def start_re

浏览 0提问于2020-10-23得票数 3

1回答

Scrapy -带有多个按钮的提交表单

python、html、web-scraping、forms、scrapy-spider

我开始使用scrapy，我设法抓取了一系列表单，但最后一个表单有两个按钮，reject和accept。 <input name="_eventId_AttributeReleaseRejected" style="margin-right: 30px;" type="submit" value="Reject"> <input name="_eventId_proceed" type="submit" value="Accept"> 如何告诉scrapy选择

浏览 1提问于2017-03-05得票数 3

回答已采纳

4回答

从包含正则表达式的urls中抓取

url、expression、scrapy

我一直在尝试从网站上抓取数据。我想从一些我不知道名字的网站上的老师那里得到信息。每个老师在网站上都有一个遵循一定规律的页面。举个例子，这个老师Lois Bank存储在：。所以模式是老师的名字，斜杠，一个数字，破折号t。在我尝试使用CrawlSpider使用正则表达式从主页爬行之前，因为我试图访问的页面没有链接到主页，所以它不起作用，访问它们的唯一方法是在搜索框中搜索老师的名字。我试着写了下面的爬虫，但它不能工作： from scrapy.selector import HtmlXPathSelector from scrapy.contrib.linkextractors.sgml im

浏览 0提问于2011-06-28得票数 0

1回答

Python -如何从另一个蜘蛛方法调用变量？

scrapy、python-3.7

因此，我试图学习刮刮和学习项目，我想刮这个网站的项目名称(仅从一个类别自动取款机) ，然后输入那些项目网址和抓取描述文本。我已经得到了一些关于编写2只蜘蛛的建议，但我不知道如何在解析方法中从变量中获取数据，从第一个蜘蛛到第二个蜘蛛来填充start_urls。我现在在这里： import scrapy class Names(scrapy.Spider): name = 'killernames' start_urls = ['https://www.killertools.com/Dent-Removal-Aluminum-Steel_c_1

浏览 1提问于2020-09-07得票数 1

回答已采纳

1回答

刮擦-等待页面加载的飞溅

python、lua、scrapy、scrapy-splash

我对刮擦和飞溅很陌生，我需要从单个页面和常规的web应用程序中抓取数据。不过，有一点要注意的是，我主要是从内部工具和应用程序中抓取数据，所以有些工具和应用程序需要身份验证，而且所有这些都需要至少几秒钟的加载时间才能完全加载页面。我天真地尝试了Python time.sleep(秒)，但它没有工作。基本上，SplashRequest和scrapy.Request似乎都会运行并产生结果。然后，我了解了LUA脚本作为这些请求的参数，并尝试了使用不同形式的wait()形式的LUA脚本，但看起来这些请求实际上从未运行过LUA脚本。它马上就完成了，我的HTMl选择器找不到我要找的东西。我在这里遵循的

浏览 0提问于2019-08-30得票数 0

回答已采纳

1回答

引发ValueError(‘request url中缺少的方案：%s’‘% self._url) ValueError: request url中缺少的方案: javascript:void(0)；

python、web-scraping、scrapy

这是我的蜘蛛密码 spider.py import scrapy class ExampleSpider(scrapy.Spider): name = 'moneycontrol' # allowed_domains = ['moneycontrol.com'] start_urls = ['https://www.moneycontrol.com/india/stockpricequote/'] def parse(self, response): stoke_link_list = resp

浏览 2提问于2020-08-20得票数 1

回答已采纳

2回答

如何修复Scrapy在深度爬行中不起作用

html、hyperlink、web-scraping、scrapy、web-crawler

我目前正在尝试使用scrapy创建一个小型的web抓取原型。我目前的问题与链接提取和跟踪相关。我试图让scrapy浏览页面并找到指向页面的链接(目前不是图像和其他内容)，但我不知道如何正确设置参数。这是我正在使用的蜘蛛： class DefaultSpider(CrawlSpider): name = "default" session_id = -1 rules = [Rule(LinkExtractor(allow=()),callback='parse', follow=True)] def start_re

浏览 2提问于2017-03-01得票数 1

1回答

如何在Python中重新运行抓取的请求对象？

python、request、scrapy

我使用的是Scrapy，在response_is_ban函数中，我有两个对象，一个是{Request}对象，一个是{Response}对象。 from scrapy.http import Request 由于某些原因，Scrapy请求返回的结果与标准Curl不同。有没有办法重新运行{Request}对象？类似于： response = request.get_again() 我们的目标是弄清楚我的Curl函数和Scrapy请求对象之间到底有什么不同，以及为什么它们会返回不同的结果。任何建议都将受到欢迎。编辑:我的另一个问题是，Scrapy在代码中的哪些地方实际执行了请求？有没有一个r

浏览 14提问于2019-05-28得票数 0

1回答

刮擦的CrawlSpider规则没有被遵守？

regex、scrapy

我的爬行蜘蛛在论坛上爬行，但我不想让它爬。这些规则在json文件中： "rules": [ { "allow": ["\\/topic\/.*"], "follow": true }, { "allow": ["\\/tr\\/article\\/.*.html"], "follow": false, "use_content": true }, { "deny": ["\/forum\/.*&

浏览 0提问于2018-12-31得票数 0

1回答

无法理解在哪里查找源代码，以便创建一个web抓取器

python、web-scraping、web-crawler

我是python的新手，从今年夏天开始断断续续地自学。我正在阅读scrapy教程，偶尔阅读更多关于html/xml的内容来帮助我理解scrapy。我自己的项目是模仿scrapy教程，以便抓取。我想得到一个线程标题的列表以及线程的网址，应该是简单的！我的问题在于不理解xpath，我猜也不理解html。当查看gamefaqs站点的源代码时，我不确定要查找什么才能拉出链接和标题。我想说的是，只需查看锚点标记并抓取文本，但我对如何操作感到困惑。 from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSele

浏览 1提问于2012-11-20得票数 1

回答已采纳