如何使用xpath和scrapy提取不同页面(子页面)上的所有图像 - 腾讯云开发者社区

python、xpath、scrapy-spider

我对scrapy和XPath很陌生，但用Python编程已经有一段时间了。我希望使用scrapy从页面email、name of the person making the offer和phone中获取https://www.germanystartupjobs.com/job/joblift-berlin-germany-3-working-student-offpage-seo-french-market/的编号。正如您所看到的，电子邮件和电话是在<p>标签中作为文本提供的，因此很难提取。我的想法是首先在Job Overview中获取文本，或者至少在所有讨论各自任务的文本中使

浏览 5提问于2016-12-16得票数 1

回答已采纳

1回答

对于一些具有刮伤外壳的元素，XPath不返回结果。

python、xpath、scrapy

我使用刮除外壳来提取以下网页的数据：大多数数据都正常工作，但在较低的部分中有一个表，其中的内容(如PZN )。我似乎无法提取。 scrapy shell fetch('https://www.apo-in.de/product/acc-akut-600-brausetabletten.24170.html') >>> response.xpath('//*[@id="accordionContent5e95408f73b10"]/div/table/tbody/tr[1]/td/text()').extract() 返回：[

浏览 4提问于2020-04-14得票数 0

回答已采纳

1回答

包含图像和文本的未命名div的抓取更正xpath

python、xpath、web-scraping、scrapy

我正在构建一个遍历多个分页页面并从站点提取数据的爬虫：这就是蜘蛛： # -*- coding: utf-8 -*- import scrapy from scrapy.contrib.spiders import Rule from scrapy.linkextractors import LinkExtractor from lxml import html from usnews.items import UsnewsItem class UniversitiesSpider(scrapy.Spider): name = "universities"

浏览 0提问于2016-05-12得票数 0

2回答

找不到Xpath

web-scraping、xpath、scrapy、web-crawler

我试图使用scrapy抓取IMDB前250个电影，并在期间坚持查找xpath，我需要提取每个电影的"2“、"h”、"44“和"m"。网站链接：以下是HTML的图像：我尝试过这个Xpath，但它并不准确： //li[@class ='ipc-inline-list__item']/following::li/text()

浏览 3提问于2022-02-25得票数 0

回答已采纳

1回答

如何获取该页中每个广告的数据？

python、xpath、scrapy、scrapy-spider、scrapy-shell

我正在抓取这个页面以获取每个Ad：的数据下面是我在刮擦壳中的代码： scrapy shell "http://www.cars2buy.co.uk/business-car-leasing/Abarth/695C/" for content in response.xpath('//*[@class="pitem"]/div[1]/div[2]/div[1]'): print content.xpath('//*[@class="detail"]/p/text()[2]').extract()

浏览 1提问于2017-04-29得票数 1

回答已采纳

1回答

使用Scrapy存档页面

python-2.7、scrapy

我刚刚开始玩Scrapy，我现在的目标是构建一个网页归档工具。到目前为止，我有这段代码，可以将页面保存到项目文件夹中的.html文件中。 import scrapy class TestSpider(scrapy.Spider): name = "testbot" allowed_domain = ["URL"] start_urls = ["URL"] def parse(self, response): filename = response.url.split("/")[-2] + &#

浏览 2提问于2016-12-06得票数 0

2回答

如何在源代码(Xpath)中查找特定字符串并提取后续文本？

python、xpath、web-scraping、scrapy

来自以下源代码： <html> ... <div>.......</div> <script bounce ="bla">....</script> <div>.......</div> . . n . <script bounce="foo">....],[null,"bla bla"]........</script> . . . </html> 我想提取(bla bla)，它肯定是在(，null，")之后出现的，直

浏览 30提问于2018-07-20得票数 1

回答已采纳

1回答

开始标记内的元素

python、html、css、xpath、scrapy

我正在写一个蜘蛛下载所有的图像在一个子subreddit的首页使用scrapy。为此，我必须找到要从中下载图像的图像链接，并使用CSS或XPath选择器。经过检查，提供了链接，但是所有链接的HTML看起来都是这样的： <div class="expando expando-uninitialized" style="display: none" data-cachedhtml=" <div class="media-preview" id="media-preview-7lp06p" style="m

浏览 0提问于2017-12-24得票数 0

1回答

刮刮递归刮伤网站

python、scrapy、web-crawler、scrapy-spider

我想写一个刮板，访问初始页面的所有子页面。示例网站是：pydro.com，例如，它还应该提取并将其保存为我的硬盘上的html文件。我写的代码： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from scrapy.exporters import CsvItemExporter from scrapy.loader import ItemLoader from finalproject.items import Finalp

浏览 0提问于2018-05-23得票数 0

1回答

在爬行过程中如何处理Xpath中的不同行？

python、scrapy、web-crawler

我正在尝试刮刮一个网站使用Scrapy，为其产品链接。我已经知道了如何获得所有子类别的链接，但是现在当我进入显示产品的页面时，我无法找到使用Xpath提取所有元素的解决方案。最初的问题是如何处理Xpath / Scrapy中的不同行号以获取所有项？目标页面示例：我要先在Scrapy Shell上测试所有的东西 Xpath以获得产品卡@href (在Chrome中使用复制完整Xpath选项)：response.xpath('/html/body/main/section/div/div/div/div/div/div/ul/li[1]/div/a/@href').extrac

浏览 4提问于2022-03-17得票数 0

回答已采纳

1回答

使用Scrapy刮取数据

python、web-scraping、scrapy、pip

我试着用刮伤来刮数据。但在编辑代码方面有困难。以下是我所做的实验： import scrapy class BlogSpider(scrapy.Spider): name = 'blogspider' start_urls = ['http://anon.example.com/'] def parse(self, response): for title in response.css('h2'): yield {'Agent-name': title.css(

浏览 3提问于2017-01-30得票数 1

回答已采纳

1回答

抓取-选择表单中的项并提取显示的表

python、scrapy

我试图从网页中提取信息，它要求我从下拉列表中进行选择，并根据所选内容显示一个包含各种信息的表。我在页面上有一个表单/列表的选择值列表，我想迭代并提取表信息。网页： import scrapy from scrapy.spiders import Spider product_names = ['Host Intrusion Prevention','McAfee Agent','Active Response','Database Security'] class McAfee_Spider(scrapy.Spider):

浏览 3提问于2019-07-17得票数 0

回答已采纳

1回答

如何从不同的页面抓取数据并分配给相同的数据集？

python、scrapy

我试图抓取一个网站与抓取，其中的item_id与一些数据在一个页面上，并从这个项目的其他信息在另一个页面上。我面临的问题是，如何将附加信息分配给在page1上找到的同一数据集？项目： class GetIt(scrapy.Item): ID = scrapy.Field() name = scrapy.Field() 我的爬虫的相关部分： rules = ( Rule( # first page LinkExtractor(allow=['regex']),

浏览 20提问于2018-12-26得票数 0

回答已采纳

1回答

使用Scrapy提取<header>

python、scrapy

如何用Scrapy从一个页面中提取所有的<header></header>？我试过了，但没有用：response.css('header') 此外，我需要来自<header></header>本身的所有<img></img>来分析class内容和src链接。

浏览 6提问于2020-07-29得票数 0

回答已采纳

2回答

如何从XML页面中提取urls，加载它们并使用提取其中的信息？

python、xml、scrapy

我使用Scrapy的XMLfeedspider从页面xml中提取信息。我试图只提取标签"loc“中该页上的链接，并加载它们，但阻止页面重定向，然后将其发送到将从该页收集信息的最后一个解析节点。问题是，我不确定是否可以在"def star_urls“上加载这些页面，或者是否需要使用parse_node并将其重定向到另一个解析以提取我需要的信息，但是即使我尝试了，也不知道如何从xml页面中提取链接，而不是所有的loc标记。继续我的想法：方法应该是加载并从其中提取<loc>标记中的链接，如下所示：然后最后加载每个页面并提取标题和url。有什么想法吗？

浏览 2提问于2017-07-20得票数 1

回答已采纳

1回答

用xPathSelector提取嵌套的'img src‘

python、xpath、web-scraping、scrapy

在这方面，我对使用Scrapy或python还比较陌生。我希望从几个不同的链接中提取这些内容，并且我在使用HTMLXPathSelector表达式(语法)时遇到了问题。我已经查看了大量的文档，以找到正确的语法，但还没有找到解决方案。这里是我试图从：提取'img src‘的链接的一个例子。 from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector class GeekSpider(BaseSpider): name = "geekS" allo

浏览 2提问于2012-12-15得票数 7

回答已采纳

2回答

用Scrapy从两个页面中提取数据

scrapy、scrapy-spider

我有一个议程作为开始。此页面包含事件的开始时间和标题，以及指向每个事件的详细信息页的链接。我的蜘蛛提取每个事件的细节页面上的所有事件细节(描述、位置等)，除了我必须在开始页面上提取的开始时间。如何从起始页和每个详细信息页上的其他数据中提取开始时间？有什么好斗的路要走？使用元“物品”？我不明白..。现在这是我的蜘蛛。任何帮助都非常感谢！ class LuSpider(scrapy.Spider): name = "lu" allowed_domains = ["example.com"] start_urls = ["http://www.exampl

浏览 2提问于2016-02-23得票数 2

回答已采纳

3回答

从博客中提取内容

python、web-scraping、scrapy

import scrapy from scrapy.http import Request class PushpaSpider(scrapy.Spider): name = 'pushpa' start_urls = ['https://davestruestories.medium.com'] headers = { 'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chr

浏览 5提问于2022-02-06得票数 0

回答已采纳

2回答

Python Scrapy提取aria-label的值

python、scrapy

我是Scrapy的新手，我正在尝试抓取一个在类上有唱段标签的页面： <body> <div class="item-price" aria-label="$1.99"> ..... </div> </body> 我正在尝试使用我的爬行器上的以下解析来提取标签： def parse(self, response): price = circular_item.css("div.item-price > aria-label::text").extract() yiel

浏览 20提问于2018-09-03得票数 1

回答已采纳

1回答

抓取:如何访问几个子页面并提取所有文本？

python、xpath、scrapy

我想执行三个简单的任务，这些任务应该适用于大多数页面。获取主页面上的所有链接Visit提取的子页面(例如，)Just获取在子页上找到的所有文本) 我的方法是： import scrapy class StadtKoelnSpider(scrapy.Spider): name = "stadt_koeln" def start_requests(self): urls = ['http://www.stadt-koeln.de/politik-und-verwaltung/stadtentwicklung/']

浏览 7提问于2022-02-07得票数 0

回答已采纳

2回答

xpath前后的子字符串-使用scrapy

python、web-scraping、scrapy

我用刮片来打破一张电影清单： import scrapy class ScrapeMovies(scrapy.Spider): name='movies-to-see' start_urls = [ 'https://www.listchallenges.com/200-movies-to-see-before-you-die/' ] def parse(self, response): for film in response.xpath('//div[@class="item

浏览 1提问于2018-03-11得票数 0

回答已采纳

1回答

抓取:如何在进入网站和抓取内容之前抓取链接图像？

web-crawler、scrapy

我最近正在学习Scrapy，并使用edX.org作为锻炼目标，但遇到了一些困难。假设我想抓取这个页面中的内容：一切都很好，除了我不喜欢这个页面上的图片，因为它太大。我发现页面上的列表提供的图像是我想要的，这个URL是我的爬虫开始的地方。如何将本课程的第二个URL (课程列表)提供的图像和第一个URL (特定课程信息)中显示的相应的课程信息合并到一个项目中？Scrapy中的哪一种机制可以帮助我做到这一点？

浏览 2提问于2014-05-24得票数 1

回答已采纳

1回答

将抓取的response.css用于样式标记

html、python-3.x、web-scraping、scrapy

我想从一个初始网站中提取下一页，使用的是scrapy库中的函数response.css()。当更多页面的链接像这样嵌入时，我没有找到任何关于如何使用该函数的提示： <li style="text-align: left;"><a href="/the/desired/link">NameOfPage</a></li> scrapy可以做到这一点吗?或者我应该使用BeautifulSoup之类的其他东西吗？

浏览 17提问于2021-03-15得票数 0

回答已采纳

2回答

将scrapy限制为解析单个标记

python、scrapy

我正在尝试使用scrapy爬行www.tvtropes.org，例如：我正在调用shell来尝试刮取，使用上面的网页，然后通过选择具有属性itemprop="articleBody“的div标记获得页面的相关部分。一切都很好。 scrapy shell "http://tvtropes.org/pmwiki/pmwiki.php/Film/Belle" itembody = response.xpath('//div[@itemprop="articleBody"]') 然后，我想提取标签中所有的独立列表项目，是为该影片列出的产品列表

浏览 4提问于2016-10-20得票数 0

回答已采纳

1回答

Scrapy:在使用scrapy和xpath时，如何同时获取文本和带有<b>标记的文本？

python、xpath、scrapy

我需要从下面的html中获取183.7 <span class="price"><b>183</b>.7</span> 但是，如果在代码下面以scrapy shell模式运行，则只有'.7‘可用 response.xpath('//span[@class="price"]/text()').get() 我该如何写代码来获得完整的数字？我在http://doc.scrapy.org/en/1.7/topics/selectors.html#topics-selectors上读过Scrap

浏览 11提问于2019-10-17得票数 1

回答已采纳

1回答

从任意嵌套的HTML中提取所有文本

python、web-scraping、css-selectors、scrapy

我正在使用Scrapy从新闻网站中提取新闻文章的文本。我假设<p>标记中的所有文本都是实际的文章。(这不一定是一个安全的假设，但我正在使用它)为了找到所有的<p>标签，Scrapy让我使用css选择器，如下所示： response.css("p::text") 问题是，一些新闻网站喜欢在他们的文章中加入很多标记，比如： <p> Senator <a href="/people/senator_whats_their_name">What&#39s-their-name</a> is &l

浏览 10提问于2017-02-07得票数 2

回答已采纳

1回答

从子页面中提取数据

scrapy

我试图从这样的网络中提取价格细节，使用scrapy。当我选择每种颜色浏览器时，都会向服务器发送一个新的ajax请求。例如用于彩色。 import scrapy class TestSpider(scrapy.Spider): name = "Test" def start_requests(self): urls = [ 'https://www.alinea.com/fr-fr/p/vence-canape-1.5-places-fixe-en-lin-vert-cedre-26943589.html'

浏览 3提问于2021-04-25得票数 1

1回答

如何从同一csv行中的多个页面中刮取数据？

python、scrapy、scrapy-spider

我需要从多个页面中抓取数据。首先，它应该从第一页抓取数据，然后从这个页面中提取一个url到第二页，并从中获取一些数据。所有人都应该在同一个csv行上。这是第一页：数据的示例是表e.g:catalog、模型、生产和系列的第一行。这是第二页：示例的数据:系列，引擎，生产日期。两者应该在同一个csv行上，就像屏幕截图一样：这是我的密码： import datetime import urlparse import socket import scrapy from scrapy.loader.processors import MapCompose, Join from

浏览 4提问于2017-03-25得票数 0

1回答

我能用Scrapy提取这个XHR数据吗？

python、scrapy

我正在尝试用Scrapy从这个中提取数据。例如，我希望使用page=1遍历这些<a href=\"/@eberhardgross\">\n，比如前100个页面，并提取urls的每个实例。最终，只是尝试获取用户名，但是页面上还有其他<a href="">，但是如果我可以提取用户名，那就太好了，但是如果我必须获取所有的<a href="">，那就好了，我可以对它们进行排序，只获取@。只是想知道我能不能通过scrapy做这个？ import scrapy class QuotesSpider(scrapy.Spid

浏览 0提问于2019-12-18得票数 0

1回答

如何在刮伤中提取准确的标签

python、html、web-scraping、scrapy、extract

我为scrapy编写了一个类，以获得如下页面的内容： #!/usr/bin/python import html2text from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector class StockSpider(BaseSpider): name = "stock_spider" allowed_domains = ["www.hamshahrionline.ir"] start_urls = ["http://w

浏览 0提问于2014-06-07得票数 1

回答已采纳

1回答

使用Scrapy递归地从页面上找到的每个表中抓取数据

python、scrapy

我在64位Windows Vista上使用的是Python.org 2.7版。我有下面这段代码，它从一个web页面中抓取一个命名表： from scrapy.spider import Spider from scrapy.selector import Selector from scrapy.utils.markup import remove_tags from scrapy.cmdline import execute import csv filepath = "C:\\Python27\\Football Data\\test" + ".txt"

浏览 4提问于2014-07-30得票数 0

1回答

为什么我不能通过response.css获取所有的图片链接？

python、web-scraping、scrapy

我正在尝试提取图像的所有链接，但我只能提取每个属性页上的主图片，使用 response.css('div.col-sm-12 img.visible-print-block::attr(src)').get() 除此之外，当我尝试使用此代码提取其余图像时，我得到一个空数组。如何解决这个问题？ class WebBox2Spider(scrapy.Spider): def parse(self, response): for prop in response.css('div.grid-item'): link =

浏览 17提问于2019-08-07得票数 0

回答已采纳

2回答

抓取CrawlSpider:在提取链接之前获取数据

scrapy

在CrawlSpider中，在提取每个链接之前，我如何在图像中擦除标记"4天前“的字段？下面提到的CrawlSpider运行良好.但是在'parse_item‘中，我想添加一个名为'Add’的新字段，在这里我希望在图像上标记该字段。 import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class PropertySpider(CrawlSpider): name = 'proper

浏览 6提问于2022-03-04得票数 1

回答已采纳

1回答

不一致的Scrapy Xpath行为(OS + Linux)

python、linux、macos、xpath、scrapy

我在Scrapy中遇到了Xpath选择器的问题。每当我在OS上运行蜘蛛时，选择器就会正常工作；但是，当我在Ubuntu12.04和Raspbian中运行相同的脚本时，选择器就不能工作了。我不知道为什么会发生这种事。选择器是： sel.xpath('//table[@class="times"]') 它将表的两个选择器返回给我，但当我更进一步并添加一个索引来选择返回的第二个表时： sel.xpath('//table[@class="times"][2]') OS向我返回第二个表没有问题，而Ubuntu/Raspbian没有返回任

浏览 1提问于2014-01-23得票数 2

回答已采纳

2回答

使用Scrapy for Python从html路径提取数据

python、xpath、firebug、bing-maps、scrapy

我的项目概述：我正在尝试用python2.6创建一个简单的脚本，它将从Bing Maps获取交通时间数据。Scrapy库模块包(scrapy.org/)是我用来爬行每个网站并从Bing地图中提取数据的工具。上面的图片显示了我想要的东西。(现在高亮显示的数据部分，但最终也需要下面的时间。) 我首先做了一个测试，看看启动url是否会通过。然后如果成功通过，则使用输出日志来打印url的输出。一旦成功，我的下一步就是尝试从网页中提取所需的数据。我一直在使用Firebug、XPather和XPath Firefox插件来查找我想要提取的数据的html路径。这个链接在指导我正确编码路径(d

浏览 1提问于2011-08-16得票数 1

1回答

使用xpath选择带有图像的链接的href

html、xpath、web-scraping、scrapy

我用刮刀写了一个刮板，找到链接中的图片，并抓取链接的href。我正在抓取的页面是用图像缩略图填充的，当您单击缩略图时，它会链接到图像的完整大小版本。我想要全尺寸的照片。 html看起来有点像这样： <a href="example.com/full_size_image.jpg"> <img src="example.com/image_thumbnail.jpg"> </a> 我想抓住"example.com/full_size_image.jpg"。我现在的方法是 img_urls = scra

浏览 2提问于2016-07-11得票数 2

回答已采纳

1回答

用Scrapy从文本文件中从多个URL中抓取所有外部链接

python、url、web-scraping、scrapy、web-crawler

我对Scrapy和Python很陌生，因此我是个初学者。我希望能够让Scrapy读取一个包含大约100 k URL的种子列表的文本文件，让Scrapy访问每个URL，并提取每个种子URL上的所有外部URL(其他站点的URL)，并将结果导出到一个单独的文本文件中。 Scrapy只应该访问文本文件中的URL，而不是爬行并跟踪任何其他URL。我希望能够让Scrapy尽快工作，我有一个非常强大的服务器与1 1GBS线。我列表中的每个URL都是来自一个唯一的域，所以我根本不会访问任何一个站点，因此不会遇到IP块。如何在Scrapy中创建一个项目，以便从存储在文本文件中的urls列表中提取所有外部链接

浏览 0提问于2016-08-28得票数 1

回答已采纳

5回答

提取文本xpath抓取

html、xpath、scrapy

大家好，我想用scrapy中的xpath从html块中提取所有文本。假设我们有这样一个街区： <div> <p>Blahblah</p> <p><a>Bluhbluh</a></p> <p><a><span>Bliblih</span></a></p> </div> 我想把文本摘录为"Blahblah"，"Bluhbluh"，"Blihblih“。我希望xpath递归

浏览 10提问于2014-10-10得票数 8

回答已采纳

1回答

条件URL抓取

python、xpath、scrapy

我试图在一个我不知道网址结构的网站上使用Scrapy。我想：只从包含Xpath“//div@class=”-view“的页面中提取数据。提取打印(在CSV中) URL、名称和价格Xpath 当我运行下面的脚本时，我得到的只是一个随机的URL列表 scrapy crawl dmoz>test.txt from scrapy.selector import HtmlXPathSelector from scrapy.spider import BaseSpider from scrapy.http import Request DOMAIN = 'site.c

浏览 5提问于2016-07-27得票数 1

1回答

刮擦蜘蛛无法使用xpath提取网页内容

python、xpath、web-crawler、scrapy

我有刮擦蜘蛛，我使用xpath选择器提取页面的内容，请检查我哪里出错了。 from scrapy.contrib.loader import ItemLoader from scrapy.contrib.spiders import CrawlSpider,Rule from scrapy.selector import HtmlXPathSelector from medicalproject.items import MedicalprojectItem from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor fro

浏览 4提问于2015-10-15得票数 0

回答已采纳

1回答

Python3抓取网爬虫

html、python-3.x、web-scraping、scrapy、web-crawler

对于我的工作，我必须写一个爬虫，它只保存页面的标题，交付状态和产品的数量。以下是我的默认蜘蛛代码： import scrapy class QuotesSpider(scrapy.Spider): name = "quotes" def start_requests(self): urls = [ 'https://www.topart-online.com/de/Ahorn-japan.%2C-70cm%2C--36-Blaetter----Herbst/c-KAT282/a-150001HE'

浏览 2提问于2020-07-20得票数 0

回答已采纳

1回答

刮伤:如何选择头部和身体标签

python、xpath、scrapy、web-crawler

所以，我有一个爬虫，它需要从头部的元标签中提取一些数据，以及身体中的一些元素标记。当我试着这个关于response.xpath课程(“//html”)：还有这个 Response.xpath课程(“//head”)：它只从<head>... </head>标记中的元标记获取数据。当我试着这个关于response.xpath课程(“//body”)：它只从html <body>... </body>标记中的标记中获取数据。我如何组合这两个选择器，我也尝试过关于response.xpath课程(“//hea

浏览 1提问于2017-02-10得票数 0

1回答

用Scrapy从div选择器中提取文本

python、scrapy

我正试图在中获取价格信息。我使用了scrapy shell "https://www.potterybarnkids.com/shop/easter/easter-shop-all-baskets/"，然后尝试获取span内部的价格，class="price-state price-sale"有一种方法可以提取span内部的整个文本吗？我试过了 response.xpath('//span[@class="price-state price-sale"]/text()').extract()也是response.xpath(&#

浏览 0提问于2019-05-18得票数 0

回答已采纳

2回答

使用scrapy跟踪新闻链接

python-3.x、web-scraping、scrapy、web-crawler、scrapy-spider

我是新的爬行和刮伤，我试图从提取一些新闻，也只是与标签san-valentin匹配的新闻。该网页只是标题与新闻图片，如果你想要阅读它，你必须点击新闻，它将采取ypu的网页()。因此，我认为我的步骤是：转到与我想要的标记匹配的页面，在本例中是san-valentin。从新闻中提取urls 转到新闻版面提取我想要的数据我已经有了第1和第2点： import scrapy class SpiderTags(scrapy.Spider): name = "SpiderTags" def start_requests(self):

浏览 1提问于2019-02-14得票数 0

回答已采纳

2回答

选择包含具有特定类的div的元素的文本

html、css、scrapy

我使用scrapy选择器来提取下面的html并将其加载到项目加载器中。如何提取td的文本，其中这个td包含一个带有类sweetness的div 也就是说，我想提取文本Dry。 HTML代码： <tr> <td> <div class="grape"> </div> Cabernet Sauvignon </td> <td> <div class="sweetness"> &l

浏览 0提问于2020-04-08得票数 1

1回答

用于抓取链接内内容的xpath问题

web-scraping、xpath、scrapy

我开始学习scrapy，我想知道如何在excel文件中获得每个州的学校信息。每个状态都是一个指向另一个页面的链接，我不确定如何为此编写xpath语法。请给我建议。 import scrapy class RaisemeSpider(scrapy.Spider): name = 'raiseme' allowed_domains = ['raise.me/high-school'] start_urls = ['http://raise.me/high-school/'] def parse(self, respo

浏览 5提问于2021-03-20得票数 0

2回答

如何用XPath提取包含< not编码的文本&lt；

html、xpath、scrapy、html-entities

我想使用Scrapy从html页面中提取一些文本。其中一个元素包含一个<字符，该字符未被编码为< (页面无效)。例如 <div> years < 7 </div> 使用XPath (在Chrome或Scapy代码中)使用'//div/text()'，我只能提取'years' 有没有办法获得全文( 'years < 7' )？

浏览 3提问于2013-11-13得票数 1

回答已采纳

1回答

未获得scrapy格式的预期输出

python、scrapy

我正在做网页抓取，但是我没有得到我期望的输出。我正在学习网络抓取，还是个初学者。问题是，并不是所有的引用都被刮掉了。 import scrapy class QuoteSpider(scrapy.Spider): name = 'Quotes' start_urls = [ 'http://quotes.toscrape.com/' ] def parse(self, response): for quotes in response.selector.xpath("//div[@class=

浏览 11提问于2019-10-17得票数 0

回答已采纳

1回答

使用刮擦器导航href的最佳实践

python、scrapy

我正在构建一个网络刮刀，从网站下载csv文件。我必须登录到多个用户帐户，以下载所有的文件。我还需要浏览几个href，才能为每个用户帐户找到这些文件。为了完成这项任务，我决定使用刮除蜘蛛。下面是我到目前为止掌握的代码：我将用户名和密码信息存储在字典中。 def start_requests(self): yield scrapy.Request(url = "https://external.lacare.org/provportal/", callback = self.login) def login(self, response): for unam

浏览 1提问于2017-01-20得票数 0

回答已采纳

1回答

刮除Xpath输出为空

python、xpath、web-scraping、scrapy

我想在这个网站上提取数据：，我正在学习python，以及如何使用Scrapy，我的问题是:为什么我不能用Xpath检索数据？当我在浏览器中测试Xpath时，我的xpath看起来很好，它会返回正确的值。(谷歌Chrome) import re from scrapy import Spider from scrapy.selector import Selector from stack.items import StackItem class StackSpider(Spider): name = "stack" allowed_domains = ["poke

浏览 2提问于2016-06-28得票数 3

回答已采纳