从scrapy中的href标签中提取完整的URL

文章/答案/技术大牛

发布

1回答

、、

我在试着用scrapy来自刮擦此产品的URLsite 这是我尝试过的代码： url = response.css('a[data-tracking="click_body"]::attr(href)').extract() 但我的代码返回的内容与URL非常不同。下面是我感兴趣的div的HTML代码。8 238 zł/m² 已复制该标签的</e

浏览 55提问于2020-07-20得票数 0

回答已采纳

1回答

无法使用scrapy提取完整的url @href

、、、

我正在尝试从amazon.in中提取产品的url。源代码中a-tag中的href-attribute如下所示： href="/Parachute-Coconut-Oil-600-Free/dp/B081WSB91C/ref=sr_1_49?qid=1588693187&s=pantry&sr=8-49&srs=9574332031&

浏览 0提问于2020-05-05得票数 1

1回答

匹配多个标签的刮刮爬行堆叠溢出问题

、、、

我尝试了页面中的示例代码。我试着用标签“bigdata”来提取最近的问题。一切都很顺利。但是当我试图提取两个标签'bigdata‘和'python’的问题时，结果是不正确的，结果中只有'bigdata‘标记。但在浏览器上，我正确地回答了两个标签的问题。h3 a::attr(href)'): full_

浏览 3提问于2015-08-21得票数 3

回答已采纳

1回答

刮伤错误处理url

、

嗨，我是python和scrapy的新手，我试着编写蜘蛛代码，但是在处理启动url时，我找不到错误或错误的解决方案，不知道这是否是xpath或其他东西的问题，我发现大多数关于错误缩进的线程，但这不是我的情况//a/@href').extract() print the_href</

浏览 2提问于2017-03-28得票数 2

回答已采纳

2回答

抓取Python循环到下一个未擦伤的链接

、、

我试图让我的蜘蛛浏览一个列表，刮掉所有的url--它可以在它们后面找到，抓取一些数据，然后返回到下一个未刮掉的链接上--如果我运行这个蜘蛛--我可以看到它返回到起始页面，但是尝试再次抓取相同的页面，然后退出对python来说非常新的任何代码建议。): item['listurl'] = sel.xpath('//a[@id="link101"

浏览 3提问于2016-07-18得票数 0

回答已采纳

2回答

请注意-我非常没有经验，这是我的第一个‘真正’的项目。我将尽我所能地解释我的问题，如果某些术语不正确，我深表歉意。type=Agents&search_agent=+&submit_agent_search=GO 我可以抓取“姓名”和“状态”，但我还需要在“完整详细信息”弹出窗口中获取一些信息。我注意到，当点击“完整详细信息”按钮时，URL保持不变。下面是我的代码： import scrapy from FirstScrape.ite

浏览 34提问于2020-12-26得票数 3

回答已采纳

1回答

Scrapy / Python在保存之前修改提取的数据？

、、

我正在尝试将一个url附加到一个提取的数据片段中，但终生找不到方法。http:exampleurl.com/images/12306116_l_a1.jpghttp:exampleurl.com/images/12306116我使用的爬虫代码完整如下：from scrapy

浏览 0提问于2018-07-19得票数 0

1回答

刮擦脚本，如何找到特定的关键字并返回或打印url

、、、

好的，所以我必须完全编辑这个。我已经让脚本部分工作，我可以启动它没有任何问题，这是脚本。粘贴链接在这里：，您可以看到我在cmd行中得到了什么。我确信正在搜索的关键字在这些链接中，因为我也尝试过其他单词，但它没有下载它们。import scrapy from scrapy.http import Request from FinalSpider.items= 100 class FinalSpider(<em

浏览 2提问于2015-11-30得票数 0

回答已采纳

1回答

从导致pdf文件的锚元素中提取信息

、、

我使用Scrapy从网站抓取和刮取数据，主要由html页面和pdf文件组成(我已经修改了IGNORED_EXTENSIONS以允许抓取pdfs)。我需要提取被困在<a>标记之间的文本：显然，我不能执行response.text或response.css我脑海中浮现的一件事是爬行页面，从页面中提取</

浏览 0提问于2016-12-12得票数 1

3回答

(刮起)如何从数百个网站的列表中刮除每个网站上的所有外部链接(并在Zyte上运行整个程序)？

、、

我正在寻找一些帮助，我的刮风项目。我想使用Scrapy来编码一个通用的蜘蛛，它将从一个列表中抓取多个网站。我希望把这个列表放在一个单独的文件中，因为它很大。我相信有太多的网站创建一个蜘蛛每个网站。我想只刮外部链接，意思是“绝对”链接，其域名不同于网站的领域找到链接(子域将仍然是内部链接从我的POV)。最后，我想用以下字段导出CSV中的结果：正在爬行的网站<e

浏览 4提问于2021-11-09得票数 0

1回答

刮擦不收集数据

、、、

我使用scrapy从craiglist收集一些电子邮件，当我运行它时，它会返回.csv文件中的空白行。我能够提取标题，标签和链接。只有电子邮件才是问题。= scrapy.Field() title = scrapy.Field() def parse(self,

浏览 1提问于2015-06-19得票数 1

回答已采纳

2回答

Scrapy中的If条件

、、、

我正在使用scrapy抓取给定url中的标签，并检查标签中的url链接是否与网站的url匹配。我想将结果导出到csv，其中有一列指示是否存在匹配。我有以下代码，但不确定如何添加匹配条件：import pandas as pdfrom scrapy.crawler import CrawlerProcesscla

浏览 1提问于2019-07-03得票数 0

2回答

Python -尝试使用Scrapy从web抓取中获取URL (href

、、、

我正在尝试使用web抓取从网页中获取URL或href，特别是使用Scrapy。但是，当I response.xpath('XPATH').extract() href链接时，它返回一个空列表。我尝试获取的特定HTML元素href是：<a href="#2020-38970" class="redNoticeItem__labelLink" data-singleurl=

浏览 27提问于2020-06-11得票数 0

回答已采纳

1回答

产品信息分析及产品评论

、、

我正在创建一个爬虫来获取产品信息和产品评论，并从一个特定的类别导出到csv文件。例如，我需要从裤子类别中获取所有信息，所以我的爬行从那里开始。类SheinSpider(scrapy.Spider)：start_urls =

浏览 0提问于2020-03-11得票数 1

回答已采纳

1回答

刮伤:如何选择头部和身体标签

、、、

所以，我有一个爬虫，它需要从头部的元标签中提取一些数据，以及身体中的一些元素标记。</head>标记中的元标记获取数据。它只从html <body>... </body>标记中的标记中获取数据。</head>的<

浏览 1提问于2017-02-10得票数 0

1回答

在按钮内刮擦文本

、

我可以请求您的帮助吗？我正在尝试刮下面的站点：( 3)由于某种原因，代码中的价格项目也有问题。(“列表索引超出范围”)谢谢！import sc

浏览 0提问于2018-03-15得票数 0

回答已采纳

1回答

从第一个元素和文章标题中收集数据

、、、、

我需要Scrapy从这个标签中收集数据，并将这三个部分完整地检索起来。输出将类似于：第二，从第一个span标签

浏览 0提问于2015-05-25得票数 1

回答已采纳

2回答

使用scrapy跟踪新闻链接

、、、、

我是新的爬行和刮伤，我试图从提取一些新闻，也只是与标签san-valentin匹配的新闻。我已经有了第1和第2点

浏览 1提问于2019-02-14得票数 0

回答已采纳

1回答

Python -如何刮取从已刮过的HTML文件中检索的HTML文件？

、

此时，我能够检索正在刮取的HTML文件中的HREF内容。但是我也想从HTML文件中检索到的URL中抓取HREF内容。name = "FirstSpider"

浏览 0提问于2020-06-21得票数 0

回答已采纳

2回答

使用Scrapy下载所有JS文件？

、

我刚接触Scrapy，我发现我可以使用CrawlSpider，但我似乎对LinkExtractors有一个问题，因为我的解析器没有执行。import scrapyfrom scrapy.linkextractors import LinkExtractor='parse_item'), self.logger

浏览 25提问于2021-02-17得票数 0

回答已采纳

点击加载更多