如何在此网页中使用scrapy刮掉所有加粗的部分标题？

它从web上的url开始(例如：)，获取与该url对应的网页，并将该页面上的所有链接解析为链接存储库。接下来，它从刚刚创建的存储库中获取任何url的内容，将这个新内容中的链接解析到存储库中，并对存储库中的所有链接继续这个过程，直到获取给定数量的链接为止。我怎么能用python和scrapy做这件事呢？我能够在<

浏览 2提问于2013-09-25得票数 4

回答已采纳

3回答

抓取:跟随链接获得额外的项目数据？

、、

我没有具体的代码问题，只是不知道如何用Scrapy框架从逻辑上解决以下问题：最后，我想为每一行刮掉标题、截止日期和Details。标题和到期日可立即在页面上找到.但是 details 本身并不在表中--而是指向包含详细信息的页面的链接(如果没有意义的话，这里有一个表)： |-----------------------

浏览 2提问于2012-02-17得票数 35

回答已采纳

1回答

如何以不同的值多次提交一份表单？

、、、

背景我有什么下面的代码填写目标表单，抓取返回的页面以获取信息，并将该信息放置到项中。import <em

浏览 0提问于2015-05-12得票数 0

1回答

如何抓取此网站//div[@class='body']中的所有文本？

、

import scrapy name = 'act_scraper_1' yield { } 因此，我上面的代码完成了部分工作

浏览 153提问于2020-12-22得票数 0

1回答

我正在寻找一种只缓存被刮掉的图像的方法。我有HTTPCACHE_ENABLED，目前正在实现scrapy扩展: FilesystemCacheStorage 但是现在它会缓存所有被抓取的url，而只有那些进入图像管道的url才应该被缓存。另一种解决方案是缓存页面，但仍然检查自上次抓取以来抓取的值是否发生了变化，并忽略图像。我已经尝试过HTTPCACHE_IGNORE_SCHEMES，但我不确定如何在此方案中<

浏览 0提问于2016-11-20得票数 0

1回答

刮取h3标记返回null

、

作为练习，我希望使用以下代码在此网页中获得产品标题：response.xpath("//h3[1]/text()") 但我得到的唯一东西是什么都没有(一个零模糊的数字)。

浏览 1提问于2018-08-11得票数 0

回答已采纳

1回答

如何使用Scrapy在csv中刮取和提取相似的x路径到不同的行

、、、

我面对的是一个由多个H2标记组成的页面，我要求所有这些标题都存储在我的csv表中的不同行中。我对此使用了scrapy，我的当前代码是：显然，这最终会将页面的所有h2标记存储到我的csv中</e

浏览 8提问于2014-04-22得票数 0

回答已采纳

1回答

如何提取<table>下的所有源代码并导出为html？

、、、

我是Scrapy的初学者。我的目标是从一个大的页面中提取选定的表，然后以格式导出所选的表。因此，从本质上讲，我想要的是只保留 sections的原始网页的更短版本。每个<table>部分的结构如下所示： <tbody> <td> <fo

浏览 3提问于2015-02-15得票数 1

回答已采纳

1回答

Scrapy -如何在链接标记内指定href以获取所有页面和论文

、

我想要获取包含这些问题的所有页面，以及该科学期刊()的所有论文。<link rel="next" href="https://

浏览 2提问于2020-03-02得票数 0

1回答

刮擦蜘蛛在我的笔记本上下载图片，而不是在另一台笔记本上

、

我对Scrapy有个问题，它正在我的笔记本上下载图像，但是当我发送给客户端代码时，它只是擦拭数据，而不是下载图片。你能帮我吗？return f"{item['EAN Code']}_{item['image_urls'].index(request.url)}.jpg"class ProjectMohieItem(scrapy.Item): images=scrapy<

浏览 2提问于2022-10-17得票数 -1

1回答

使用Scrapy抓取结果时过滤部分html页面

、、、

我想刮掉this webpage上列出的产品。所以我尝试从div.product-tile中提取所有的data-tcproduct属性。它包含许多东西，包括我需要访问的产品的url。 ? response.css('div.product-tile::attr(data-tcproduct)').extract()): yield scrapy.Request(url=d['produ

浏览 23提问于2020-12-03得票数 0

1回答

用刮擦刮掉所有主机名

、、

我注意到，我试图刮的一些网站将我重定向到另一个主机名：重定向，例如，指向。虽然Scrapy确实刮掉了普通子域()，但它跳过了www2.example.com。这个中间件过滤掉主机名不在蜘蛛的allowed_domains属性中的每个请求。也允许列表中任何域的所有子域。我的问题是:如何确保所有具有不同主机名(例如www2.example.com)的子域都被刮

浏览 4提问于2020-10-22得票数 1

回答已采纳

2回答

Scrapy的正确Xpath

、

我是一个足球迷，正在努力学习scrapy。但是，我遇到了一些与xpath相关的问题，我想知道是否有人可以帮助我。我在页面上，并试图获得所有关于2774名球员的信息。这听起来可能完全是一个新手问题，但我如何抓取球员的名字？我在Chrome中使用selectorgadget获得了xpath。XI列表中的所有名称，这也是我不想要的。@Steve这就是我在scrapy shell中所做<e

浏览 4提问于2016-06-06得票数 1

2回答

从selenium/browser切换到单一蜘蛛的默认机制

、、、、

我遇到过带有Ajax隐藏元素的页面，我需要爬行这些元素。我发现了这个简洁的教程，它展示了如何在没有对服务器的额外调用的情况下使用Selenium来完成此操作(我也是这样)。然而，这个和其他来源提到了为此目的使用Selenium的性能成本。在本例中，驱动程序是在构造函数中启动的，所以我假设对蜘蛛的所有请求都将通过Firefox进行？我只涉及到一小部分</em

浏览 5提问于2015-11-20得票数 0

回答已采纳

2回答

使用Scrapy从页面上项目列表的多个项目中提取信息

、、、

是否可以使用Scrapy从数据列表中的所有数据记录中提取一些数据，因此对于列表视图页面的每个链接，它打开链接(详细信息页面)，选择想要的信息，返回列表视图，选择下面的第一个项目(链接)，对所有项目和所有页面执行相同的工作也就是说，如果我选择分页我有多个项目列表，爬虫需要进入每一个项目，打开详细信息视图抓取需要的信息，然后回到第一页(从第一个附件)，转到另一个链接，并重复每一页的每一个

浏览 7提问于2019-08-26得票数 0

1回答

使用Scrapy抓取使用XMLHttpRequests加载其内容的站点

、、、

我正在尝试的站点(在浏览器中)一次返回50个职位。当我尝试使用刮除返回所有职位时，它只会刮掉20个。链接到网页：那就试一试。我打开了Scrapy并查看了返回JSON<em

浏览 1提问于2019-04-17得票数 0

1回答

比较粗糙的数据

、

我对scrapy非常陌生，在我的项目中，我不确定如何继续进行。我的想法是，我想刮掉hackernews的前2页，然后打印出所有分数超过300的文章/标题。根据我有限的知识，下面的代码是我能够弄清楚如何获得我想要的信息的最佳方式。我的最终目标是我需要比较id和post id来匹配它们，将分数添加到相应的匹配中</

浏览 12提问于2021-05-20得票数 0

回答已采纳

1回答

资源文件中的HTML标记显示为纯文本

、、、、

我正在尝试在资源文件中存储的“同意”字符串中加粗几个单词，以便在网页上的只读、可滚动文本框中显示。我尝试添加粗体标记-- <b></b>--但当网页运行时，它们在“同意”字符串中显示为纯文本。因为在同一个资源文件中还存储了使用中断标记的其他字符串-- <br />--所以我想我应该试着在这个“同意”字符串中放一个。这个中断标记

浏览 17提问于2017-02-28得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云