已抓取但未抓取的抓取链接

、

我已经做了一个抓取器来抓取所有与电子商务网站Cdiscount上的"au-quotidien“相关的类别。机器人应该从最上面的菜单开始，然后访问第二层，然后是第三层，然后是抓取项目。以下是我的代码，作为测试：name = "cdis_bot" # how we have to call the bot，只检索链接。html> (referer: https

浏览 13提问于2018-12-18得票数 2

回答已采纳

2回答

Scrapy没有抓取url中的百分号

、

尝试使用Scrapy抓取图像链接。所以当我显示这个链接时，我得到了一个404错误，因为这个链接是错误的。怎样才能让Scrapy刮掉百分号？

浏览 16提问于2017-02-04得票数 0

2回答

为什么nutch不抓取所有没有英文网站的链接？

、

我用nutch 1.4抓取一个站点，我知道nutch不会抓取这个站点中的所有链接。我没有过滤器，也没有爬行的限制规则。例如，nutch从不抓取此链接：如果我把这个链接给nutch抓取，nutch永远不会抓取这个链接。如何<em

浏览 0提问于2012-01-31得票数 0

1回答

我应该配置什么来停止nutch重新索引或再次获取。对于一个url，它应该只索引一次。

、

任何一个点我正确的文档或黑客停止nutch重新索引或获取相同的内容。对于给定的url，我只想抓取一次。

浏览 2提问于2014-08-20得票数 0

1回答

按html标记值计算的刮取链接提取器

、、

我使用抓取来抓取隐私政策，从它的主页抓取一个网站，我想智能地抓取包含特定关键字的页面中的特定链接(隐私、数据、保护等)。我看到了scrapy的CrawlSpider和对象只允许这样做，但是，我希望不仅对已发现的链接应用正则表达式，而且还要应用到<a></a>标记中的文本<a href=&qu

浏览 0提问于2019-06-05得票数 0

回答已采纳

2回答

抓取抓取中的链接

、

我试图建立一个广泛的连续爬虫，我能够提取链接，但我无法抓取他们和提取这些链接。该项目的最终目标是抓取.au域并将其根URL添加到数据库中。//a/@href')另一个问题是，对于内部链接，它是添加一个相对url路径，而不是绝对路径。我试过用这一节来修复它。

浏览 0提问于2020-06-10得票数 0

回答已采纳

1回答

Scrapy只抓取了4页

、

这是抓取只有4个链接，并返回15个抓取项目/行，但我需要抓取20个链接与35+抓取项目。

浏览 0提问于2018-12-18得票数 0

1回答

如何检测URL列表中的重复值并停止迭代？

、、、

我正在尝试使用puppeteer & cron抓取一个网站。它工作得很好，除了我不知道如何停止程序执行，如果检测到重复的url？下面是我的项目的伪代码： // target = grab the <a> tag from site // saveit to the file 虽然这段代码运行良好，但当我在scheduler/cron上运行这段脚本时，

浏览 19提问于2020-12-11得票数 0

回答已采纳

5回答

Scrapy -如何识别已经抓取的urls

、、

我每天都在用scrapy抓取一个新闻网站。如何限制scrapy抓取已抓取的URL。此外，在SgmlLinkExtractor上是否有明确的文档或示例。

浏览 1提问于2010-10-06得票数 15

2回答

在网站中搜索特定的URL链接？

哪种语言或方法最容易输入网站的URL并接收该网站上与给定URL相链接的每个URL。例如，如果我想要查看在我的网站上有多少次有一个名为oranges的页面的链接，我就会使用它。我会在程序"“中输入我想要搜索"”的网址，然后运行程序。作为回报，我会得到一个文本文件或其他一些文件，其中所有的URL都包含到"“的链接。www.mysite.com/fruits.html http://

浏览 1提问于2012-03-08得票数 1

1回答

返回数字和字母，而不是"?“为href值

、

我正在尝试刮一个使用Scrapy为href链接信息的网络论坛，当我这样做时，我得到了许多字母和数字的href链接，其中的问号应该是。这是我正在抓取的html文档的示例：我正在使用以下代码为href链接抓取htm

浏览 0提问于2016-01-31得票数 0

2回答

如何通过输入域名递归抓取所有站点链接？

如何在PHP中通过输入域名递归抓取所有站点链接？请给我一些想法。

浏览 16提问于2014-11-12得票数 0

1回答

如何使用AJAX测试我在Google上的爬虫能力？

、

我创建了我的网站，所以映射到使用PHP，所以我的网站将显然是谷歌爬虫。我已经用Google Fetch测试过了，它似乎可以工作。然而，我尝试过测试我的网站的所有其他非谷歌蜘蛛都不能使用使用_escaped_fragment_的谷歌技术。我想要确保当谷歌蜘蛛

浏览 0提问于2011-07-30得票数 1

回答已采纳

3回答

为什么我不能用漂亮的汤刮？

、、

我需要从这个网站上抓取唯一的表格：我使用了漂亮的汤和请求，但没有成功。你们能告诉我哪里出错了吗？

浏览 0提问于2019-09-23得票数 0

0回答

抓取-按日期抓取链接

、、、

有没有可能通过与链接相关的日期来抓取链接？我正在尝试实现一个每日运行的爬行器，它将文章信息保存到数据库中，但我不想重新抓取我以前已经抓取过的文章--即昨天的文章。我遇到了，所以post问了同样的问题，被建议了。但是，这依赖于根据先前保存在数据库中的检查新请求。我假设，如果每天的抓取持续一段时间，那么数据库将需要大量的内存开销来存储已经抓

浏览 6提问于2017-06-15得票数 1

回答已采纳

1回答

如何在booking.com上使用scrapy而不被阻止？

、、、

我正在尝试用python插件scrapy从booking.com上抓取酒店评论。这是我的蜘蛛： class FeedbacktestSpider

浏览 12提问于2021-03-07得票数 1

1回答

使用python从同一网页中的多个链接中提取数据

、、、

我是蟒蛇和网络抓取的新手。测试索引有用于各种临床测试的测试组件的名称列表。单击每个名称将带您到另一个页面，其中包含有关单个测试组件的详细信息。我想从这一页中提取出有共同问题的部分。最后，将包含测试组件名称的数据框架放在一列中，将常见问题中的</

浏览 1提问于2018-01-19得票数 0

1回答

为什么FB分享者只在主页上使用OG meta标签详细信息？

、、

我有一个项目，编码在codeigniter上，这基本上是由不同的用户的帖子的集合。当添加fb共享按钮并单击它时，图像、标题和描述内容是从主页的页眉而不是共享按钮所在的页面(视图)中获取的？

浏览 18提问于2016-02-26得票数 0

1回答

无法从AWS获取身份验证实体令牌

、、、

我正在寻找的东西，我只需要提供用户I和密码使用节点js？

浏览 0提问于2021-01-17得票数 0

2回答

C#下载HTTP目录下的所有文件

、、

如何下载HTTP服务器上某个目录及其所有子目录中的所有文件？

浏览 3提问于2008-09-23得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scrapy没有抓取url中的百分号

为什么nutch不抓取所有没有英文网站的链接？

我应该配置什么来停止nutch重新索引或再次获取。对于一个url，它应该只索引一次。

按html标记值计算的刮取链接提取器

抓取抓取中的链接

Scrapy只抓取了4页

如何检测URL列表中的重复值并停止迭代？

Scrapy -如何识别已经抓取的urls

在网站中搜索特定的URL链接？

返回数字和字母，而不是"?“为href值

如何通过输入域名递归抓取所有站点链接？

如何使用AJAX测试我在Google上的爬虫能力？

为什么我不能用漂亮的汤刮？

抓取-按日期抓取链接

如何在booking.com上使用scrapy而不被阻止？

使用python从同一网页中的多个链接中提取数据

为什么FB分享者只在主页上使用OG meta标签详细信息？

无法从AWS获取身份验证实体令牌

C#下载HTTP目录下的所有文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐