使用scrapy获取页面中的所有链接文本和href

文章/答案/技术大牛

发布

1回答

、

class LinkSpider(scrapy.Spider): def start_requests(self): yield scrapy.Request(url = urlBasang, callback = self.parse) def= j.xpath('/@href').extract_

浏览 15提问于2019-09-20得票数 0

回答已采纳

1回答

使用Scrapy从页面获取完整链接

、、、、

我想从页面获取torrents链接。在chrome源浏览器中，我看到的链接是：但后来我取消了这个与Scrapy的链接，我只得到了：这个"search=Brooklyn+Nine-N

浏览 2提问于2015-02-14得票数 0

1回答

Scrapy -如何在链接标记内指定href以获取所有页面和论文

、

我想要获取包含这些问题的所有页面，以及该科学期刊()的所有论文。<link rel="next

浏览 2提问于2020-03-02得票数 0

1回答

抓取:如何访问几个子页面并提取所有文本？

、、

我想执行三个简单的任务，这些任务应该适用于大多数页面。获取主页面上的所有链接Visit提取的子页面(例如，)Just获取在子页上找到的所有文本)import scrapy fo

浏览 7提问于2022-02-07得票数 0

回答已采纳

2回答

如何使用Scrapy循环浏览网站的多个页面

、、、

我一直在为我的刮刮项目与BeautifulSoup合作。现在我在学刮子。我用BeautifulSoup编写了一段代码，在一个使用for循环的网站的多个页面上循环。我使用下面的代码循环了10多个页面，并从这些页面中获取了博客文章的URL。我也想在Scrapy做同样的事，但不知道怎么做。同样的方法(代码)可以和scrapy<

浏览 6提问于2021-12-07得票数 1

回答已采纳

2回答

如何在Python BeautifulSoup中抓取网站中的每个页面

、、

有没有办法抓取URL中的每一个页面？以下是我到目前为止所掌握的。问题是新闻文章模式很奇怪，例如https://gogo.mn/r/qqm4m req = requests.get(url)我如何抓取这样的网站

浏览 0提问于2020-08-16得票数 0

3回答

如何使用python从整个网站获取所有页面？

、、、

我正在尝试做一个工具，应该从网站上获得每一个链接。例如，我需要从堆栈溢出中获取所有问题页。我试过用刮痕。in le.extract_links(response): print (url_lnk)UPD 我想观察的网站是 --这是一个当地的城市新

浏览 0提问于2019-06-19得票数 2

2回答

从从主页提取的新页面中提取文本

、、、、

我正在尝试从我从“主页”中提取出来的链接中获取文本。我希望你能理解我的意思，如果不问我，我会尽量解释得更详细。编辑: 因此，我阅读了更多关于scrapy的内容，并找到了这个页面-- ，我阅读了"SitemapSpi

浏览 4提问于2013-12-04得票数 1

回答已采纳

1回答

如何发出请求并获取所有链接

、

我有一个函数，以获得所有的链接在第一页。 name = 'nytimes' allowed_domains['https:/&#x

浏览 2提问于2022-01-24得票数 0

回答已采纳

2回答

Scrapy爬虫没有跟随链接来获取新页面

、、、

我正在从一个使用Javascript链接到新页面的页面获取数据。我正在使用Scrapy + splash来获取这些数据，然而，由于某些原因，这些链接没有被遵循。下面是我的爬行器的代码： import scrapy script = """

浏览 15提问于2019-02-25得票数 2

1回答

从DIV或基础容器中选择文本(如果存在

、

a></div>内部的"a“标记中。现在，除了链接文本之外，我可以毫无问题地获取所有内容。我也可以单独获取链接的文本，但我不知道如何一次获取所有内容，因此我获得了三列数据: 1.第一列文本，2.无论是否链接，第二列文本，3.链接，如果存在提取未链接<em

浏览 5提问于2016-08-29得票数 0

1回答

如何获得不同页面的cURL响应？

、、

我可以进入各个页面，获取POST请求的POST，并在终端中播放，并获得一些JSON。我得到的JSON格式如下(我提供了从Firefox network tab获得的内容，cURL在终端中也提供了相同的格式)，现在，我所需要的是html tag内部的内容，我可以使用代码片段在相应页面上的= selector.xpath('//a

浏览 4提问于2016-12-18得票数 0

回答已采纳

2回答

不需要下一个链接的抓取解析分页

、、

我试图在没有下一个链接的情况下解析分页。page=4" class="page-4 active">4</a> <li> </li> <a hre

浏览 2提问于2020-08-04得票数 1

回答已采纳

1回答

从导致pdf文件的锚元素中提取信息

、、

我使用Scrapy从网站抓取和刮取数据，主要由html页面和pdf文件组成(我已经修改了IGNORED_EXTENSIONS以允许抓取pdfs)。我需要提取被困在<a>标记之间的文本：显然，我不能执行response.text或response.css我脑海中浮现的一件事

浏览 0提问于2016-12-12得票数 1

1回答

抓取-访问嵌套链接并从每个级别获取元数据。

、、、

我对刮刮比较陌生，有很多例外.以下是我要做的事：接下来，我想使用Industry并进入链接。此页面不包含任何我要爬行的数据。但是这个页面包含有自己的基本信息页面的各个

浏览 4提问于2014-12-31得票数 1

回答已采纳

1回答

如何通过链接爬行到我需要的ifnormation

、

我必须从产品页面获得所有评论、文本和分数，我设法做到了：通过添加具有单一产品评论的页面的手动链接，我可以从页面(包括其他评论页面)获得所有评论和分数。为了加快这个过程，我想从类别页面转到产品页面，并在完成后获得所有评论和分数，然后继续到另一个产品。import scrapy class ReviewAut

浏览 15提问于2019-06-11得票数 1

回答已采纳

1回答

如何使用Scrapy进行多页抓取？

、、、

---- * <-- START / #-----*-----/ 这是一个我想用scrapy处理的网站的结构，其中*是一个页面，-表示链接。我想抓取#页的数据。我已经做了一个可以从一个页面抓取数据的抓取器。import scrapy class M

浏览 2提问于2017-03-07得票数 1

1回答

点击链接后显示的隐藏信息的简陋解析

、、、、

我尝试解析一些隐藏的信息：onclick="return showInfo(event)">Info showed here after click</a> 当我手动单击此链接时，只有get请求到出现在firebug处。页面</em

浏览 1提问于2013-09-14得票数 0

1回答

如何使用javascript抓取在弹出窗口中呈现的内容:使用scrapy的链接

、、、、

我正在尝试使用scrapy只在单击javascript: link之后才能呈现内容。的参数在javascript:ShowCollapsiblePanel文本中清晰可见。如何使用scrapy遍历表单javascript:ShowCollapsiblePanel的所有链接？更新在不断进步的过程中，我发现SgmlLinkExtractor不是正确的方法，而且简单得多

浏览 0提问于2014-05-24得票数 2

1回答

在Scrapy* [Python]中使用递归蜘蛛*

、、、、

简介你好，我用Scrapy来获取雅虎答案中的数据。我的成就是把所有的问题和答案都集中在一个精确的部分。--我尝试使用scrapy和selenium --首先，我尝试在一节中记录一个问题列表，这个列表是在蜘蛛类中记忆的。之后，我使用For循环来解析每个页面。= i + 1 parse_page方法是用于抓取问题页

浏览 2提问于2015-10-14得票数 0

回答已采纳

点击加载更多