使用scrapy python提取Href_使用Scrapy递归地从href中提取文本_Python Scrapy提取子项 - 腾讯云开发者社区

python、css、web-scraping、scrapy

我正在尝试从下面的css中提取href <a aria-label="Flap Diaper Bag. By Burberry Kids. $1,190.00.Style: Archive Beige. " data-style-id="4851207" itemprop="url" class="Qc" href="/p/burberry-kids-flap-diaper-bag-archive-beige

浏览 11提问于2020-01-24得票数 0

回答已采纳

1回答

Scrapy + Python，返回多个项，发布读取页面

python、scrapy、web-crawler

我试图使用Scrapy和python将多个项提取到数据库中。为了构建我的代码，我首先使用Scrapy读取页面，并测试与数据提取相关的代码行。scrapy shell "http://www.goodmans.net/d/1706/brands.htm"response.css('.SubDepart

浏览 2提问于2020-03-18得票数 0

回答已采纳

3回答

在Scrapy中，如何设置每个url的时间限制？

python、scrapy

我正在尝试抓取多个网站使用Scrapy链接提取器，并遵循为真(递归)。寻找一个解决方案，以设置时间限制爬行为每个网址在start_urls列表。谢谢 title = scrapy.Field() start_urls = [ "http://www.dmoz

浏览 39提问于2016-07-28得票数 1

2回答

使用css选择器选择一组元素和文本

css、scrapy、css-selectors

我有一个HTML页面，如：-<a href='link'></a><br><u class>name</u>text<a href='link'> <u class>n

浏览 5提问于2022-07-11得票数 0

回答已采纳

1回答

使用XPATH刮取属性值？

python、xpath、web-scraping、scrapy

我刚刚开始使用XPath进行html抓取，所以我对语法有点困惑。我试图从以下源代码片段中提取url： </a><body> <

浏览 2提问于2017-06-25得票数 1

回答已采纳

1回答

为什么选择器循环中的xpath仍然返回本教程中的列表

xpath、scrapy

比如[u'Python 3 Object Oriented Programming']而不是u'Python 3 Object Oriented Programming'。import scrapy name = "dmoz" desc = sel.xpath

浏览 1提问于2016-02-26得票数 5

回答已采纳

1回答

在Scrapy中使用nth-child

python、css-selectors、scrapy

我正在尝试使用Python工具Scrapy提取一些html。#navigation > nav > div.js-accordion-menu-wrapper > ul li:nth-child(n+5):nth-child(-n+10) > a::attr(href具体来说，“nth-child”(-n+ x)似乎不起作用，就像Scrapy不使用它或允许它一样。有人能证实这一点吗？

浏览 5提问于2016-11-17得票数 5

回答已采纳

1回答

我能用Scrapy提取这个XHR数据吗？

python、scrapy

我正在尝试用Scrapy从这个中提取数据。例如，我希望使用page=1遍历这些<a href=\"/@eberhardgross\">\n，比如前100个页面，并提取urls的每个实例。最终，只是尝试获取用户名，但是页面上还有其他<a href="">，但是如果我可以提取用户名，那就太好了，但是如果我必须获取所有的<a href="">，那就好了，

浏览 0提问于2019-12-18得票数 0

1回答

抓取不是按照allowed_domains过滤结果。

python、python-3.x、web-scraping、scrapy、web-crawler

因此，我决定使用Scrapy。虽然我使用allowed_domains只获得与域相关的链接，但它也为我提供了所有的场外链接。导入SgmlLinkExtractor文件第7行中，在“从"/home/msn/Documents/scrapy/lib/python3.5/site-packages/scrapy/linkextractors/sgml.py"，导入*文件”第7

浏览 6提问于2017-01-29得票数 2

回答已采纳

3回答

Scrapy有可能从原始HTML数据中获取纯文本吗？

python、html、web-scraping、scrapy、web-crawler

code without having to touch the framework <dt>Portable, open-source, 100% Python</dt> 1,500 w

浏览 0提问于2013-07-18得票数 18

回答已采纳

1回答

Scrapy / Python在保存之前修改提取的数据？

python、web-scraping、scrapy

我正在尝试将一个url附加到一个提取的数据片段中，但终生找不到方法。我使用的选择器如下所示：这行代码返回如下内容：然后我想附加http:exampleurl.com/images/12306116_l_a1.jpghttp:exampleurl.com/images/123

浏览 0提问于2018-07-19得票数 0

3回答

没有从google搜索结果中获得适当的链接--使用机械和美丽汤

python、python-2.7、web-scraping、beautifulsoup、mechanize

我使用下面的片段从谷歌搜索结果中获得我给出的“关键字”链接。http://www.google.com/') br.select_form(name='f') 找到网址: /search?q=scrapy&hl=

浏览 4提问于2014-02-21得票数 3

回答已采纳

2回答

刮伤教程示例

python、web-scraping、scrapy、web-crawler

看看是否有人能为我指明在python中使用Scrapy的正确方向。 item['name'] = site.xpath('a/text()').extract() item['url'] = site.xpath('a&#

浏览 6提问于2016-08-31得票数 1

回答已采纳

2回答

[Python和Scrapy]

python、web-scraping、scrapy、fancybox

下面是我的代码： import scrapy class FirstSpider(scrapy.Spider不确定这是否会有帮助，但这是弹出/花哨的框窗口： popup window 我是否需要使用Selenium来单击按钮，或者我只是遗漏了什么？任何帮助都将不胜感激。我非常渴望学习更多关于Python和scraping的知识。谢谢。

浏览 34提问于2020-12-26得票数 3

回答已采纳

2回答

使用python scrapy提取链接和文本

python、web-scraping、scrapy、web-crawler

我是Python和Scrapy的新手。我想从网站提取信息，包括文件的链接，名称和有效到。import scrapy from scrapy.spiders importRule, CrawlSpider from vodafone_scraper.items import VodafoneS

浏览 0提问于2017-08-20得票数 0

3回答

提供所有匹配元素的Scrapy xpath

scrapy

我有一个HTML文件，我想从其中提取特定DIV下的锚点href值。from scrapy import Selector name = "test"import scrapy from

浏览 16提问于2022-03-29得票数 0

回答已采纳

1回答

如何评估提取的链接是否为子路径

python、path、scrapy、web-crawler、scrapy-spider

我正在使用python2.7。蜘蛛返回响应对象，我正在检查页面上找到的URL。我希望限制蜘蛛只跟随我指定位置的子路径的URLS。例如，我想明确指出，蜘蛛只应该遵循以下链接:www.google.com/policies/隐私/例如。 c

浏览 3提问于2016-06-22得票数 0

回答已采纳

1回答

使用Scrapy从网站查找和下载pdf文件

python、scrapy

我的任务是使用Scrapy从网站上提取pdf文件。我对Python并不陌生，但Scrapy对我来说是一个非常新的东西。我一直在用控制台和一些基本的爬虫进行实验。我已经找到并修改了下面的代码：import scrapy class pwc_tax(scrapy.Spiderwww.pwc.com/us/en/tax-serv

浏览 0提问于2016-03-21得票数 22

回答已采纳

2回答

抓取相对urls的抓取LxmlLinkExtractor

python、scrapy、web-crawler

我想抓取中标记下的所有相对urlsimport scrapyfrom homework.items importHomeworkItemfrom scrapy.contrib.linkextractors.lxmlhtmlimport LxmlLinkExtractor class News1Spider(scr

浏览 23提问于2016-08-29得票数 1

1回答

XPATH/Python/Scrapy -如何将文本附加到href

python、web-scraping、xpath、scrapy

我正在使用Scrapy和Python来抓取页面。我的目标是：我一直在试图让这个接口为XPATH工作--我相信这是语法的脱节，或者是href的位置脱节，但我还没有找到任何可以帮助我的东西。以下是我所得到的：from scrap

浏览 0提问于2022-02-16得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云