如何使用scrapy从html标签中提取数据

文章/答案/技术大牛

发布

1回答

、、

我需要从这个HTML代码中提取地址信息。

浏览 4提问于2020-05-12得票数 0

回答已采纳

2回答

使用portia (scrapy)从网站中提取Meta标签

、、、

使用portia (scrapy)从网站中提取Meta标签我只能从body标签中提取数据

浏览 6提问于2014-11-27得票数 1

1回答

我计划在我目前正在开发的一个应用程序中使用网络爬行。我在Nutch上做了一些研究，并使用它进行了一些初步测试。但后来我遇到了scrapy。但是，当我做了一些初步的研究并浏览了有关scrapy的文档时，我发现它只能捕获结构化数据(您必须提供要从中捕获数据的div名称)。我正在开发的应用程序的后端是基于Python的，我知道scrapy是基于Python的，有人建议scrapy比Nutch更好。我的要求是从1000多个不同的网页中

浏览 0提问于2013-06-20得票数 16

回答已采纳

1回答

刮伤:如何选择头部和身体标签

、、、

所以，我有一个爬虫，它需要从头部的元标签中提取一些数据，以及身体中的一些元素标记。当我试着这个当我试着这个关于response.xpath课程(“//

浏览 1提问于2017-02-10得票数 0

2回答

使用Scrapy迭代footballdb上的Boxscore链接

、

我需要使用scrapy遍历所有的boxscore链接，然后从每个boxscore中提取通过表、冲刺表和接收表，以创建一个数据集。主要问题是我的代码在运行时不返回任何内容。import scrapyfrom scrapy.spiders import CrawlSpider,#need to fix so that it only prints out th

浏览 24提问于2020-12-29得票数 1

回答已采纳

3回答

从Instagram配置文件中读取文本

、、

问题是，如果用户输入Instagram URL，如何读取Instagram个人资料中的文本。我试着使用java.net.URL，得到的只是大量的超文本标记语言文本。我对网页的使用知之甚少甚至一无所知，所以我正在寻求一些帮助，让我如何从个人资料中获得文本(简历，帖子标题，评论)。谢谢!

浏览 2提问于2020-07-12得票数 0

1回答

Python3抓取网爬虫

、、、、

以下是我的默认蜘蛛代码： name = "quotes" page = response.url.split("/")[-1] se

浏览 2提问于2020-07-20得票数 0

回答已采纳

3回答

使用XPath和Python提取的额外字符(html)

、、

我一直在使用XPath和scrapy在线从html标签中提取文本，但当我这样做时，我会得到额外的字符。一个例子是试图从<td>标签中提取一个数字，比如"204“，然后获取[u'204']。例如，尝试提取"1 - Mathoverflow“，而不是获取[u'\r\n\t\t 1 \u2013 MathOverflo

浏览 0提问于2010-05-26得票数 0

回答已采纳

1回答

如何在python中使用selenium scrapy* webdriver提取所有下一页数据*

、、、

import scrapyfrom selenium import webdriver driver.get(self.start_urls) html= str(d1) response = TextResponse(&#

浏览 1提问于2015-08-18得票数 0

2回答

如何使用Scrapy从动态加载的网站(Fincaraiz)中刮取链接

、

我想了解如何使用Python中的Scrapy从下面的页面提取数据 https://fincaraiz.com.co/inmueble/apartamento-en-arriendo/florida-blanca/bogota/6738284问题这个页面动态加载内容，所以当我从Scrapy

浏览 18提问于2022-02-18得票数 0

1回答

使用scrapy抓取时处理pdf文档

、、、、

我想解析的PDF文件，遇到时，爬行网站使用scrapy。我使用下面的代码从PDF文档中提取HTML页面源代码，但它不起作用如何从PDF文档中获取内容并将其合并到scrapy工作流中

浏览 1提问于2015-02-13得票数 0

2回答

仅剪贴式正文文本

、、、

我尝试使用python Scrapy从正文中抓取文本，但还没有成功。希望一些学者能够在这里帮助我从<body>标记中抓取所有的文本。

浏览 1提问于2011-03-22得票数 9

回答已采纳

2回答

Python Scrapy提取aria-label的值

、

我是Scrapy的新手，我正在尝试抓取一个在类上有唱段标签的页面： <div class="item-price" aria-label="$1.99"></body>def parse(self, response): price = circular_item.css("div

浏览 20提问于2018-09-03得票数 1

回答已采纳

2回答

刮伤xpath不捕获标记

、、、

在这种情况下，我想让Scrapy提取出“圆形大小”。但事实证明，Scrapy无法捕捉dl下的任何子节点。response.xpath('//[@id="termsheet"]/div/section[1]/div/dl/li[2]/dt/span').extract() Xpath表达式是从Chome inspect我分别测试这个表达式，它可以捕获li标签。我在Scra

浏览 7提问于2016-06-06得票数 0

回答已采纳

2回答

使用Scrapy无法使用xpath从响应html中提取数据，原因是名称空间

、、、、

我使用scrapy和xpath从网页中提取数据。我的html响应如下，我想提取高亮显示的"a“标记中的href链接。通常我使用response.xpath('//a@id="jr-alt-sw"/@href')获取数据，但在这里，我认为由于名称空间问题，结果是空的。如果存在命名空间，如何获得数据</e

浏览 4提问于2020-03-18得票数 0

3回答

从xml中提取HTML

、、

我想从xml文件中提取html页面。有什么想法吗？ <first> </second> <html>.....some html code here </xhtm

浏览 1提问于2013-04-15得票数 0

1回答

Scrapy - xpath提取程序返回空。

、、

我的目标是构建一个从的表中提取数据的刮板。最初，我遵循了，在那里我成功地从测试站点提取数据。当我试图为Bitinfocharts复制它时，第一个问题是我需要使用xpath，本教程没有详细介绍这个问题(它们只使用css )。我已经能够通过shell刮取我想要的具体数据。我当前的问题是理解如何从我的代码中抓取它们，同时将结果写到.csv / .json文件中</em

浏览 0提问于2018-11-03得票数 0

2回答

使用scrapy从特定的亚马逊商店获取所有产品

、、

当我尝试使用不同形式的urls向商店提交请求时(基本是("")，我得到的是301，没有额外的信息。甚至在蜘蛛出现之前，就已经从粗糙的外壳(亚马逊上的一些随机商店)有301个响应代码www.amazon.com/shops/A3TJVJMBQL014A> response <301 https:/&

浏览 1提问于2016-10-09得票数 1

1回答

网络爬行:用-o file.json作为utf-8保存python文件:输出显示字符\u00a9

、、、、

使用scrapy爬虫，我尝试从html页面提取数据，并使用命令行将输出保存为json文件：在我使用的代码中 yield {

浏览 1提问于2019-02-12得票数 1

回答已采纳

1回答

难以将requests.models.Response转换为scrapy.selector.unified.Selector

这段代码 import requestsresponse= requests.get(url) 获取一个requests.models.Response实例，我可以从其中使用scrapy提取数据 from scrapy impo

浏览 13提问于2020-07-02得票数 0

回答已采纳

点击加载更多