使用xpath使用Scrapy从多个表中提取数据_scrapy xpath从表中返回空数据_使用xpath从多个源提取文本 - 腾讯云开发者社区

xpath、scrapy

我正在从网页上的12个表中提取元数据和urls，虽然我已经开始工作，但我对xpath和scrapy都很陌生，所以有没有更简洁的方法可以做到这一点？当我尝试各种xpath时，我最初得到了大量的重复项，并意识到每个表行对每个表都是重复的。我的解决方案是枚举表并遍历每个表，只获取该表的行。感觉可能有一种更简单的方法，但我现在不确定。import scrapy class LinkChe

浏览 10提问于2019-04-26得票数 0

回答已采纳

1回答

Scrapy - xpath提取程序返回空。

python-3.x、xpath、scrapy

我的目标是构建一个从的表中提取数据的刮板。最初，我遵循了，在那里我成功地从测试站点提取数据。当我试图为Bitinfocharts复制它时，第一个问题是我需要使用xpath，本教程没有详细介绍这个问题(它们只使用css )。我已经能够通过shell刮取我想要的具体数据。我当前的问题是理解如何从我的代码中抓取它们，同时将结果写到.csv / .json文件

浏览 0提问于2018-11-03得票数 0

1回答

从动态表中抓取数据

python、python-2.7、web-scraping、scrapy

我试图从table="table-main“网站：中提取所有TD值。我正在使用Scrapy和Python2.7response.xpath('//*[@id="tournamentTable"]') 但我似乎无法得到那张桌子的任何response.xpath('//*[

浏览 5提问于2015-11-01得票数 3

回答已采纳

1回答

为什么这个xpath不能工作？

python、xpath、scrapy

我正在翻阅这一页我的xpath是 normalize-space(.

浏览 5提问于2014-03-11得票数 0

回答已采纳

1回答

Python3抓取网爬虫

html、python-3.x、web-scraping、scrapy、web-crawler

以下是我的默认蜘蛛代码： name = "quotes" ] yield scrapy.Request) self.log('Sav

浏览 2提问于2020-07-20得票数 0

回答已采纳

1回答

单击html表单按钮转到scrapy / python格式的下一页

python、html、scrapy

我用scrapy编写了一个蜘蛛程序，用来从网站上提取数据。我有一个具有相似结构的html表的链接列表，到目前为止，这些链接的提取工作都很好。现在的问题是，这些表中的一些运行在多个页面上，即如果一个数据集超过30行，它就会被拆分。大多数表格只有一页，但有些表格要长得多，最多有70页。我希望爬行器去到每个表，从第一页提取数据，然后继续到第二页，第三页

浏览 1提问于2016-02-02得票数 2

1回答

在python scrapy中选择所有具有特定id模式的元素

python、python-2.7、scrapy

我正在使用刮除刮一个网站。我希望选择表单'result_%s‘的id的所有元素，其中%s是任意整数。如何实现这一目标？

浏览 2提问于2014-05-22得票数 4

回答已采纳

1回答

条件URL抓取

python、xpath、scrapy

我试图在一个我不知道网址结构的网站上使用Scrapy。 scrapy crawl dmoz>test.txt from scrapy.selectorimport Htm

浏览 5提问于2016-07-27得票数 1

1回答

创建循环以解析scrapy中的表数据

web-scraping、scrapy

我正在尝试使用下面的HTML遍历表行。我正在使用下面的xpath选择器//*[@id="employee-table"]/tbody/tr，但它不起作用。

浏览 2提问于2017-04-21得票数 1

1回答

正确的xpath返回空结果

xpath、scrapy

我想要从这个网页上的表格中抓取数据假设我想提取左上角单元格中的文本LM2015122827458，我使用了response.xpath("//tr[@class = 'tr_css

浏览 2提问于2016-01-05得票数 0

4回答

用XPath、Python和Scrapy解析HTML

python、xpath、scrapy

我正在编写一个Scrapy程序来提取数据。 print "temp_list:" + str(temp_list) print "error" 它返回一个空列表，我正在努力从过去的

浏览 0提问于2011-10-30得票数 3

3回答

在Scrapy中，如何设置每个url的时间限制？

python、scrapy

我正在尝试抓取多个网站使用Scrapy链接提取器，并遵循为真(递归)。寻找一个解决方案，以设置时间限制爬行为每个网址在start_urls列表。谢谢 title = scrapy.Field() class DmozSpider(scra

浏览 39提问于2016-07-28得票数 1

1回答

职业足球-参考队统计XPath

python、xpath、scrapy

我正在使用这个页面上的刮擦外壳来获取单个团队的统计数据。例如，我想为客场队(464)拉出总码，当检查元素和复制XPath生成时但当我跑/

浏览 3提问于2016-08-05得票数 0

回答已采纳

1回答

scrapy xpath从表中返回空数据

python、xpath、scrapy

<div style="padding-left: 27px;">25 years old</div> </tr>我使用response.xpath('//table[@class="table squad sortable"]//tr//td//a/

浏览 20提问于2018-01-26得票数 0

1回答

如何使用ItemLoaders从表中使用Scrapy刮取数据？

python、web-scraping、scrapy、scrapy-spider

我试图从"“网站中提取数据。通过这个表，我可以轻松地通过Scrapy提取数据。下面是我的代码。self.parse_credit_rating_response) table_rows = response.xpath(table_row.<

浏览 4提问于2019-02-27得票数 0

回答已采纳

2回答

使用Scrapy无法使用xpath从响应html中提取数据，原因是名称空间

python、xpath、scrapy、namespaces、web-crawler

我使用scrapy和xpath从网页中提取数据。我的html响应如下，我想提取高亮显示的"a“标记中的href链接。通常我使用response.xpath('//a@id="jr-alt-sw"/@href')获取数据，但在这里，我认为由于名称空间问题，结果是空的。如果存在命名空间，如何获得数据</e

浏览 4提问于2020-03-18得票数 0

1回答

返回空列表而不是目标值的XPath选择器

xpath、web-scraping、scrapy

我试图从这个表中抓取一些数据：，但是在尝试从Value列提取信息时遇到了一个问题。我使用了Mozilla dev工具来获得XPath选择器，这些选择器在名称和总体评级方面运行良好，但在值的情况下，使用浏览器生成的XPath只返回一个空列表。我在用Scrapy。In [85]: value = response.xpath('/html/body/div[1]&

浏览 2提问于2020-08-02得票数 0

回答已采纳

1回答

Python Scrapy不迭代选择器列表

python、web-scraping、scrapy

我正在尝试使用scrapy (python 3)提取数据。这就是结构。tables = response.xpath('//div[@class="w3-margin-top"]/table') for table in tables: rows = table.<

浏览 8提问于2019-07-14得票数 0

1回答

使用Scrapy从多个网页中抓取数据

python、scrapy

我正在尝试使用scrapy从多个网页中提取电话标题(以及最终的其他数据)。我正在尝试使用已定义的函数来做到这一点。"parse“函数应该提取所有页面链接，如果我让它将结果输出到CSV，它确实可以正确地执行此操作。scrapy.http import Request class PhonelinksSpid

浏览 7提问于2019-11-12得票数 0

1回答

使用Scrapy* (python)抓取表数据*

python、html、scrapy

我正在做一个项目，它涉及到使用Scrapy从网站上抓取数据。之前我们使用Selenium，但现在我们必须使用Scrapy。我没有任何关于Scrapy的知识，但现在正在学习它。其中一个挑战是从网站上删除数据，这些数据是在表格中结构化的，虽然有下载这些数据的链接，但在我的情况下是行不通的。下面是表的结构我所有的数据都在tbody下

浏览 2提问于2018-10-30得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云