使用python scrapy提取属于表一部分的div标记条目

文章/答案/技术大牛

发布

1回答

python、xpath、scrapy

我正在尝试使用python scrapy提取网页上的一些数据。我知道的HTML/CSS还不够多，无法知道它的格式是否正确，但它似乎不是。我感兴趣的目标信息有一个模式，如下所示。一个表包含一组我有兴趣提取的条目(Name、Year、Int1、Int2)。但这些并不在标准的TD标签中，而是DIV标签的一部分</em

浏览 13提问于2016-09-20得票数 2

回答已采纳

2回答

Scrapy -如何抓取网站并将数据存储在Microsoft SQL Server数据库中？

python、sql-server、scrapy、web-crawler

我正在尝试从我们公司创建的网站中提取内容。我已经在MSSQL Server中为Scrapy数据创建了一个表。我还设置了Scrapy并配置了Python来抓取和提取网页数据。我的问题是，如何将Scrapy抓取的数据导出到本地MSSQL Server数据库中？这是Scrapy用于提取数据的代码： class Quotes

浏览 1提问于2017-04-07得票数 2

2回答

如何使用scrapy在Python中刮取url

python、html、web-scraping、scrapy

我想使用python中的scrapy从特定网站中提取URL，它具有以下HTML结构<div class="comic-table"> <img src="httpuploads/image1" alt="" title=""> <img src="http:&#x

浏览 3提问于2016-03-29得票数 1

回答已采纳

2回答

使用scrapy从div类中提取文本

python、xpath、scrapy

我正在使用python和scrapy。我想从div类中的div标记中提取文本。例如： <h1>2013 Gulfstream G650ER for Sale</h1> <div id="header-price">Price - $46,500,000&

浏览 1提问于2018-10-06得票数 1

1回答

用python和scrapy从网页中提取文本

python、xpath、scrapy

我试图使用scrapy在python上使用一个简单的蜘蛛代码提取的每个标题的文本。下面是html代码的一部分。 ><div _ngcontent-c17="" class="texto pl-3"><div _ngcontent-c17="" class="assunto"&g

浏览 1提问于2020-04-06得票数 1

回答已采纳

1回答

Python Scrapy不迭代选择器列表

python、web-scraping、scrapy

我正在尝试使用scrapy (python 3)提取数据。这就是结构。tables = response.xpath('//div[@class="w3-margin-top"]/table') for table in tables: rows = table.x

浏览 8提问于2019-07-14得票数 0

7回答

刮除列表输出中的html标记

python、web-scraping、scrapy

我正在尝试编写一个小脚本，它将提取蒸汽游戏标签并将它们存储在csv文件中。我目前面临的问题是，我不知道如何从输出中删除html标记。我的代码在下面import scrapyfromscrapy.selector import HtmlXPathSelector class SteamSpider(scrapy.Sp

浏览 0提问于2019-01-11得票数 10

回答已采纳

2回答

使用css选择器选择一组元素和文本

css、scrapy、css-selectors

我有一个HTML页面，如：-<a href='link'></a><br><u class>name</<a href='link'></a><br> <a

浏览 5提问于2022-07-11得票数 0

回答已采纳

1回答

Scrapy和XPath从亚马逊提取评论

python、xpath、scrapy

我对python和scrapy比较陌生，对于我正在尝试解决的问题，我需要一些帮助。我正在尝试爬取亚马逊，并提取用户的评论，为特定的产品使用scrapy和XPath。我想问，是否有比我现有的更优雅的解决方案。假设我想从获取评论。评论页面的结构看起来不太适合提取(使用firebug，您可以看到只有评论区域周围没有特定的标记)。目前我使用的<

浏览 1提问于2012-04-16得票数 1

回答已采纳

2回答

在scrapy上使用xpath提取类内的字符串

python、xpath、scrapy

我想在下面的html中提取单词白色我使用的是python-scrapy，它只能用Xpath进行提取。使用chrome，我得到了xpath：使用<em

浏览 1提问于2013-07-14得票数 2

1回答

在Scrapy中使用XPath提取HTML结果失败，因为内容是动态加载的

python、html、xpath、request、scrapy

与我之前的一个问题有关，但与此不同的是，我遇到了一种情况，即Scrapy (用于Python)不会在h4标记中提取span标记。在命令行上使用scrapy shell时，与上面关于h内p的问题不同，HTML中

浏览 3提问于2017-07-01得票数 3

回答已采纳

1回答

Selenium，Scrapy迭代(单击下一步)仅从第一页提取项目的href

python、selenium-webdriver、scrapy

我尝试提取每一项的href (每页六个)。要转到下一页，我使用next_click()。Selenium webdriver将打开并单击所有页面(到目前为止还不错)。但只提取第一页中的项。看起来，它识别了正确的条目数量，但只重新提取了第一页的条目。注意:如果您单击下一页，url将保持不变。非常感谢你的帮助！import scrapy from pprint import pprin

浏览 2提问于2020-11-05得票数 0

2回答

如何提取元素中<strong>标记后面的文本

python、web-scraping、scrapy

试图从如下元素中提取文本：当我尝试使用Scrapy提取"Rest_of_text"时什么都没给我。我是否需要使用</e

浏览 0提问于2018-11-06得票数 0

回答已采纳

1回答

Scrapy使用了错误的编码，从网页向JSON添加了额外的html标签

python、html、json、web-scraping、scrapy

所以我想使用Scrapy来获取 { "data": { ...但是，Scrapy中的response.text对象使用不同的编码，并添加了一些额外的htm

浏览 2提问于2017-02-06得票数 1

回答已采纳

2回答

Scrapy:将HTML提取为元素内的字符串

xpath、scrapy、css-selectors、lxml

我想提取dic中的超文本标记语言。例如，在这段HTML中： <div id="main"><h1><xyz>Title<xyz></h1></div> 我想提取div内容：<h1><xyz>Title<xyz></h1>作为字符串。是否可以使用CSS o Xpath scrap

浏览 19提问于2020-04-06得票数 0

回答已采纳

2回答

Scrapy不接受爬虫中的日语字符

python、python-2.7、scrapy

这是我正在尝试抓取的网站源代码的一部分。是否正在获取任何数据import scrapy name = "test"(self, response): 'FAX':response.xpath('//*[@id="anchor_realtorOutl

浏览 0提问于2017-07-10得票数 0

1回答

如何利用抓取递归抓取整个网站

python、scrapy、web-crawler、portia

我想用刮伤来抓取完整的网站，但是现在它唯一的爬行单页。import scrapyfrom scrapy.contrib.spiders import CrawlSpider, Ruleresponse) nam

浏览 0提问于2014-11-27得票数 1

1回答

Scrapy只返回字母列表中每个字母的第一项

python、web-scraping、scrapy

我对堆叠溢出和python和scrapy完全陌生。我需要刮几个术语表，到目前为止大多数都很好，但是我正在为下面的脚本发布脚本。我只收到每封信的第一个条目，我不知道为什么.任何帮助都非常感谢！谢谢!网卡 import scrapy name = 'glossary' allowed_domains://www.edmu

浏览 3提问于2020-02-06得票数 2

回答已采纳

1回答

难以将requests.models.Response转换为scrapy.selector.unified.Selector

scrapy

这段代码 import requestsresponse= requests.get(url) 获取一个requests.models.Response实例，我可以从其中使用scrapy提取数据 from scrapy import Selector sel= Selector(r

浏览 13提问于2020-07-02得票数 0

回答已采纳

2回答

选择包含具有特定类的div的元素的文本

html、css、scrapy

我使用scrapy选择器来提取下面的html并将其加载到项目加载器中。也就是说，我想提取文本Dry。HTML代码： <td> </div> Cabernet S

浏览 0提问于2020-04-08得票数 1

点击加载更多