文章/答案/技术大牛

发布

社区首页 >问答首页 >Xpath在控制台中正确定位html元素，但在使用scrapy响应时返回空数组。

问Xpath在控制台中正确定位html元素，但在使用scrapy响应时返回空数组。
EN

Stack Overflow用户

提问于 2015-06-27 23:31:58

回答 1查看 778关注 0票数 2

我使用Scrapy创建了一个webscraper，以从这个网站获取音乐会门票数据。我已经成功地为一些选择器抓取了数据，这些选择器本质上只是html文本，但是其他一些选择器正在收集任何东西。当我试图从每个票证中刮取音乐会日期时，响应中会返回一个空数组，尽管我使用的xpath在开发人员控制台中运行时返回所有正确的日期。我在类定义中定义项的方式有问题吗？如能提供任何帮助，将不胜感激：

from scrapy.contrib.spiders import CrawlSpider 
from scrapy.selector import HtmlXPathSelector
from scrapy.selector import Selector
from scrapy.contrib.loader import XPathItemLoader
from scrapy.contrib.loader.processor import Join, MapCompose
from concert_comparator.items import ComparatorItem

bandname = raw_input("Enter a bandname \n")
vs_url = "http://www.vividseats.com/concerts/" + bandname + "-tickets.html"

class MySpider(CrawlSpider):
    handle_httpstatus_list = [416]
    name = 'comparator'
    allowed_domains = ["www.vividseats.com"]
    start_urls = [vs_url]
    #rules = (Rule(LinkExtractor(allow=('-tickets/.*', )), callback='parse_item'))
    # item = ComparatorItem()
    tickets_list_xpath = './/*[@itemtype="http://schema.org/Event"]'
    item_fields = {
        'eventName' : './/*[@class="productionsEvent"]/text()',
        #'ticketPrice' : '//*[@class="eventTickets lastChild"]/div/div/@data-origin-price',
        'eventLocation' : './/*[@class = "productionsVenue"]/span[@itemprop  = "name"]/text()',
        'ticketsLink' : './/a/@href',
        #returns empty set
        'eventDate' : './/*[@class = "productionsDateCol productionsDateCol sorting_3"]/div[@class = "productionsDate"]/text()',
        'eventCity' : './/*[@class = "productionsVenue"]/span[@itemprop  = "address"]/span[@itemprop  = "addressLocality"]/text()',
        'eventState' : './/*[@class = "productionsVenue"]/span[@itemprop  = "address"]/span[@itemprop  = "addressRegion"]/text()',
        #returns empty set
        'eventTime' : './/*[@class = "productionsDateCol productionsDateCol sorting_3"]/div[@class = "productionsTime"]/text()'
    }
    def parse(self, response):
        selector = HtmlXPathSelector(response)
        # iterate over tickets
        for ticket in selector.select(self.tickets_list_xpath):

            loader = XPathItemLoader(ComparatorItem(), selector=ticket)
            # define loader
            loader.default_input_processor = MapCompose(unicode.strip)
            loader.default_output_processor = Join()
            # iterate over fields and add xpaths to the loader
            for field, xpath in self.item_fields.iteritems():
                loader.add_xpath(field, xpath)
            yield loader.load_item()

web-scraping

scrapy

python

html

xpath

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-06-28 21:05:56

不太清楚原因，但经过一些尝试和错误之后，我找到了正确的xpath。通过简单地使用标记中的类赋值语句(我试图提取文本)，我就能够为页面上的所有票证抓取元素。

例如eventDate：'.//*@class = "productionsDate"/text()‘

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/31094615

复制

相似问题

问Xpath在控制台中正确定位html元素，但在使用scrapy响应时返回空数组。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Xpath在控制台中正确定位html元素，但在使用scrapy响应时返回空数组。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Xpath在控制台中正确定位html元素，但在使用scrapy响应时返回空数组。
EN