我对scrapy和XPath很陌生,但用Python编程已经有一段时间了。我希望使用scrapy从页面email、name of the person making the offer和phone中获取https://www.germanystartupjobs.com/job/joblift-berlin-germany-3-working-student-offpage-seo-french-market/的编号。正如您所看到的,电子邮件和电话是在<p>标签中作为文本提供的,因此很难提取。
我的想法是首先在Job Overview中获取文本,或者至少在所有讨论各自任务的文本中使
我正在构建一个遍历多个分页页面并从站点提取数据的爬虫:
这就是蜘蛛:
# -*- coding: utf-8 -*-
import scrapy
from scrapy.contrib.spiders import Rule
from scrapy.linkextractors import LinkExtractor
from lxml import html
from usnews.items import UsnewsItem
class UniversitiesSpider(scrapy.Spider):
name = "universities"
我试着用刮伤来刮数据。但在编辑代码方面有困难。以下是我所做的实验:
import scrapy
class BlogSpider(scrapy.Spider):
name = 'blogspider'
start_urls = ['http://anon.example.com/']
def parse(self, response):
for title in response.css('h2'):
yield {'Agent-name': title.css(
我试图抓取一个网站与抓取,其中的item_id与一些数据在一个页面上,并从这个项目的其他信息在另一个页面上。 我面临的问题是,如何将附加信息分配给在page1上找到的同一数据集? 项目: class GetIt(scrapy.Item):
ID = scrapy.Field()
name = scrapy.Field() 我的爬虫的相关部分: rules = (
Rule( # first page
LinkExtractor(allow=['regex']),
在这方面,我对使用Scrapy或python还比较陌生。我希望从几个不同的链接中提取这些内容,并且我在使用HTMLXPathSelector表达式(语法)时遇到了问题。我已经查看了大量的文档,以找到正确的语法,但还没有找到解决方案。
这里是我试图从:提取'img src‘的链接的一个例子。
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class GeekSpider(BaseSpider):
name = "geekS"
allo
我用刮片来打破一张电影清单:
import scrapy
class ScrapeMovies(scrapy.Spider):
name='movies-to-see'
start_urls = [
'https://www.listchallenges.com/200-movies-to-see-before-you-die/'
]
def parse(self, response):
for film in response.xpath('//div[@class="item
我正在使用Scrapy从新闻网站中提取新闻文章的文本。我假设<p>标记中的所有文本都是实际的文章。(这不一定是一个安全的假设,但我正在使用它)为了找到所有的<p>标签,Scrapy让我使用css选择器,如下所示:
response.css("p::text")
问题是,一些新闻网站喜欢在他们的文章中加入很多标记,比如:
<p>
Senator <a href="/people/senator_whats_their_name">What's-their-name</a> is &l
我正在尝试提取图像的所有链接,但我只能提取每个属性页上的主图片,使用
response.css('div.col-sm-12 img.visible-print-block::attr(src)').get()
除此之外,当我尝试使用此代码提取其余图像时,我得到一个空数组。如何解决这个问题?
class WebBox2Spider(scrapy.Spider):
def parse(self, response):
for prop in response.css('div.grid-item'):
link =
在CrawlSpider中,在提取每个链接之前,我如何在图像中擦除标记"4天前“的字段?下面提到的CrawlSpider运行良好.但是在'parse_item‘中,我想添加一个名为'Add’的新字段,在这里我希望在图像上标记该字段。
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class PropertySpider(CrawlSpider):
name = 'proper
我有刮擦蜘蛛,我使用xpath选择器提取页面的内容,请检查我哪里出错了。
from scrapy.contrib.loader import ItemLoader
from scrapy.contrib.spiders import CrawlSpider,Rule
from scrapy.selector import HtmlXPathSelector
from medicalproject.items import MedicalprojectItem
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
fro
我想在这个网站上提取数据:,我正在学习python,以及如何使用Scrapy,我的问题是:为什么我不能用Xpath检索数据?
当我在浏览器中测试Xpath时,我的xpath看起来很好,它会返回正确的值。(谷歌Chrome)
import re
from scrapy import Spider
from scrapy.selector import Selector
from stack.items import StackItem
class StackSpider(Spider):
name = "stack"
allowed_domains = ["poke