我正在尝试使用scrapy抓取以下链接。
在那一页上有一个表格,我正在试图抓取它的值。当我使用xpath时,它给出了正确的答案。例如response.xpath("//td[@class='ResultTitleTD']/text()").getall()
给出
['Comments filed by Southern California Gas Company on 06/24/2021 Conf# 167430', 'Proceeding: A2011004', 'Comments filed by Southern
我刚接触scrapy/python,你能帮我吗?我试着用scrapy在这个网站上获取每个工作室的名称,但仍然没有结果,所以我不能超越标签。下面是我的代码:
import scrapy
class OffSpider(scrapy.Spider):
name = "offs"
start_urls = ['https://oficinasonline.com.br/oficinas/busca?state_id=26']
def parse(self, response):
for off in response.css(
我正试着把这个项目的名字放在这样的字典里:
import scrapy
class TerrorSpider(scrapy.Spider):
name = 'terror'
start_urls = ['http://books.toscrape.com/catalogue/category/books/travel_2/index.html']
def parse(self, response):
for filme in response.css('h3 a'):
yield
我正在尝试爬行,因为scrapy为"Title“项返回None,这是作业名。css选择器在shell中工作得很好,其他项也可以工作。我试图更改选择器或添加延迟,但似乎没有任何效果。有谁有主意吗?下面的代码。
import scrapy
from jobscraping.items import JobscrapingItem
class GetdataSpider(scrapy.Spider):
name = 'getdata2'
start_urls = ['https://www.jobs.ch/de/stellenangebote/ad
我试着使用以下站点学习response.xpath和response.css:
scrapy shell 'http://quotes.toscrape.com'
for quote in response.css("div.quote"):
title = quote.css("span.text::text").extract()
这只会得到一个值。但是,如果我使用xpath:
scrapy shell 'http://quotes.toscrape.com'
for quote in response.css
我正在尝试从下面的标签中抓取“"Brick Bank”“
<a href="/sets/10251-1/Brick-Bank"><span>10251: </span> Brick Bank</a>
下面是我的Scrapy Spider对象:导入scrapy
class SpiderSpider(scrapy.Spider): #we take the Spider class provided by Scrapy and make a subclass out of it called BrickSetSpider.
我想从雅虎财经下载数据
我希望程序在开始年份输入"2004“,在年底输入"2015”。我怎么能这么做?
我的密码是这样的:
import scrapy
from selenium import webdriver
import time
from scrapy.selector import Selector
from scrapy.selector import HtmlXPathSelector
from taiex.items import taiexItem
import unicodecsv as csv
class taiex_spider(scrapy.Spid
我想刮这个链接的所有页面,。
我尝试过不同的方法,但我没有找到任何解决办法。
下面是我的代码
import scrapy
class jobisjobSpider(scrapy.Spider):
enter code here
name = 'jobisjob'
allowed_domains = ['jobisjob.co.uk']
start_urls = ['http://www.jobisjob.co.uk/search?directUserSearch
我是一个非常新的刮痕,在这里我需要一些帮助,在图像url,是在数据-src.这是我的密码..。
from typing import Text
import scrapy
class SeamsSpider(scrapy.Spider):
name = 'seams'
start_urls = [
'https://in.seamsfriendly.com/collections/shorts'
]
def parse(self, response):
title : response.
代码: import scrapy
class BlogSpider(scrapy.Spider):
name = 'bijouterie'
start_urls = ['https://www.example.com']
def parse(self, response):
for post in response.css('#engine-results .drs'):
yield {'title': post.css('a.moodalbox.re
这段代码给了我结果,但是输出并不像预期的那样,.what错了吗?如何用+10来迭代规则。我在这两个方面都有问题。
import scrapy
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.selector import Selector
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from urlparse import urljoin
class CompItem(scrapy.Item):
title
我正试图在电子商务页面上得到产品的名称和价格。我使用Selenium,我的代码是:
for element in WebDriverWait(self.driver, 30).until(EC.visibility_of_all_elements_located((By.CSS_SELECTOR, '.product-iWrap'))):
product_name_tmall = element.find_element_by_css_selector('.productTitle a')
prod
我对python和web抓取很陌生,我想知道是否有可能用刮伤从产品页面中抓取。
示例:我在amazon.com上搜索监视器,我希望scrapy转到每个产品页面并从那里刮取,而不是只是从搜索结果页面中抓取数据。
我读过一些关于xpath的文章,但我不确定是否可以使用这个方法,而且我发现的所有其他资源似乎都在使用其他东西,比如漂亮的汤等等。我正确地拥有了一个从搜索结果页面中抓取的刮擦项目,但是我想将它改进为从产品页面中刮取。
编辑:
以下是我根据您的建议修改的spider.py:
class TestSpiderSpider(scrapy.Spider):
name = 'testscra
当我执行这段代码时,我得到了{text1,author1,tag1,text2,author2,tag2,.}的结果
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/page/1/',
]
def parse(self, response):
for quote in response.css('div.quote'
你好漂亮的程序员!我面临着一个我无法resolve.Please帮助我的问题。我正试着用刮一个,但是我在all.Please没有得到任何结果--帮助我,我会非常感谢你。我试过不同的东西,但work.PLEASE帮不了我。
P.S :我在刮破的壳上查过了
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from olx.items import OlxItem
class ElectronicsSpider(CrawlSpider
我有一只蜘蛛身上有抓痕
import scrapy
class QuotesSpider(scrapy.Spider):
name = "website"
start_urls = [
'https://website.com',
]
def parse(self, response):
for main in response.css('div#main'):
yield {
'link': random.choice(ma
在我的控制台上运行“抓取爬行newegg”时,我会碰到“爬行0页(0页/分钟),刮0项(0项/分钟)”。我已经尝试过查找许多修复程序,但它们都没有起作用。任何帮助都很感谢,谢谢。
# web scrapes newegg page for product price
import scrapy
class NeweggSpider(scrapy.Spider):
name = 'newegg'
start_urls = [
'https://www.newegg.com/team-32gb-288-pin-ddr4-sdram/p/N8
如果页面中的对象有可用的id,那么通过ID或CSS查找元素-哪个更快?
element(by.id("btnButtonID")) OR element(by.css("#btnButtonID")
既然我们可以使用CSS定位器识别任何对象,那么在我们的页面对象中只使用CSS定位器是一种标准做法吗?这样做是否有助于代码的可读性和简洁性?
我正在使用Scrapy抓取一个网站,其中有一个项目的列表。但是,当循环遍历项目列表时,请求相对xpath将返回整个页面的所有匹配项目。我一直在使用0.24,但是升级到最新的版本(1.0)也会遇到同样的问题。
我曾尝试使用virtualenv运行此程序,以避免与系统上的其他库发生冲突,但没有成功。
for sel in response.xpath('//ul[@class="items"]//div[@class="item"]'):
item = CrawledItem()
item['id'] = sel.xp
我刚接触Scrapy,Python。我需要提取urls的标题,而不是上下文。下面的代码提取上述内容以及title.Kindly帮助
提前谢谢你。
class BlogSpider(scrapy.Spider):
name = 'bg'
start_urls = ['https://blog.scrapinghub.com', 'https://scrapinghub.com/']
def parse(self, response):
for title in response.css
好吧,我知道为什么,因为没有为next_page变量提取任何内容,但我不确定Im是否正确地使用xpath
import scrapy
from scrapy.selector import HtmlXPathSelector
from scrapy.http.request import Request
class SunBizSpider(scrapy.Spider):
name = 'sunbiz'
start_urls = ['http://search.sunbiz.org/Inquiry/CorporationSearch/SearchResults?in