如何在Scrapy中用tbody抓取这个HTML结构？_如何在Python中用Beautifulsoup抓取结构不好的html表格？ - 腾讯云开发者社区

python、scrapy、web-crawler

我需要抓取一个xml页面，它只是我想要的一个urls表。 from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector import re thename = "sitemap" class ReviewSpider(BaseSpider): name = thename allowed_domains = ['10why.net'] start_urls = ['http://www.10why.net/sitemap.x

浏览 5提问于2013-08-08得票数 0

回答已采纳

1回答

Web抓取与'scrapy‘抓取0个页面和项目

python、web-scraping、scrapy

我正在设置一个代理抓取从一个网站，但我什么也得不到。 import scrapy from scrapy.item import Field, Item from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from scrapy.loader import ItemLoader from scrapy.loader.processors import MapCompose class ProxyServersPro(Item): ip = scrap

浏览 17提问于2019-03-24得票数 1

回答已采纳

1回答

scrapy，无效的xpath，起始位置

python、xpath、scrapy

我正在尝试使用scrapy，但我有一个可笑的html，我正在尝试它。使用Xpath Checker firefox插件，这是表中的第一行： id('page')/x:table/x:tbody/x:tr[1]/x:td[2]/x:table/x:tbody/x:tr/x:td/x:table/x:tbody/x:tr[1] 如果将该xpath复制到以下位置，则会出现错误： def parse(self, response): hxs = HtmlXParseSelector(response) data = hx.select("id('

浏览 0提问于2013-03-15得票数 0

1回答

Scrapy不将数据写入文件

python、parsing、scrapy、sites

他在Scrapy中创建了一个蜘蛛: items.py： from scrapy.item import Item, Field class dns_shopItem (Item): # Define the fields for your item here like: # Name = Field () id = Field () idd = Field () dns_shop_spider.py： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.lin

浏览 0提问于2013-05-25得票数 3

回答已采纳

2回答

刮擦表列和行不起作用

python、web-scraping、scrapy

我想抓取这个页面的表，但是报废的数据只在一列中，在某些情况下数据不会出现。另外，我使用shell来查看Xpath是否正确(我使用Xpath助手来识别这些xpath) import scrapy class ToScrapeSpiderXPath(scrapy.Spider): name = 'scrape-xpath' start_urls = [ 'http://explorer.eu/contents/food/28?utf8=/', ] def parse(self, response):

浏览 1提问于2017-10-26得票数 1

回答已采纳

1回答

如何使用scrapy抓取一个满是.html文件的目录？

python、html、web-scraping、scrapy

我有一个装满了.html文件的文件夹。有没有办法用scrapy抓取数据？我的尝试是： import scrapy import os LOCAL_FOLDER = 'html_files/' BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__))) class MySpider(scrapy.Spider): name = 'mySpider' start_urls = [f"file://{BASE_DIR}/{LOCAL_FOLDER}"

浏览 13提问于2021-09-13得票数 0

3回答

在Scrapy中选择非ASCII字符的节点

python-2.7、xpath、character-encoding、web-scraping、scrapy

我有以下用Scrapy编写的简单的web刮刀 #!/usr/bin/env python # -*- coding: latin-1 -*- from scrapy.http import Request from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector class MySpiderTest(BaseSpider): name = 'MySpiderTest' allowed_domains = ["boliga.dk"]

浏览 0提问于2013-10-07得票数 2

回答已采纳

2回答

使用python和scrapy抓取网站

python、web-scraping、scrapy

我是Scrapy (& Python!)的新手，我正在尝试删除Cricinfo网站上的评论。下面是一个网页的例子：我感兴趣的是抓取上面的数字(例如0.1)，以及它旁边的文本。使用Firebug，我可以看到"0.1“的xpath是: /html/body/div2/div3/div4/div5/div/div3/table/tbody/tr/td2/div/table/tbody/tr2/td1/p 它旁边的文本是: /html/body/div2/div3/div4/div5/div/div3/table/tbody/tr/td2/div/table/tbody/tr2/t

浏览 3提问于2014-09-28得票数 0

1回答

无法从黑客新闻中抓取新闻标题

python、scrapy

我只想从黑客新闻抓取头条新闻的标题和链接。下面是我的代码： import scrapy from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor class HnItem(scrapy.Item): title=scrapy.Field() link=scrapy.Field() class HnSpider(scrapy.Spider): name="hn" allowed_domains=["https://news.ycombinator.com"

浏览 2提问于2015-07-22得票数 0

1回答

刮伤错过一项记录

python-3.x、scrapy、web-crawler

新手到刮刮，一直试图抓取网站的数据从，但它是缺少一个记录从表中。能够在没有问题的情况下爬行其余的记录，例如： <tbody class="admin1"> <tr class="rname" itemscope="" itemtype="http://schema.org/AdministrativeArea" onclick="javascript:sym('21080')"><td class="rname" id="i21080"

浏览 4提问于2022-10-12得票数 1

回答已采纳

1回答

刮擦蜘蛛无法使用xpath提取网页内容

python、xpath、web-crawler、scrapy

我有刮擦蜘蛛，我使用xpath选择器提取页面的内容，请检查我哪里出错了。 from scrapy.contrib.loader import ItemLoader from scrapy.contrib.spiders import CrawlSpider,Rule from scrapy.selector import HtmlXPathSelector from medicalproject.items import MedicalprojectItem from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor fro

浏览 4提问于2015-10-15得票数 0

回答已采纳

2回答

<div>后的剪贴式文本

python、scrapy

我想使用Scrapy抓取以下HTML代码： <tbody id="pageData11"> <tr> <td> <div style="border-left:3px solid #1A8CFF !important; float: left; padding-right: 5px;"> </div> 2018-May-29 Tuesday </td>

浏览 0提问于2018-05-31得票数 0

2回答

我如何知道哪个浏览器被用来在Scrapy框架中爬行？

python、selenium、web-scraping、scrapy、web-crawler

我的背景是：正如你所知道的，Chrome，Firefox，Safari上的网站HTML结构是非常不同的。因此，当我使用CSS-Selector从HTML结构中获取元素标记中的数据时，有时这个标记已经在Chrome浏览器中有了，而另一个则没有。因此，我只想专注于一个浏览器，以减少我的工作量。当我使用Scrapy框架从urls抓取数据时，我不知道Scrapy将使用哪个浏览器来抓取数据。因此，我也不知道返回哪种HTML响应体。我检查了响应，我发现，有时结构是相同的，从Chrome，但有时它不是。看起来Scrapy框架使用了许多不同的web浏览器来抓取数据。我想要的：我只想

浏览 0提问于2018-12-05得票数 0

回答已采纳

2回答

如何获得与Scrapy一起使用的正确选择器(CSS/XPath)？

css、xpath、scrapy、selector、screen-scraping

我想从这个网站上抓取信息： (全国驾驶学校列表)，在地图上映射邮政编码和公司名称(我已经从邮政编码映射到坐标)，以找到学校聚集区。最佳结果将是一个选择器，它提取710家公司()的所有相关信息。我已经尝试复制了想要的表()的CSS "selector“和，但是在Scrapy中运行CSS选择器/ XPath时，它什么也不返回。复制的CSS选择器示例，该选择器在Scrapy shell中运行时不提供任何信息： In(1)：response.css("#adminForm > table > tbody").extract() Out(1)：[] 我做错了什么

浏览 2提问于2020-04-04得票数 0

回答已采纳

4回答

用XPath、Python和Scrapy解析HTML

python、xpath、scrapy

我正在编写一个Scrapy程序来提取数据。，我想抓取20111028013117 (代码)信息。我已经从FireFox add-on 获取了XPath。这是路径： /html/body/p/table/tbody/tr/td/table[2]/tbody/tr[1]/td/table[3]/tbody/tr/td[2]/table[1]/tbody/tr/td/table/tbody/tr/td[2]/table[3]/tbody/tr/td/table/tbody/tr[2]/td[2] 当我尝试执行这段代码时 try: temp_list = hxs.select("/h

浏览 0提问于2011-10-30得票数 3

1回答

对于一些具有刮伤外壳的元素，XPath不返回结果。

python、xpath、scrapy

我使用刮除外壳来提取以下网页的数据：大多数数据都正常工作，但在较低的部分中有一个表，其中的内容(如PZN )。我似乎无法提取。 scrapy shell fetch('https://www.apo-in.de/product/acc-akut-600-brausetabletten.24170.html') >>> response.xpath('//*[@id="accordionContent5e95408f73b10"]/div/table/tbody/tr[1]/td/text()').extract() 返回：[

浏览 4提问于2020-04-14得票数 0

回答已采纳

1回答

已使用scrapy和pyquery登录到Stackoverflow，但无法进行进一步的抓取

python、scrapy、stackexchange

我目前正在学习使用scrapy进行web抓取，并尝试/学习各种登录stackoverflow的方法，然后提取一些问题来练习web抓取。我已经使用scrapy和pyquery成功登录到stackoverflow，使用的代码如下： import scrapy import requests import getpass from pyquery import PyQuery from scrapy import FormRequest from scrapy.utils.response import open_in_browser class QuoteSpider(scrapy.Spide

浏览 3提问于2020-10-13得票数 1

1回答

Scrapy :使用ALIGN=RIGHT仅获取td元素

python、web-crawler、scrapy

我正在使用scrapy从这个网站上抓取数据：我需要将UFO目击事件的日期与计数分开，是的，令人兴奋！这里有一个我正在抓取的例子 <TR VALIGN=TOP> <TD><FONT style=FONT-SIZE:11pt FACE="Calibri" COLOR=#000000><A HREF= ndxe201303.html>03/2013</A></TD> <TD ALIGN=RIGHT><FONT style=FONT-SIZE:11pt FACE="Calibri

浏览 1提问于2013-05-08得票数 1

回答已采纳

1回答

Scrapy - xpath提取程序返回空。

python-3.x、xpath、scrapy

我的目标是构建一个从的表中提取数据的刮板。最初，我遵循了，在那里我成功地从测试站点提取数据。当我试图为Bitinfocharts复制它时，第一个问题是我需要使用xpath，本教程没有详细介绍这个问题(它们只使用css )。我已经能够通过shell刮取我想要的具体数据。我当前的问题是理解如何从我的代码中抓取它们，同时将结果写到.csv / .json文件中？我可能漏掉了一些很明显的东西。如果你能看看我的代码，让我知道我做错了，我会非常感激的。谢谢! 第一次尝试： import scrapy class RichlistTestItem(scrapy.Item): #

浏览 0提问于2018-11-03得票数 0

2回答

更正表数据抓取的xpath

html、python-3.x、xpath、web-scraping、scrapy

我试图使用以下html从表中抓取数据：很抱歉，当我试图粘贴代码时，它没有正确显示，但我只对与突出显示的类相关联的文本感兴趣。例如，我尝试使用不返回任何内容的response.xpath('//table/tbody/td').extract()来处理树。我也尝试过访问类，例如，response.xpath('//div/div/div/div/div/div/table/tbody/tr/td[class="pricePweek"]').extract()，但是这还是没有返回任何内容。是断线造成了这个问题吗？在使用Scrapy时，

浏览 3提问于2017-09-28得票数 1

回答已采纳

1回答

如何使用scrapy抓取网站？

web-crawler、web-scraping、scrapy

我要写一个基于scrapy的Gui应用程序，用户输入一个网站的URL，然后点击“爬网”按钮，整个网站就会被抓取并存储在内置的scrapy-db (sqlite)中。如何使用scrapy帮助我抓取网站？

浏览 4提问于2012-03-09得票数 0

1回答

使用CrawlSpider可以使用scrapy.Spider抓取单个页面，但不能抓取整个网站

scrapy

这里需要一些帮助。当我通过(scrapy.Spider)抓取一个页面时，我的代码工作正常。然而，一旦我切换到(CrawlSpider)来抓取整个网站，它似乎根本不起作用。 from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class QuotesSpider(CrawlSpider): name = "quotes" allowed_domains = ['reifen.check24.de'

浏览 12提问于2021-07-28得票数 0

回答已采纳

1回答

无法登录以使用Scrapy进行抓取

python-3.x、scrapy

我第一次在这里提问，所以如果我没有提供所有需要的东西，请容忍我。我试图建立一个蜘蛛去这个网站()，登录(我有一个有效的用户名和密码)，然后抓取一些页面。我无法通过登录阶段。我怀疑这与表单数据和我在其中输入的内容有关，因为当我检查表单数据时，会出现"login.x“和"login.y”字段。每当我再次登录时，login.x和login.y字段似乎都会发生变化。这个问题和答案似乎为我如何解决问题提供了一个提示，但我不知道如何提取正确的值。下面是我的代码，做了一些修改。 import scrapy from scrapy.selector import Selector

浏览 0提问于2019-08-14得票数 0

1回答

在BeautifulSoup和Git Bash上进行网络抓取并传输到CSV

python、python-2.7、beautifulsoup、scrapy

所以我一直在网上抓取一个有表格的网站，理想情况下，我想在网上抓取成excel表格，并将其保存在表格中，我将输入我所拥有的，我已经使用了scrapy和BeautifulSoup，我对这两个都有问题。如果能帮上忙就太好了！ import requests import csv from bs4 import BeautifulSoup url = 'https://pcpartpicker.com/products/video-card/' r = requests.get(url) html = r.text soup = BeautifulSoup(html, 'l

浏览 1提问于2018-11-23得票数 0

2回答

使用scrapy将抓取的项目保存到json/csv/xml文件

python、scrapy

我正在从他们的学习(一个网络爬行框架)。通过以下示例和文档，我创建了我的爬行器，以便使用站点地图抓取数据 from scrapy.contrib.spiders import SitemapSpider from scrapy.selector import Selector from MyProject1.items import MyProject1Item class MySpider(SitemapSpider): name="myspider" sitemap_urls = ['http://www.somesite.com/sitemap

浏览 2提问于2014-02-04得票数 4

1回答

Scrapy -无法获取表中的值。

python、scrapy

这是这是我的代码 import scrapy class get_taiex(scrapy.Spider): name='get_taiex' def start_requests(self): url ='https://www.twse.com.tw/indicesReport/MI_5MINS_HIST?response=html&date=20191101' yield scrapy.Request(url, callback=self.parse) def parse(self, r

浏览 2提问于2019-11-27得票数 0

回答已采纳

2回答

在scrapy中复制javascript搜索

web-scraping、scrapy、web-crawler

我没有成功地抓取这个网站，因为它不包含任何形式。当我将响应数据转储到文件时，我的爬虫程序总是不返回任何内容： import scrapy class LoginSpider(scrapy.Spider): name = 'mamega.org' start_urls = ['https://www.mamega.org/search/'] def parse(self, response): return scrapy.Request('https://www.mamega.org/_searchm.ph

浏览 23提问于2019-01-10得票数 0

回答已采纳

2回答

如何强制scrapy抓取重复的网址？

python、web-crawler、scrapy

我正在学习，一个网络爬行框架。默认情况下，它不会抓取重复的urls或scrapy已经抓取的urls。如何让Scrapy抓取重复的urls或已经抓取的urls？我试着在网上找，但找不到相关的帮助。我从找到了DUPEFILTER_CLASS = RFPDupeFilter和SgmlLinkExtractor，但这个问题与我正在寻找的相反

浏览 1提问于2014-04-17得票数 25

回答已采纳

2回答

如何在scrapy中提取javascript值

python、scrapy

我用抓取来抓取youtube视频，我需要video.When的标题/描述语言，我在上使用浏览器查看源代码，我可以在脚本标签内有一个变量'METADATA_LANGUAGE': 'no'。我可以在scrapy及其扩展中提取这个值吗?或者我应该下载并解析html，并使用漂亮汤/html解析器之类的库。

浏览 4提问于2016-04-22得票数 1

回答已采纳

1回答

使用scrapy splash对抓取速度有显著影响吗？

python、selenium、web-scraping、scrapy、scrapy-splash

到目前为止，我一直在使用scrapy和编写自定义类来处理使用ajax的网站。但是，如果我使用scrapy-splash，据我所知，它会在javascript之后抓取呈现的html，爬虫的速度会受到严重影响吗？使用scrapy抓取一个普通的html页面所需的时间与使用scrapy-splash抓取javascript渲染的html所需的时间进行了怎样的比较？最后，scrapy splash和Selenium的比较如何？

浏览 3提问于2018-04-18得票数 12

回答已采纳

2回答

使用Scrapy迭代footballdb上的Boxscore链接

python、scrapy

我需要使用scrapy遍历所有的boxscore链接，然后从每个boxscore中提取通过表、冲刺表和接收表，以创建一个数据集。主要问题是我的代码在运行时不返回任何内容。 import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class Nfl20Spider(CrawlSpider): name = 'nfl20' allowed_domains = ['www.footballdb.co

浏览 24提问于2020-12-29得票数 1

回答已采纳

2回答

无法在抓取爬行器中导入items.py

python-3.x、scrapy

我无法使用shell命令"scrapy crawl kbb“运行我的爬行器，因为查找我的项目模块时出错。我的文件夹路径遵循标准的抓取方向。 # -*- coding: utf-8 -*- import scrapy from scrapy.loader import ItemLoader from kbb.items import KelleyItem class KbbSpider(scrapy.Spider): name = 'kbb' allowed_domains = ['kbb.com'] start_urls =

浏览 23提问于2019-07-10得票数 0

回答已采纳

1回答

抓取隐藏元素

xpath、scrapy、css-selectors

我想我想问的是是否有可能绕过sql:hide ()，但我已经在下面描述了我的实际问题，以防我弄错了：我正在尝试从一个网站中抓取"foo“urls，该网站的DOM类似于以下内容： <html> <body> <tbody> <tr> <a href="foo1">...</a> <a href="foo2">...</a> &

浏览 0提问于2019-01-25得票数 0

1回答

如何并行运行Selenium-scrapy

python、selenium、web-scraping、scrapy、multiprocessing

我正在尝试使用scrapy和selenium来抓取javascript网站。我使用selenium和一个chrome驱动程序打开javascript网站，使用scrapy从当前页面抓取到不同列表的所有链接，并将它们存储在一个列表中(到目前为止，这是最好的方法，因为尝试使用seleniumRequest跟踪链接并回调到解析新页面函数已经导致了很多错误)。然后，我循环遍历URL列表，在selenium驱动程序中打开它们，并从页面中抓取信息。到目前为止，这个网站每分钟抓取16个页面，考虑到这个网站上的列表数量，这并不理想。理想情况下，我会让selenium驱动程序并行打开链接，如下所示： How

浏览 36提问于2021-02-05得票数 0

回答已采纳

1回答

Crapy错误IndentationError:预期的缩进块

scrapy

这是我的密码： from scrapy.spider import Spider from scrapy.selector import Selector from thuctapsinhvietnam.items import ThuctapsinhvietnamItem class ThuctapsinhvietnamSpider(Spider): name = "thuctapsinhvietnam" allowed_domains ["thuctapsinhvietnam.com"] start_urls = [

浏览 3提问于2016-10-05得票数 0

回答已采纳

2回答

Python Scrapy字典项目

python、list、dictionary、web-scraping、scrapy

有没有可能制作一个Python Scrapy爬虫来抓取整个网站，创建一个字典，在一个列中包含网站中使用的每个单词，并在它旁边的列中显示每个单词的所有实例的URL？如果是，是如何实现的？我假设爬行器应该不断地抓取每个URL，将HTML转换为纯文本，然后将每个字符串划分为列表项，创建一个列表，然后只向该列表添加以前没有添加过的项。但是，同时，它也应该知道哪些条目已经添加到列表中，以及它们的位置，当它抓取一个与列表中已经存在的单词相同的单词时，记住它的URL并将其添加到包含URL的列中。我已经创建了一个爬行器(如下所示)，它列出了所有URL和每个URL处找到的所有纯文本，但是我的编程技能还不够

浏览 12提问于2020-04-28得票数 0

2回答

从刮取的URL中刮取信息

python、scrapy

我是新刮刮，目前正在学习如何从一个名单刮刮的URL信息。我已经能够从一个网址上抓取信息，通过在刮伤网站上的教程。然而，即使在谷歌在线搜索解决方案之后，我也面临着从url中刮出的url列表中的信息的问题。我在下面写的刮刀可以从第一个网址刮起。但是，它不成功地从刮过的URL列表中抓取。这个问题从def parse_following_urls(self，response)开始:这样我就无法从被刮掉的URL列表中抓取有人能帮忙解决这个问题吗？提前谢谢。 import scrapy from scrapy.http import Request class SET(scrapy.Item):

浏览 7提问于2016-02-12得票数 0

回答已采纳

1回答

抓取快照以提取手机功能

python、web-scraping、scrapy

我想从snapdeal中抓取移动产品的功能。 //*[@id="productSpecs"]/div/div[2]/div[2]/div/table[1]/tbody/tr/td/table/tbody/tr/td[2] //*[@id="productSpecs"]/div/div[2]/div[2]/div/table[1]/tbody/tr/td/table/tbody/tr/td[1] 这些是X路径。我可以看到结果通过刮刀扩展在谷歌chrome.But不能从刮取的结果。 from scrapy.spider import BaseSpider # fro

浏览 1提问于2015-11-10得票数 0

回答已采纳

1回答

如何在LibXml 2中使用Xpath

xpath、xquery、libxml2

在这个中，我试图刮起一个太奇(这是拉格价格，这是粗体红色的) 我使用LIBXML2.2 当我试图通过这个XPATH提取标记时 //*@class='priceLarge‘ 它起作用了! 但是为了简化查询，我想在火狐上使用FireBug。使用FireBug它给了我这个XPath /html/body/div2/form/table3/tbody/tr/td/div/table/tbody/tr2/td2/span/b 使用这个Xpath它不起作用，似乎这个Xpath没有提供一个完整的查询。我如何修改这个XPath以抓取项目？

浏览 0提问于2012-01-03得票数 2

回答已采纳

1回答

第一次使用scrapy，尝试抓取一组表。

python、xpath、scrapy、web-crawler

我对Python非常陌生(对堆栈溢出也很陌生)，并且刚刚开始使用Scrapy。我想从不同的网站抓取一些爱好产品信息。我读过这篇教程，感觉很棒。我想要的是表中列出的手表的属性，但它们在第二个表中都有相同的类("productTitle")。 <table border="0" cellspacing="0" cellpadding="4"> <tbody> <tr> <td class="productTitle creditCardPrice" va

浏览 1提问于2017-01-04得票数 0

回答已采纳

1回答

返回空列表而不是目标值的XPath选择器

xpath、web-scraping、scrapy

我试图从这个表中抓取一些数据：，但是在尝试从Value列提取信息时遇到了一个问题。我使用了Mozilla dev工具来获得XPath选择器，这些选择器在名称和总体评级方面运行良好，但在值的情况下，使用浏览器生成的XPath只返回一个空列表。我在用Scrapy。 In [85]: value = response.xpath('/html/body/div[1]/div/div/div[1]/table/tbody/tr[1]/td[13]').extract() In [86]: value

浏览 2提问于2020-08-02得票数 0

回答已采纳

1回答

爬行器规则不起作用

python、xpath、web-scraping、web-crawler、scrapy-spider

我正在尝试构建一个蜘蛛来抓取纽约理工学院的课程数据，使用的是scrapy框架和python……下面是我的爬虫(nyitspider.py)。有没有人能告诉我我哪里错了。 from scrapy.spiders import CrawlSpider, Rule, BaseSpider, Spider from scrapy.linkextractors.lxmlhtml import LxmlLinkExtractor from scrapy.selector import Selector from scrapy.http import HtmlResponse from nyit_samp

浏览 0提问于2017-03-17得票数 0

1回答

如何从收到的响应中抓取html代码？

python、html、scrapy、web-crawler、scrape

我试图爬行-抓取一个网站与抓取和飞溅。我想从图像中的响应中抓取特定的html代码。以下是响应及其标头： ? 下面是响应(我想要抓取的html )： ? 我可以使用Inspect工具找到该HTML。我的代码返回的是html，我可以用"View page source“工具看到它。因此，这意味着Javascript在嵌入代码之前会对代码进行修改。但是，启动角色是运行javascript并返回HTML，不是吗？？response.body返回页面的源代码，而不是我在上面提到的响应中需要的html代码。 import scrapy from scrapy_splash import

浏览 18提问于2019-05-30得票数 1

2回答

Scrapy不接受爬虫中的日语字符

python、python-2.7、scrapy

这是我正在尝试抓取的网站源代码的一部分。 <th>会社名</th> <td colspan="2"> <p class="realtorName"> <ruby>株式会社エリア・エステート　川崎店</ruby> </p> </td> 这只是一个测试爬行器，用来查看scrapy是否正在获取任何数据 # -*- coding: utf-8 -*- import scrapy class TestSpider(scrapy.Spider)

浏览 0提问于2017-07-10得票数 0

1回答

如何在https://bitinfocharts.com/top-100-richest-bitcoin-addresses.html上从图表中刮取数据

python、scrapy

我的代码是 import scrapy class CoinSpider(scrapy.Spider): name = "coin2" def start_requests(self): url = "https://bitinfocharts.com/top-100-richest-bitcoin-addresses.html" yield scrapy.Request(url=url, callback=self.parse) def parse(self, response): i=1 for row i

浏览 6提问于2021-12-14得票数 -2

3回答

无法在python中使用scrapy迭代数据

python、scrapy、screen-scraping

我正在抓取下面的网站女演员的名字，排名和得分我可以获得1条记录，但不能迭代查找其余记录我可以像下面这样接收数据，但只有1条记录 {'Score'：u'41.0'，'Name'：U‘’Deepika‘，'Rank'：u'1'} 我想像上面那样提取所有记录 # -*- coding: utf-8 -*- import scrapy class ActressListSpider(scrapy.Spider): name = 'actress_list' allowed_domai

浏览 0提问于2019-06-30得票数 1

1回答

Scrappy选择器上的Scrappy迭代

python、json、api、scrapy、css-selectors

我正在尝试抓取一个使用调用HTML的API的网站，因此为此，我需要抓取API，然后从API抓取HTML结果我已经使用这篇文章设法获得了API响应，并从中获得了HTML。 resp = json.loads(response.text) selector= scrapy.Selector(text=resp['results'], type="html") 而且它工作得很好，当我试图从页面获取属性时，我可以使用CSS或Xpath选择器来获取项我现在要做的就是遍历选择器 for item in selector:

浏览 10提问于2020-12-16得票数 1

1回答

Rasbperry Pi上的Scrapy和Javascript站点

raspberry-pi、scrapy、splash-screen

我试图抓取一个页面，这是由javascript修改后，在Raspberri Pi上使用Scrapy的初始加载。我试图安装docker和scrapinghub/splash来渲染页面，然后再将其传递给scrapy，但我意识到Splash还不支持ARM。在Raspberry Pi上使用javascript和Scrapy来抓取页面还有其他选择吗？目前，在站点上使用普通的scrapy请求，我只能得到这个html，这是因为站点首先加载，然后javascript呈现整个内容。所以在javascript之前，页面源代码看起来是空的： <body class="notie8 notie9 l

浏览 15提问于2017-08-13得票数 0

回答已采纳

1回答

如何使用scrapy从这个url中抓取多个表行？

python-3.x、scrapy

import scrapy class SsoSpider(scrapy.Spider): name = 'sso' allowed_domains = ['www.sso.agc.gov.sg'] start_urls = ['https://sso.agc.gov.sg/Browse/Act/Current'] def parse(self, response): acts = response.xpath("//table[@class='table browse-list']/

浏览 16提问于2020-12-15得票数 1

1回答

如何在本地文件上使用Scrapy而不获取robot.txt错误？

python、scrapy

我试图让Scrapy刮本地文件，而不是使用HTTPS的URL网站。我发现了一些与robots.txt文件相关的错误： 2020-07-13 23:58:43 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retrying <GET file:///robots.txt> (failed 3 times): [Errno 2] No such file or directory: '/robots.txt' 2020-07-13 23:58:43 [scrapy.downloadermiddlewares.ro

浏览 2提问于2020-07-17得票数 1

回答已采纳