我不能用scrapy提取这个url - 腾讯云开发者社区

、、、

我正在使用Scrapy编写一个网络爬虫，结果我得到了一组URL，如:虚拟URL * * 在scrapy中的规则中，我想添加一个regex，它只允许类型为"“或"”的urls。也就是说，不能允许包含“<a，_>”之外的任何内容的urls。制约因素： "/en/“后面的字符串可以是任意长度的。所以我不能要求它只看前10或20个字符。例如，当我使用regex :a，_{1,20}或a，_{1，}时，它仍然与一样的url匹配，因为它发现url中的"“部分是成功匹配的。我希望它查看"/en/“之后直到URL结尾的字符串，然后应用这个规则。不

浏览 0提问于2015-07-12得票数 0

回答已采纳

1回答

网站抓取表

、、、

我是一个Python新手，我正试图编写一个脚本来从这个中提取数据。使用scrapy，我编写了以下代码： import scrapy class dairySpider(scrapy.Spider): name = "dairy_price" def start_requests(self): urls = [ 'http://www.dairy.com/market-prices/?page=quote&sym=DAH15&mode=i', ] for

浏览 3提问于2017-10-25得票数 1

2回答

在scrapy上使用xpath提取类内的字符串

、、

我想在下面的html中提取单词白色 <p class="current">(WHITE)</p> 我使用的是python-scrapy，它只能用Xpath进行提取。使用chrome，我得到了xpath： //*[@id="addToCart_pdp"]/div[3]/div[1]/p 使用scrapy我得到了 hxs.select('//*[@id="addToCart_pdp"]/div[3]/div[1]/p') >> [<HtmlXPathSelector xpath='

浏览 1提问于2013-07-14得票数 2

1回答

我能用Scrapy提取这个XHR数据吗？

、

我正在尝试用Scrapy从这个中提取数据。例如，我希望使用page=1遍历这些<a href=\"/@eberhardgross\">\n，比如前100个页面，并提取urls的每个实例。最终，只是尝试获取用户名，但是页面上还有其他<a href="">，但是如果我可以提取用户名，那就太好了，但是如果我必须获取所有的<a href="">，那就好了，我可以对它们进行排序，只获取@。只是想知道我能不能通过scrapy做这个？ import scrapy class QuotesSpider(scrapy.Spid

浏览 0提问于2019-12-18得票数 0

2回答

python类可以访问自己对象的属性吗？

、、

我试图创建一个蜘蛛，而不指定特定的url。我想要创建蜘蛛对象，从对象中提取url，用它作为我的allowed_domains和start_urls --换句话说，我想做类似的事情(注意，MySpiderObj...I只是把这个表达式放在那里，因为我想从类MySpider的对象中提取信息。 from scrapy.settings import default_settings from selenium import webdriver from urlparse import urlparse import csv from scrapy.contrib.spiders impor

浏览 3提问于2013-12-05得票数 0

回答已采纳

2回答

在“刮”中删除“无”项中的属性

、、、

我正在使用Scrapy爬行一个网站。我正在从页面中提取5个项目。以下是我的档案 items.py class ParseItem(scrapy.Item): a = scrapy.Field() b = scrapy.Field() c = scrapy.Field() d = scrapy.Field() e = scrapy.Field() 我正在解析蜘蛛目录中的数据，这是我使用的函数。 parser.py def parse_page(self, response): item = ParseItem() item['a

浏览 3提问于2017-12-24得票数 2

回答已采纳

1回答

使用Scrapy可以处理多少个URL？

、、、

我有一个包含许多URL的文件。我愿意从这些网址中提取链接，然后提取不同页面的标题和metas。我想知道有多少URL可以提供给Scrapy爬虫，这样我就可以得到适当的结果。我不知道Scrapy是否会对URL扫描和从URL中提取链接有任何限制。如何随机化提取的链接？ le = LinkExtractor() for link in le.extract_links(response): yield scrapy.Request(link.url, callback=self.parse_inof) 请参见上面的代码。我用它来从URL中提取链接。我怎么能做到这一点？

浏览 4提问于2017-02-10得票数 0

回答已采纳

1回答

Scrapy如何从给定的网站提取XmlHttpRequests url？

、、

我感兴趣的是只提取XHR的url，而不是网页中的每个url：这是我提取页面中每个url的代码： import scrapy import json from scrapy.selector import HtmlXPathSelector from scrapy.spiders import CrawlSpider, Rule, Spider from scrapy.linkextractors import LinkExtractor class test(CrawlSpider): name = 'test' start_urls = ['

浏览 2提问于2016-03-04得票数 4

1回答

使用Scrapy:如何从一些提取的链接下载pdf文件

、

我已经创建了一些从网站中提取链接的代码(PDF链接)，现在我需要下载这些PDF文件，但是我很难做到这一点。这是代码： import scrapy class all5(scrapy.Spider): name = "all5" start_urls = [ 'https://www.alloschool.com/course/alriadhiat-alaol-ibtdaii', ] def parse(self, response):

浏览 0提问于2019-07-28得票数 0

回答已采纳

1回答

Scrapy + Python，返回多个项，发布读取页面

、、

我试图使用Scrapy和python将多个项提取到数据库中。为了构建我的代码，我首先使用Scrapy读取页面，并测试与数据提取相关的代码行。 scrapy shell "http://www.goodmans.net/d/1706/brands.htm" 我尝试了以下功能，并得到了我想要的结果(提取所有品牌) response.css('.SubDepartments a::text').extract() 然后我构建了代码，用scrapy crawl goodmans运行它，它给了我一个错误： import scrapy import pandas

浏览 2提问于2020-03-18得票数 0

回答已采纳

2回答

使用Scrapy for Python从html路径提取数据

、、、、

我的项目概述：我正在尝试用python2.6创建一个简单的脚本，它将从Bing Maps获取交通时间数据。Scrapy库模块包(scrapy.org/)是我用来爬行每个网站并从Bing地图中提取数据的工具。上面的图片显示了我想要的东西。(现在高亮显示的数据部分，但最终也需要下面的时间。) 我首先做了一个测试，看看启动url是否会通过。然后如果成功通过，则使用输出日志来打印url的输出。一旦成功，我的下一步就是尝试从网页中提取所需的数据。我一直在使用Firebug、XPather和XPath Firefox插件来查找我想要提取的数据的html路径。这个链接在指导我正确编码路径(d

浏览 1提问于2011-08-16得票数 1

1回答

使用Scrapy时出现奇怪的错误

、、

我遵循教程学习刮痕，但我有一个非常奇怪的问题。它提取url start_urls并将其放置在data.json中。下面是我使用的代码： import scrapy from scrapy.contrib.spiders import Rule from scrapy.contrib.linkextractors import LinkExtractor class ArticleItem(scrapy.Item): url = scrapy.Field() class ScholarSpider(scrapy.Spider): name = "scholar"

浏览 1提问于2014-12-26得票数 0

回答已采纳

1回答

在JSON文件中写入已处理的结果

、、

我正在使用抓取广泛爬行，并有以下要求：刮除会刮掉网址； Scrapy将解析来自URL的响应，并将解析的结果写入文件中，比如file1.json，当且仅当file1.json的大小小于2GB时。否则，Scrapy将创建一个新文件，比如file2.json，并编写对这个新文件的响应；返回响应后，Scrapy将从响应中提取URL并跟踪提取的响应。然后从第2点开始。下面是我的代码，我能够执行步骤1&步骤3，但不知道应该把creating the new file、checking the size和writing the response的逻辑放在哪里。 def pa

浏览 7提问于2022-04-06得票数 1

回答已采纳

1回答

抓取脚本值

、、

在一个特定的url上使用scrapy shell，我试图确定如何在页面源代码中从这个脚本中提取作者值或贡献者值？我试过了 response.xpath('//script').re(r'author":"([0-9.]+)"') 这是网站源代码中的脚本 <script charSet="UTF-8">... "author":"3810161","contributor":{"id":"3810161"}}, </scri

浏览 7提问于2019-03-06得票数 1

1回答

scrapy python CrawlSpider不爬行

、、

import scrapy from scrapy.spiders.crawl import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class MySpider(CrawlSpider): name = 'genericSpider' allowed_domains = ['example.com'] start_urls = [url_1, url_2, url_3] rules = [ Rule(

浏览 11提问于2019-04-24得票数 0

1回答

刮刮-理解CrawlSpider和LinkExtractor

、、、

因此，我尝试使用CrawlSpider并理解中的以下示例： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class MySpider(CrawlSpider): name = 'example.com' allowed_domains = ['example.com'] start_urls = ['http://www.example.com'] r

浏览 1提问于2017-06-13得票数 11

回答已采纳

1回答

如何使用Scrapy提取下一页的数据

、、

所以我写了一个脚本，它有两个功能：解析：从主url中提取url，并将这些url发送到parse_city()以提取每个url的详细信息，完成后解析()提取下一页，并调用自己重复上述步骤 parse_city：从每个url.中提取详细信息。我的第一页使用逻辑提取得很好，但下一页似乎没有转到parse_city()。下面是虚拟代码： import scrapy from bs4 import BeautifulSoup as bs from scrapy import Request from scrapy.spiders import CrawlSpider, Rule from sc

浏览 1提问于2020-11-03得票数 0

1回答

用Scrapy从文本文件中从多个URL中抓取所有外部链接

、、、、

我对Scrapy和Python很陌生，因此我是个初学者。我希望能够让Scrapy读取一个包含大约100 k URL的种子列表的文本文件，让Scrapy访问每个URL，并提取每个种子URL上的所有外部URL(其他站点的URL)，并将结果导出到一个单独的文本文件中。 Scrapy只应该访问文本文件中的URL，而不是爬行并跟踪任何其他URL。我希望能够让Scrapy尽快工作，我有一个非常强大的服务器与1 1GBS线。我列表中的每个URL都是来自一个唯一的域，所以我根本不会访问任何一个站点，因此不会遇到IP块。如何在Scrapy中创建一个项目，以便从存储在文本文件中的urls列表中提取所有外部链接

浏览 0提问于2016-08-28得票数 1

回答已采纳

1回答

我试图通过抓取和获取代码中的错误从网站的链接中提取数据

、、

我试图从一个网站的链接中提取数据。我要走的路是：主页 -links -links 要提取的数据(基本上，我试图提取所有名人的birth_details ) 我的代码如下： import scrapy class celebritiesItem(scrapy.Item): Name = scrapy.Field() Profession = scrapy.Field() Died_On = scrapy.Field() Birth_Place = scrapy.Field()

浏览 1提问于2017-05-08得票数 0

回答已采纳

1回答

将变量赋值给xpath scrapy

、、

我使用刮除来爬行一个网页，这个网页有10+的链接，使用的是\LinkExtractor，一切都很好，但是在提取的链接的爬行中，我需要获得页面url。我没有别的方法可以得到网址，只能用 response.request.url 如何将该值分配给 il.add_xpath('url', response.request.url) 如果我这样做，我就会犯错误： File "C:\Python27\lib\site-packages\scrapy\selector\unified.py", line 100, in xpath

浏览 5提问于2015-10-31得票数 0

回答已采纳

1回答

刮刮Deltafetch增量爬行

、

我正在致力于刮除这个网站。我只想提取那些在上一次运行中没有被刮过的东西。我尝试在"“网站上只提取第一个标题，如果它是更新的。下面是我的代码： import scrapy from selenium import webdriver from w3lib.url import url_query_parameter class QuotesSpider(scrapy.Spider): name = "test" start_urls = [ 'https://www.ndtv.com/top-stories',

浏览 2提问于2018-05-31得票数 1

回答已采纳

1回答

刮伤的结果正在重复

、、

我试图从这个网站的获得歌曲的名字使用链接提取器，但结果是重复。 import scrapy from scrapy import Request from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class RedditSpider(CrawlSpider): name='pagalworld' allowed_domains = ["pagalworld.me"] start_urls=['ht

浏览 4提问于2017-08-01得票数 1

回答已采纳

1回答

条件URL抓取

、、

我试图在一个我不知道网址结构的网站上使用Scrapy。我想：只从包含Xpath“//div@class=”-view“的页面中提取数据。提取打印(在CSV中) URL、名称和价格Xpath 当我运行下面的脚本时，我得到的只是一个随机的URL列表 scrapy crawl dmoz>test.txt from scrapy.selector import HtmlXPathSelector from scrapy.spider import BaseSpider from scrapy.http import Request DOMAIN = 'site.c

浏览 5提问于2016-07-27得票数 1

1回答

python :规则在登录后不适用，只是爬行了第一页

、、

我是一个C/C++程序员，在制作绘图和文本处理方面有有限的python经验。我目前正在进行一个个人数据分析项目，我正在使用Scrapy在论坛中抓取所有的线程和用户信息。我编写了一个初始代码，目的是先登录，然后从子论坛的索引页面开始，做以下工作： 1)提取包含“主题”的所有线程链接。 2)现在将页面保存在文件中(一旦整个过程生效，将提取项目信息)。 3)查找带有标签class=next的下一页链接，转到下一页并重复1)和2) 我知道对于每个线程，我仍然需要遍历包含所有回复帖子的所有页面，但是一旦我正确地完成了当前的代码工作，我就计划这样做。但是，我的当前代码将只提取启动url中的所有线程，然

浏览 1提问于2014-05-28得票数 3

回答已采纳

1回答

如何在python中使用selenium scrapy webdriver提取所有下一页数据

、、、

import scrapy from scrapy.http import TextResponse from selenium import webdriver class Spider1(scrapy.Spider): name = "len" allowed_domains = ["support.lenovo.com"] start_urls = ["https://support.lenovo.com/in/hi/contactus1/findaprovider/service-provider-list?countr

浏览 1提问于2015-08-18得票数 0

1回答

刮除Xpath输出为空

、、、

我想在这个网站上提取数据：，我正在学习python，以及如何使用Scrapy，我的问题是:为什么我不能用Xpath检索数据？当我在浏览器中测试Xpath时，我的xpath看起来很好，它会返回正确的值。(谷歌Chrome) import re from scrapy import Spider from scrapy.selector import Selector from stack.items import StackItem class StackSpider(Spider): name = "stack" allowed_domains = ["poke

浏览 2提问于2016-06-28得票数 3

回答已采纳

1回答

从一个页面中抓取多篇文章，每篇文章都有单独的href

、

我是个新手，写了我的第一个爬虫，为类似的网站做了一个爬虫。我想要抓取标题，然后导航到每篇文章，抓取每篇文章的文本内容。我已经尝试使用规则和链接提取器，但它不能导航到下一页和提取。我得到错误:爬行器错误处理 (referer: None) 下面是我的代码 import scrapy from scrapy.spiders import Rule from scrapy.linkextractors import LinkExtractor class MedicalSpider(scrapy.Spider): name = 'medical' allowe

浏览 1提问于2019-07-09得票数 1

1回答

如何提取请求url w.r.t.在刮刮中使用链接提取器时响应url？

、、

我正在尝试使用链接提取器从页面中抓取一些url，但我也需要知道被请求的url是根据哪一个响应url提取的。 import scrapy from scrapy.spider import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class ExtractSpider(CrawlSpider): name = 'Extract' allowed_domains = ["xyz.com"] start_urls = [a,b,c] rule

浏览 0提问于2018-10-26得票数 1

回答已采纳

1回答

Scrapy Selenim不能从所有start_urls中提取数据

、、

如果只列出了一个url，下面的代码就像它应该的那样提取数据。如果我输入两个url (如下所示)，它只会从第一个url中提取数据-但会提取两次！你知道怎么克服这个问题吗？请注意，我删除了一些选择器以缩短代码。 import scrapy from scrapy_selenium import SeleniumRequest from selenium import webdriver class Spider(scrapy.Spider): name = "match_summary" def start_requests(self): ur

浏览 14提问于2020-09-18得票数 1

1回答

张贴请求与刮刮不正确地重定向？

、、、

我正在尝试使用scrapy从中提取一些数据。我有一些地址，我想从网站中提取与每个地址相关联的信息，所以我需要通过这个urls “按地址搜索”。我试着用8433作为街道号，LAKEVIEW作为街道名，站点将我重定向到这个网址：，这是我想要的。但是，正如您所看到的，我用于搜索的信息并不在结果的url中。我和检验员核对了这一页，得到了这样的信息：因此，我使用scrapy完成了一个post请求，并传递了如下参数： >>> from scrapy.http import FormRequest >>> form_data = {"Situs_St

浏览 1提问于2017-02-16得票数 0

回答已采纳

2回答

抓取/Python的产量和继续处理可能吗？

、、、

我正在尝试这个示例代码 from scrapy.spiders import Spider, Request import scrapy class MySpider(Spider): name = 'toscrapecom' start_urls = ['http://books.toscrape.com/catalogue/page-1.html'] urls = ( 'http://books.toscrape.com/catalogue/page-{}.html'.format(i + 1

浏览 0提问于2019-04-17得票数 0

2回答

如何从XML页面中提取urls，加载它们并使用提取其中的信息？

、、

我使用Scrapy的XMLfeedspider从页面xml中提取信息。我试图只提取标签"loc“中该页上的链接，并加载它们，但阻止页面重定向，然后将其发送到将从该页收集信息的最后一个解析节点。问题是，我不确定是否可以在"def star_urls“上加载这些页面，或者是否需要使用parse_node并将其重定向到另一个解析以提取我需要的信息，但是即使我尝试了，也不知道如何从xml页面中提取链接，而不是所有的loc标记。继续我的想法：方法应该是加载并从其中提取<loc>标记中的链接，如下所示：然后最后加载每个页面并提取标题和url。有什么想法吗？

浏览 2提问于2017-07-20得票数 1

回答已采纳

1回答

使用Scrapy和Splash抓取javascript内容

、、

我正在使用刮伤和splash：来抓取这个链接但我无法提取数据。我的代码： import scrapy from scrapy_splash import SplashRequest class ManuPySpider(scrapy.Spider): name = 'manulife' def start_requests(self): yield SplashRequest( url = 'https://manulife.taleo.net/careersection/external_global/jobsearc

浏览 1提问于2017-10-25得票数 0

回答已采纳

1回答

难以将requests.models.Response转换为scrapy.selector.unified.Selector

这段代码 import requests url = 'https://docs.scrapy.org/en/latest/_static/selectors-sample1.html' response = requests.get(url) 获取一个requests.models.Response实例，我可以从其中使用scrapy提取数据 from scrapy import Selector sel = Selector(response=response) sel.xpath('//div') A post gives a great访问网站的方式。这

浏览 13提问于2020-07-02得票数 0

回答已采纳

1回答

无空白行的Scrapy csv导出

、、、

我有以下不完整的代码： from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class AliSpider(CrawlSpider): name = "alibot" allowed_domains = ["alibaba.com"] start_urls = { 'http://www.alibaba.com/catalog/power-banks_cid100009648

浏览 3提问于2018-08-31得票数 0

1回答

我怎样才能让爬行蜘蛛获取这些链接？

、、

我试着从这个页面的记分卡栏中获取链接. 我正在使用爬行器，并试图使用这个xpath表达式访问链接. "//tbody//tr[@class='data1']//td[last()]//a[@class='data-link']" 这个表达式在刮伤外壳中工作，并获取所有48个链接。当我用蜘蛛的时候，它不会刮任何东西。我尝试了20种不同的xpath表达式，但都没有效果。我也尝试过使用“允许”和css选择器。我认为我不应该包括@href，因为爬行蜘蛛会处理这个问题。我很困惑，因为我有一个非常相似的爬行蜘蛛，没有问题的工作。这是完整的代码 im

浏览 1提问于2021-05-25得票数 0

回答已采纳

1回答

Scrapy不跟随提取的链接

、、、

Scrapy不遵循抓取的链接。当我调用这个函数时，它应该从之前抓取的链接中提取详细信息，但它不起作用，而是从start_urls中抓取内容。 import scrapy class OlxSpider(scrapy.Spider): name = 'olx' start_urls = ['https://www.olx.pl/nieruchomosci/mieszkania/wynajem/wroclaw/'] allowed_domains = ['www.olx.pl'] def parse(self,

浏览 2提问于2021-04-17得票数 0

1回答

我在我的scrapy项目中实现了一个ItemLoader来格式化数据，它不再向csv文件中添加任何内容

、、

我创建了一个scrapy项目来从这个分类广告网站上抓取一些信息，但是我得到的数据需要格式化。在做了一些研究之后，我想出了如何实现一个ItemLoader，但现在它不会将任何抓取的数据写入csv文件。这是我的spider.py： import scrapy from..items import TestItem from scrapy.loader import ItemLoader class TestSpiderSpider(scrapy.Spider): name = 'test' page_number = 2 start_urls = [&#

浏览 0提问于2020-11-12得票数 0

1回答

不适当地收集电子邮件

、、、

我正在使用Scrapy来收集一些数据，除了电子邮件提取部分之外，一切都很好。由于某些原因，.csv文件中的电子邮件行是空的，或者只有少数几封电子邮件被提取。我尝试过限制download_delay和CLOSESPIDER_ITEMCOUNT，但是它不起作用。任何帮助都是非常感谢的。 import re import scrapy class DmozItem(scrapy.Item): # define the fields for your item here like: link = scrapy.Field() attr = scrapy.Field()

浏览 0提问于2015-07-09得票数 1

1回答

提取电子邮件时延迟

、、

我正在使用scrapy来收集一些数据，我需要在提取电子邮件时延迟代码。所以不是整个代码，而是只有当它到达电子邮件提取部分时。任何帮助都是非常感谢的。 import re import scrapy from scrapy.http import Request # item class included here class DmozItem(scrapy.Item): # define the fields for your item here like: link = scrapy.Field() attr = scrapy.Field() title

浏览 1提问于2015-06-17得票数 1

1回答

如何从这个网站上获取下载的内容？

、、

我试图从这个中获取数据，但是我无法提取数据。我想得到关于每一个真实状态的数据，比如href，价格等等。下面是我的代码：在setings.py中 ROBOTSTXT_OBEY = False USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36" SPLASH_ENABLED = True DOWNLOADER_MIDDLEWARES = { 'scrapy_sp

浏览 2提问于2020-10-05得票数 1

回答已采纳

2回答

在scrapy : Python中获取重定向url时出错

、、、

我用的是密码： def parse_find(self, response): Download_URL = "https://download.example.com/b/zMTY" request = Request(Download_URL, callback=self.parse_final) yield request def parse_final(self, response): redirected_URL = response.url FileName = response.headers['Content

浏览 0提问于2018-07-29得票数 0

回答已采纳

1回答

使用scrapy进行网络抓取:空结果

、、

我正在学习如何使用scrappy，我想从这个中提取一些youtube视频链接。我写了这个脚本来提取链接从网站到一个json文件。 import scrapy class getVideos(scrapy.Spider): name = 'wbScraper' start_urls = ['https://research.google.com/audioset///eval/baby_cry_infant_cry.html'] def parse(self, response): for url in response.

浏览 12提问于2020-03-06得票数 1

2回答

不带标记的刮取URL (href)元素

、

我已经用下面的程序提取了一些数据。但是，当我检查提取的数据结果时，我意识到如果内容中有url，我就无法获取'question_content‘中包含的href元素( url)。 import scrapy class JPItem(scrapy.Item): best_answer = scrapy.Field() question_content = scrapy.Field() question_title = scrapy.Field() class JPSpider(scrapy.Spider): name = "jp"

浏览 2提问于2017-05-24得票数 2

回答已采纳

1回答

我怎么才能解决这个问题，它不回短信？

、、

我是刮这个网站，我在提取文本上有问题。我试过各种方法，但都没有用 import scrapy from scrapy_splash import SplashRequest class QuotesSpider(scrapy.Spider): name = "hi" start_urls = [ 'https://cadres.apec.fr/home/mes-offres/recherche-des-offres-demploi/liste-des-offres-demploi.html?motsCles=commercial&

浏览 1提问于2019-08-07得票数 1

1回答

从Scrapy Spider响应中选择元素

、、、

谁能帮我找出如何从这个用Scrapy抓取的page中提取链接？我已经按如下方式修改了爬行器代码，但我正在努力弄清楚如何使用Scrapy选择器来只生成我想要的链接。 import scrapy class RMWSpider(scrapy.Spider): name = "RMW" def start_requests(self): urls = [ 'http://search.people.com.cn/cnpeople/search.do?pageNum=1&keyword=%C8%F0%B5%

浏览 15提问于2020-01-10得票数 0

回答已采纳

1回答

无法抓取图像URL(Scrapy)

、、

我正在尝试使用Scrapy来刮取数据。除Product外，所有部件数据都将被提取。当试图提取Image时，它返回一个空字符串列表，如下所示工程代码蜘蛛menscloths.py (蜘蛛) import scrapy from ..items import DataItem class MensclothsSpider(scrapy.Spider): name = 'menscloths' next_page=2 start_urls = ['https://www.example.com/clothing-and-accessor

浏览 1提问于2021-02-26得票数 0

1回答

抓取爬虫没有返回预期的html

、、、、

我试着用scrapy做一些提取，但是它没有返回预期的html，我不知道问题出在哪里，如果它可能是站点的安全性或者其他什么的话，因为其他页面正在返回正确的结果。我试图提取这个链接上的帖子列表，这是关于客户对服务和产品不满意的，但是上面的代码返回的html不包含帖子列表，只是一个简单的html几乎是空的。有人知道会发生什么吗？导致正确抽取阻塞的问题？代码很简单，与刮刮教程中的代码相同：我已经尝试了一些爬虫桌面或在线工具，结果是一样的。 import scrapy class DmozSpider(scrapy.Spider): name = "dmoz"

浏览 5提问于2015-11-24得票数 2

回答已采纳

1回答

如何使用scrapy抓取页面上的所有现有文本？

、、

我有这个代码，从网址中提取一堆东西，并遵循一些链接，但我想获得网站上所有现有的文本。在response.css()中，是否有一个属性可以让您选择每个现有的标记？ import scrapy from bs4 import BeautifulSoup import nltk import lxml.html import pandas as pd from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class QuotesSpider(scrapy.Spid

浏览 0提问于2018-04-17得票数 0

1回答

Python :如何从单独的文件中运行您的蜘蛛？

、、

因此，我创建了一个蜘蛛在刮刮，现在成功地针对所有我想要的文本。如何在另一个python文件中执行这个蜘蛛？因为我希望能够传递给它新的URL/将它找到的数据存储在字典中，然后存储在一个dataframe中。因为目前我只能用终端命令'scrapy爬行SpiderName‘运行它。 from scrapy.spiders import Spider from scrapy_splash import SplashRequest class SpiderName(Spider): name = 'SpiderName' Page = 'https

浏览 0提问于2021-02-01得票数 1

回答已采纳