Python + scrapy + web scraping :页面没有被抓取_网站被抓取，但没有抓取Scrapy_Web抓取与'scrapy‘抓取0个页面和项目 - 腾讯云开发者社区

python、web-scraping、scrapy

我想从这个页面上抓取电影的标题：https://www.imdb.com/list/ls055386972/。我写了以下代码： import scrapyfrom scrapy.http import Requestimport pymysql我收到以下错误消息： 2019-03-04 18:08:37 [scrapy.core.engine] DEBUG: Cr

浏览 45提问于2019-03-04得票数 0

回答已采纳

1回答

使用scrapy从facebook中抓取数据

facebook、web、web-crawler、scrapy

我想通过刮擦刮刮结果页面()。import sysfrom scrapy.http import FormRequest from scr

浏览 3提问于2013-05-31得票数 5

1回答

Scrapy停止抓取，但继续爬行

python、scrapy、web-crawler

我试图从一个网站的几个页面中抓取不同的信息。在第16页之前，一切正常:页面被抓取，抓取，我的数据库中的信息存储，但是在第16页之后，它停止抓取，但继续抓取。我查看了这个网站，有470多个页面提供了信息。HTML标签是一样的，所以我不明白为什么它会停止抓取。Python： url_list = [] while

浏览 0提问于2018-01-24得票数 4

3回答

Scrappy不能抓取数据

python、web-scraping、scrapy

我编写了以下脚本来从中抓取数据 name = 'jobs' def parse(self, respo

浏览 1提问于2017-10-26得票数 0

1回答

在搜索Google时转到下一页

python、python-3.x、web-scraping、beautifulsoup

我想知道这里有没有人以前通过过这个问题？我已经成功地从第一页抓取了数据，但我需要为那里的每一页做这件事请看下面我的当前代码。

浏览 10提问于2019-12-18得票数 0

1回答

在python中使用scrapy抓取需要向下滚动的数据

python-3.x、web-scraping、scrapy

我有一个scraping项目，我用python和scrapy拼凑在一起。现在，我遇到了某些数据，这些数据只在用户向下滚动时才加载到页面上。我如何在我的抓取蜘蛛中模拟这一点？

浏览 0提问于2021-01-11得票数 0

1回答

Scrapy:如何开始从使用Javascript的搜索结果中抓取数据

python、web-scraping、scrapy

我是新手使用scrapy和python我想开始从搜索结果中抓取数据，如果你会加载页面默认内容将会出现，我需要抓取的是过滤后的内容，同时做分页？下面是我需要从时间过滤器中抓取项目的URL："Today“我所做的就是这些，但更多的是关于布局结构。class TmcnfSpider(scrapy.Spider):allowed_domains = ['teslamot

浏览 1提问于2019-05-10得票数 0

1回答

Python -单击链接时抓取数据不会更改URL

python、python-2.7、web-scraping

我想从这里抓取数据：在该页面中有一个标题为“市场流动”的部分，下面有3列：“最活跃的人”，"%获得者“，"%失败者”，每一个都可以点击。该部分列出了10只股票。我想要做的是点击"%获得者“，同时点击”加载10多个“，查看排名前20的获得者列表，并在Python中抓取数据。但是，在这两次单击之后，URL与之前相同。我很感谢在这方面的任何帮助。

浏览 1提问于2015-09-11得票数 1

1回答

是否在抓取的href链接前添加“https：”？

python、hyperlink、scrapy、web-crawler、href

我正在尝试抓取产品详细信息URL并转到相应的页面。title-selling-point a::attr(href)').extract() 此代码将获得正确的链接： '//product.suning.com/0000000000/11346320883.html' 但是，因为它前面没有'http:‘，所以当我运行 yield scrapy.Request(product_detail_link, callback=self.start_<e

浏览 36提问于2020-07-13得票数 0

回答已采纳

1回答

无法将数据放入Pandas.It DataFrame.Whenever中我尝试将这两个数据放入Pandas未完成

python、pandas、selenium、beautifulsoup

我无法创建data_list和data_1_list.Whenever的数据框我这样做没有收到错误，但整个数据中只有一行是shown.Pls在您自己的code.It中尝试无法在words.You中解释尝试创建数据框并打印它

浏览 2提问于2020-06-09得票数 0

2回答

如何将刮过的数据正确地存储在item对象中，并将每组数据保存到1个csv文件中？

python、beautifulsoup、scrapy

这是我目前所拥有的，但是这会为每个被刮过的页面/url创建一个文件，我想将所有这些合并成每个站点的一个文件。我找到了Python/web抓取的备忘单，并尝试了保存数据的示例，但是没有工作。https://blog.hartleybrody.com/web-scraping-cheat-sheet/ itmDetails2 = dets['sku']

浏览 0提问于2019-04-22得票数 0

回答已采纳

2回答

在登录后刮取urls列表

scrapy

要刮除的站点有多个具有多个页面的项目，并且需要登录。(url, callback=self.parse) ... do some scraping ...这将导致所有页面 of one项目(登录成功)，但随后就停止了。如果函数return scrapy.Request()中的logged_in()<em

浏览 6提问于2016-03-11得票数 1

1回答

在python中浏览/解析html页面

python、html、parsing、browser、web-scraping

为了与html页面进行交互，我试图把一些我需要的插件集合在一起。我需要的范围从简单的浏览和与按钮或网页链接(如“在这个文本框中写一些文本并按这个按钮”)进行交互，到解析html页面和向服务器发送自定义get/post消息。我正在使用Python3，到目前为止，我有Request用于简单的网页加载、自定义get和post消息，BeautifulSoup用于解析HTML树，我正在考虑尝试机械化来进行简单的网页交互。是否有某种集合的地方，所有的Python库挂起？因为我有时会发现很难找到我要找的东西。

浏览 3提问于2014-04-17得票数 1

回答已采纳

1回答

在web爬行脚本中找不到刮取模块

python、scrapy、web-crawler

我有scrapyVersion1.4和python3。File "script.py", line 2, in <module>ModuleNotFoundError: No module named'scrapy'from __future__ import absolute_importfrom scrapy.sel

浏览 0提问于2017-11-05得票数 0

回答已采纳

1回答

端口web刮刀，刮0.24，到python* 3。或者使用更好的东西。*

python、web-scraping、scrapy

我试图使用来制作一个web刮刀，但是我遇到了很多问题，因为它使用了Python2。可以在tarball中的所有文件上同时运行2to3命令吗？这会不会导致看不见的错误？我这么说是因为在表单上似乎没有太多关于运行scrapy版本0.24所固有问题的活动，也就是说，它是用python 2编写的。如果scrapy是最好的选择，而移植是个坏主意，那么在我的面向python3的机器上运行它的最好方法是什么呢？只使用python 2或我可以在配置文件中更改之类的东西

浏览 1提问于2015-02-08得票数 1

回答已采纳

1回答

用Python抓取加载AJAX的网站，我应该使用哪个url？

javascript、python、json、ajax、api

因此，我开始搜索替代方案，并在StackOverflow上使用API向服务器发送请求，但经过几个小时的尝试和搜索(例如，我放弃了)，因为我没有得到一些东西：如何逆向工程API发送正确的请求？

浏览 4提问于2017-11-25得票数 1

1回答

抓取多个页面

web-scraping、scrapy、web-crawler

我有一个可以抓取单个页面的函数。如何在点击相应链接后抓取多个页面？我是否需要像下面的gotoIndivPage()那样调用parse()的单独函数？谢谢!import scrapy name = "..."start_urls = "url with links to multiple pages" # for scraping indiv

浏览 15提问于2019-11-14得票数 1

回答已采纳

1回答

如何使用javascript创建站点地图

javascript、web-crawler、web-scraping

我正在寻找关于如何创建一个javascript的文件，它将遵循页面上的所有链接，或网站，并创建它们的地图或列表。或者，如果有更好的方法来做到这一点，那也是很好的。我只是想获得一个全面的列表上的所有网页的网站上的3000+页面。我也不知道该在这个问题上加上什么标签，所以在这方面的提示会很酷。

浏览 0提问于2012-07-19得票数 0

2回答

是否可以将BigQuery查询导出到GCS桶中相等的5000行CSV文件中？

google-cloud-platform、google-bigquery、google-cloud-storage、google-api-python-client

我知道将查询导出到GCS中的CSV文件的能力；但是，当导出到多个文件时，似乎没有限制每个文件行数的方法。我想知道是否有人想出了一个解决办法来实现这个功能。我想出了以下伪SQL代码：total = SELECT COUNT(*) FROM WEB_SCRAPING.scrapy_products WHERE spider = "{', header=true SELECT * E

浏览 6提问于2021-02-04得票数 0

9回答

BeautifulSoup和Scrapy* crawler有什么区别？*

python、beautifulsoup、scrapy、web-crawler

我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云