使用scrapy提取大量登录页面的原始html内容

python、scrapy、web-crawler

对于一个分类项目，我需要大约1000个网站的原始html内容。我只需要登录页面，而不是更多，所以爬虫不必遵循链接！我想为它使用scrapy，但我无法获得代码。因为我在文档中读到JSON文件首先存储在内存中，然后保存(这会在抓取大量页面时导致问题)，所以我想以“.js”格式保存文件。我使用Anaconda提示来执行我的代码。我希望生成的文件有两列，一列是域名，另一列是每个站点上的raw_html内容 domain, <

浏览 10提问于2019-02-12得票数 0

回答已采纳

1回答

使用scrapy抓取时处理pdf文档

python、python-2.7、pdf、web-scraping、scrapy

我想解析的PDF文件，遇到时，爬行网站使用scrapy。我使用下面的代码从PDF文档中提取HTML页面源代码，但它不起作用如何从PDF文档中获取内容并将其合并到scrapy工作流中

浏览 1提问于2015-02-13得票数 0

1回答

在实际抓取数据之前，scrapy是否有可能导航链接？

python、scrapy

到目前为止，我所看到的大部分内容都涉及到：3)告诉刮刮者如何找到要刮的“下一页” 我想知道的是，当数据本身不在起始页面时，我是否能够使用scrapy刮取数据？例如，我有一个链接，去一个论坛。是否有可能这样做，并只使用最初的链接到论坛？刮刮是否有可能浏览每一个子论坛，每一个线程，然后开始刮擦？

浏览 0提问于2018-10-18得票数 0

回答已采纳

2回答

外壳和蜘蛛中的Scrapy处理ajax连续响应数据

python、ajax、youtube、scrapy、continuation

例如，在html中可以看到youtube页面的前30个视频，然后用户必须单击一个"load more“按钮，该按钮触发ajax并获得更多的结果。我可以获得ajax链接，但是使用Scrapy特性提取剩余数据/“分页”的最佳方法是什么？它的格式与运行scrapy时的原始响应不同。它似乎并不像JSON那样加载。我想scrapy有专门针对这个的东西，但是在文档中找不到它。编辑I可以通过以下操作获得html内容</e

浏览 1提问于2015-10-24得票数 1

3回答

当使用requests.session登录www.researchgate.net时，我得到了一个"403禁止的“，警告说”您的浏览器不接受cookies“。

python、cookies、web-scraping、web-crawler

当我尝试使用requests.Session登录时，我得到一个"403禁止“的页面，警告说”您的浏览器不接受Cookie。需要Cookie才能使用此站点。“如何解决这个问题？std.uestc.edu.cn', 'password': '#######'} s = session.post("https://www.researchgate.net/application.Login.html

浏览 0提问于2016-04-12得票数 0

2回答

递归使用Scrapy从网站抓取网页

python、web-scraping、scrapy

我最近开始使用Scrapy。我正在尝试从一个被分成几页(大约50页)的大列表中收集一些信息。我可以很容易地从第一页中提取我想要的内容，包括start_urls列表中的第一页。但是，我不想将这50个页面的所有链接都添加到这个列表中。我需要一种更有活力的方式。有人知道我如何迭代地抓取网页吗？有谁有这样的例子吗？谢谢!

浏览 7提问于2011-02-03得票数 1

1回答

有关使用python和scrapy的crawler的问题

python、scrapy、web-crawler

我被指派使用python和scrapy创建一个爬虫来获取特定酒店的评论。我阅读了相当多的教程和指南，但我的代码仍然生成一个空的CSV文件。Item.py import scrapy # define the fields for your item here like: StarRating = scrapy.Field() Title = <e

浏览 20提问于2020-04-05得票数 0

2回答

有没有办法在无头模式下运行QtWebEngine？

qt、headless、xvfb、qtwebengine

我正在使用QWebEnginePage来获取一些网页的内容。在.pro文件中，我提到了CONFIG-=gui. 但是，当我在无头系统中运行该程序时，它报告无法连接到display:0。有没有什么办法可以在不使用xvfb的情况下，在无头模式下使用QtWebEngine获得页面的超文本标记语言？

浏览 0提问于2017-02-14得票数 1

1回答

使用scrapy* getting crawlspider处理经过身份验证(已登录)的用户会话*

html、login、screen-scraping、scrapy

你好，我怎么才能让我的爬虫蜘蛛工作，我能够登录，但什么都没有发生，我真的没有得到不刮。另外，我一直在看抓取文档，我真的不明白抓取的规则。为什么在“成功登录，让我们开始爬行！”之后什么也没有发生！import InitSpiderfrom scrapy.contrib.linkextractors.sgmlimport SgmlLinkExtractor from scrapy.contrib.spiders imp

浏览 0提问于2013-07-13得票数 7

回答已采纳

2回答

如何使用Scrapy从动态加载的网站(Fincaraiz)中刮取链接

python、scrapy

我想了解如何使用Python中的Scrapy从下面的页面提取数据 https://fincaraiz.com.co/inmueble/apartamento-en-arriendo/florida-blanca/bogota/6738284问题这个页面动态加载内容，所以当我从Scrapy发出请求时，我得到的结果是

浏览 18提问于2022-02-18得票数 0

1回答

基于Tomcat窗体的身份验证在会话超时后不使用页面包装加载ajax内容。

java、ajax、tomcat

Java应用程序在会话超时和用户重新登录之后加载原始ajax数据。问题从这里开始:由于上一次请求是为了ajax调用，所以页面加载原始内容而不使用完整的HTML包装器。

浏览 2提问于2015-10-14得票数 0

1回答

用Python3 (Scrapy，BS4)抓取网站确实会产生不完整的数据。找不到原因

python-3.x、web-scraping、scrapy

请求包含完整的网站，并且提取了正确的值。 name = "whisky" with open(filename, 'wb') as f: f.write(respon

浏览 4提问于2020-10-22得票数 0

1回答

Python抓取表不能正常工作

python、scrapy

在之后，我设计了如下刮刀： # define the fieldsfor your item here like:

浏览 1提问于2017-03-30得票数 1

回答已采纳

1回答

python、web-scraping、scrapy、scrapy-splash

我正在从zappos.com上抓取一些信息，特别是显示查看当前项目的客户也查看过的详细信息页面的一部分。我正在使用scrapy进行抓取，并使用splash进行渲染。import scrapyfrom scrapy_splash import SplashRequest name我已经测试了这个元素和其他元素的提取，所有这些元素都在带有splash渲染的s

浏览 0提问于2018-04-20得票数 0

3回答

Scrapy有可能从原始HTML数据中获取纯文本吗？

python、html、web-scraping、scrapy、web-crawler

然后，我得到以下原始HTML代码： <p>Start by reading <a href="http://doc.scrapy.org/en/latest/intr

浏览 0提问于2013-07-18得票数 18

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用scrapy抓取时处理pdf文档

在实际抓取数据之前，scrapy是否有可能导航链接？

外壳和蜘蛛中的Scrapy处理ajax连续响应数据

当使用requests.session登录www.researchgate.net时，我得到了一个"403禁止的“，警告说”您的浏览器不接受cookies“。

递归使用Scrapy从网站抓取网页

有关使用python和scrapy的crawler的问题

有没有办法在无头模式下运行QtWebEngine？

使用scrapy* getting crawlspider处理经过身份验证(已登录)的用户会话*

如何使用Scrapy从动态加载的网站(Fincaraiz)中刮取链接

基于Tomcat窗体的身份验证在会话超时后不使用页面包装加载ajax内容。

用Python3 (Scrapy，BS4)抓取网站确实会产生不完整的数据。找不到原因

Python抓取表不能正常工作

使用Scrapy-splash导航动态页

刮擦蜘蛛无法使用xpath提取网页内容

用xPathSelector提取嵌套的'img src‘

在使用scrapy访问xpath属性时遇到问题

运行时请求URL更改不起作用

抓取有时可见，但有时不可见的内容

Scrapy有可能从原始HTML数据中获取纯文本吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐