抓取html表，并使用scrapy将数据组合到mongodb中。

、

我从2个不同的表中抓取数据，并希望将数据合并到MongoDB中现在我遇到了一个问题，那就是我要刮掉的第二张表。表有1个表头和5个表行，如何抓取MongoDB字段包含表的所有元素(列)的表我想要擦除的表看起来像这样的https://codepen.io/link

浏览 8提问于2019-09-04得票数 0

回答已采纳

3回答

以压缩格式存储mongodb数据

、

我正在使用mongodb来存储使用scrapy框架的网页的原始HTML数据。在一天的web抓取中，25 up的磁盘空间就被填满了。有没有办法以压缩格式存储原始数据？

浏览 6提问于2013-08-02得票数 8

回答已采纳

1回答

如何在Scrapy项目中使用PyMongo MongoDB插入新记录时删除重复项

、、、、

在我的Scrapy项目中，我使用PyMongo将抓取的数据存储在MongoDB中。在以逐页的方式抓取网页时有重复的记录，我只想删除那些在插入到数据库中时具有相同名称的重复记录。请指导我如何去除"process_item"方法中的重复项。我发现在互联网上很少有从数据库中删除重复项的查询，但我想要一个Python解决方案。from pymongo

浏览 13提问于2018-08-21得票数 1

6回答

Scrapy -静默地删除项目

、

我正在使用Scrapy抓取几个网站，这些网站可能会共享多余的信息。对于我抓取的每个页面，我将页面的url、标题和html代码存储到mongoDB中。我想避免数据库中的重复，因此，我实现了一个管道，以检查是否已经存储了类似的项。在这种情况下，我会引发一个DropItem异常。我的问题是，每当我基于DropItem异常原因放置一个项目时，Scrapy都会将该项目的全部内容显示到日志中

浏览 1提问于2012-11-23得票数 26

回答已采纳

2回答

离线(本地)数据上的Python Scrapy

、、

我的计算机上有一个270MB的数据集(10000个html文件)。是否可以使用Scrapy在本地对此数据集进行爬网？多么?

浏览 0提问于2013-10-16得票数 17

1回答

我正在运行一个脚本，它可以抓取相当多的数据，然后使用函数将数据上传到mongodb。我一直受到连接关闭错误的影响，不知道为什么会发生这种情况，因为每次都会有5000组数据分块，但是当我只运行15.000组时，它就运行得很好。当我运行50.000套时，我得到了pymongo.errors.AutoReconnect: scrapy-01-lb.3vs0u.mongodb.net:27017: [Err

浏览 4提问于2022-11-03得票数 0

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

2回答

Scrapy -如何抓取网站并将数据存储在Microsoft SQL Server数据库中？

、、、

我已经在MSSQL Server中为Scrapy数据创建了一个表。我还设置了Scrapy并配置了Python来抓取和提取网页数据。我的问题是，如何将Scrapy抓取的数据导出到本地MSSQL Server数据库中？这是Scrapy用于提取数据的代码： class

浏览 1提问于2017-04-07得票数 2

1回答

擦除null输出，但数据已抓取

、、、

我正在抓取一个网站，并试图将输出保存到MongoDB中。但是蜘蛛的日志显示数据被刮掉了..。这是我的爬虫代码from scrapy.selector import HtmlXPathSelector item

浏览 1提问于2013-08-30得票数 1

1回答

我可以在Scrapy中刮一整页，但未能使用xpath找到DOM元素

、、

我是Python的完全初学者，我想用scrapy从抓取一些图像with open('baiduImage.html', 'wb') as f:这似乎是一个完整的页面，所有元素在Chrome中都表现良好，但我没有使用 f.write(response.xpath('/html/body').extract()[0

浏览 2提问于2014-11-17得票数 0

回答已采纳

2回答

Scrapy / Python和SQL Server

、、

有没有可能使用Scrapy从网站上获取数据，并将这些数据保存在Microsoft SQL Server数据库中？如果是，有没有这样做的例子？这主要是Python的问题吗？也就是说，如果我发现一些Python代码保存到SQL Server数据库中，那么Scrapy也可以这样做吗？

浏览 0提问于2013-02-07得票数 0

回答已采纳

1回答

使用禁用管道功能？我怎样才能重新启用它？

、、、

我目前正在用Scrapy编写一个Twitter刮板来抓取和处理数据，Selenium作为一个自动化工具，因为Twitter本身是一个交互式页面，所以我可以“向下滚动”推文，并在一次扫描中获得更多数据。使用我设置的MongoDB管道，理论上它应该将处理过的数据发送到预置数据库，但由于某种原因，管道没有被发送，因为我没有看到它的调试日志在运行。= Selector(text = self.driver.page_sour

浏览 1提问于2015-05-22得票数 2

回答已采纳

1回答

将抓取的数据存储在MongoDB中

、、

我想将抓取的数据存储在MongoDb中，但我得到了一个错误。我还没有在程序中的任何地方使用attribute has iteritem，下面是程序代码: ex.pyfrom example.items import ExampleItemh1[@id="eventTitle"]/text()').extract()) item['Language'] = map(unico

浏览 1提问于2016-04-27得票数 0

1回答

(Python 3)：Scrapy MongoDB管道无法工作

、、

我试图通过Pymongo连接到MongoDB的管道，以创建一个新的数据库，并填充我刚刚抓取的内容，但我遇到了一个奇怪的问题。在命令行1 (scrapy)中，我将目录设置为Documents/PyProjects/twitterBot/krugman 在命令行2中，我将其设置为文档/PyProjects/twitterBot我使用的脚本如下: krugman/ krugman

浏览 0提问于2017-09-12得票数 1

1回答

Scrapy crawler不稳定，有时工作有时不会

、、、、

我的爬虫有时会工作，有时-crawls和抓取，但有时只是爬行，不会抓取任何东西，如果我没有改变任何代码:/我不明白。没有错误代码或任何东西。/s/srs=9187220011&rh=n%3A283155> (referer: None)2017-02-05 23:52:00 [scrapy.statscollectors] INFO:

浏览 21提问于2017-02-06得票数 1

回答已采纳

2回答

来自Scrapy的HtmlResponse不能从URL中检索数据

、、

这些是在Ipython中运行的代码。from scrapy.selector import Selector response = HtmlResponse(url仅供参考，如果我在命令提示符下运行$ scrapy shell https://en.wikipedia.org/wiki/Pan_American_Games，则响应不会为空。我不想使用scrapy shel

浏览 4提问于2015-06-30得票数 1

1回答

如何将我的mongodb收藏品导出到我网站上的表中？

、、、

我想创建一个非常简单的表，其中列出了mongodb数据库中的所有数据。因为将有新的数据添加频繁但不定期，我认为数据应该只在网站加载时

浏览 3提问于2014-06-13得票数 0

3回答

在使用Scrapy进行抓取之前，检查URL是否在文件中

、、

我正在抓取一个包含URL列表的大文件。显然，我不能连续地抓取所有的URL。我当前的解决方案从文件中读取URL。，程序从URL的原始文本文件开始，并开始重新搜索并使用相同的内容覆盖以前的下载。我尝试将代码放入爬行器中，以检查传递给解析函数的URL是否在"completed_urls.txt“文件中……但显然，随着完成的URL数量的增加，这是一个很长的检查。因此，我的问题是:当我重新启动程序时，如何才能记住哪个URL是要爬行的最

浏览 6提问于2019-10-11得票数 0

1回答

为什么Scrapy没有返回完整的HTML代码？

、

我正在尝试将我的selenium web刮刀转换为scrapy，因为selenium并不是主要用于web抓取。from scrapy.crawler import CrawlerProcessmin_price = "65000" class Quot

浏览 30提问于2020-06-04得票数 0

回答已采纳

1回答

使用Scrapy递归地从页面上找到的每个表中抓取数据

、

我有下面这段代码，它从一个web页面中抓取一个命名表：from scrapy.selector import Selectorfrom scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml','crawl&#x

浏览 4提问于2014-07-30得票数 0

点击加载更多