Python Scrapy提取子项

文章/答案/技术大牛

发布

1回答

、、、、

div class="post-text"> </div></div> 我想从answer类中提取我尝试过：response.css('.post-text > p::text').extract()，但它同时提取了问题和答案。我是Scrapy的新手，所以也许我做错了什么。任何帮助都

浏览 19提问于2020-02-16得票数 2

回答已采纳

1回答

AttributeError：“选择器”对象没有属性'find‘(Scrapy)

、

我得到的擦伤错误是： File "/anaconda/lib/python2.7/urlparse.py",

浏览 7提问于2017-11-11得票数 1

1回答

Scrapy + Python，返回多个项，发布读取页面

、、

我试图使用Scrapy和python将多个项提取到数据库中。为了构建我的代码，我首先使用Scrapy读取页面，并测试与数据提取相关的代码行。scrapy shell "http://www.goodmans.net/d/1706/brands.htm"response.css('.SubDepartmentsa::text'

浏览 2提问于2020-03-18得票数 0

回答已采纳

2回答

Scrapy -如何抓取网站并将数据存储在Microsoft SQL Server数据库中？

、、、

我正在尝试从我们公司创建的网站中提取内容。我已经在MSSQL Server中为Scrapy数据创建了一个表。我还设置了Scrapy并配置了Python来抓取和提取网页数据。我的问题是，如何将Scrapy抓取的数据导出到本地MSSQL Server数据库中？这是Scrapy用于提取数据的代码： name = &q

浏览 1提问于2017-04-07得票数 2

2回答

是否有可能将Scrapy实现为dekstop应用程序？

、

Scrapy能否在我的自定义桌面应用程序中实现，在这个应用程序中，它会自动在网页列表上进行抓取过程，并将其作为表导出到数据库中？

浏览 1提问于2019-10-31得票数 0

回答已采纳

1回答

如何忽略Scrapy中的URL引用

、、

我正在使用Scrapy刮刮一个网站，其中包含一个菜单与许多子程序菜单。问题是，我正在提取多个URL，它们对应于网站中的同一项/子项目。我提取它们就好像它们是不同的项目一样，因为URL包含"ref=“部分。而不是这样，我只想提取一个与subsubitem_ABC对应的URL这样，mi的意图是减少爬虫的时间消耗，并避免对同一子项</

浏览 2提问于2022-04-14得票数 1

3回答

在Scrapy中，如何设置每个url的时间限制？

、

我正在尝试抓取多个网站使用Scrapy链接提取器，并遵循为真(递归)。寻找一个解决方案，以设置时间限制爬行为每个网址在start_urls列表。谢谢 title = scrapy.Field()

浏览 39提问于2016-07-28得票数 1

3回答

Scrapy可以在PHP上工作吗？

、、、

我可以在PHP上使用Scrapy吗?或者有类似的工具可以在PHP上使用吗？我不是一个技术人员，但只是研究可用的网络抓取工具和他们的功能，以支持我的技术同事。

浏览 2提问于2014-01-20得票数 8

1回答

从链接中提取刮痕

、、

我试图在某些链接中提取信息，但我不能进入链接，我从start_url中提取，我不知道为什么。这是我的代码：from scrapy.contrib.spiders import CrawlSpider, Rulefrom tutorial.items import DmozItem from scrapy.selector impo

浏览 3提问于2015-06-10得票数 1

回答已采纳

2回答

使用css选择器选择一组元素和文本

、、

是否有任何方法选择这样的组，并使用CSS选择器、Xpath或其他方法从每个组中提取这些特定值？

浏览 5提问于2022-07-11得票数 0

回答已采纳

1回答

Python:无限期运行刮伤蜘蛛来监视页面更改

、、

我用刮擦来检查我感兴趣的某些服装产品的价格和可用性。class MonitorSpider(SitemapSpider): sitemap_urls = [ 'https://www.exampl

浏览 3提问于2017-09-26得票数 1

回答已采纳

5回答

嗨，我在scrapy上工作，我用scrapy startproject example创建了一个scrapy文件夹，并编写了爬行器来抓取url中的所有数据，我已经使用scrapy crawl spider_name命令运行了爬行器，它工作得很好，能够提取数据。但是我有一个要求，我需要用创建的单个爬虫文件运行scrapy，我的意思是单个py文件，类似于 python -u /path/to/spider_file_inside_scr

浏览 1提问于2012-09-29得票数 8

回答已采纳

1回答

如何通过xpath获取元素

、、

我正在为网站设计一个使用python scrapy的刮板。 []

浏览 2提问于2020-04-13得票数 0

5回答

用pip安装Python模块

、、、

我用我在我的/usr/local/lib/python2.7/site包中看到了'scrapy‘文件夹，但是当我试图将它导入Python程序时，是说没有这个名称的模块/usr/local/lib/python2.7/site-packages (from Scrapy) Requirement already satisfied (use

浏览 2提问于2013-11-12得票数 11

回答已采纳

1回答

Xpath/美汤...有没有一种方法可以从html输出而不是dom树中抓取？

、、、、

如果没有，我在考虑完全通过python来解析，但我想先看看你用过哪些工具来处理中等复杂的抓取。谢谢!/Loyalty_to_the_King" title="Loyalty to the King">Loyalty to the King</a>")附注:我认为括号中的东西稍后可以通过python

浏览 0提问于2014-12-04得票数 0

1回答

用Scrapy从文本文件中从多个URL中抓取所有外部链接

、、、、

我对Scrapy和Python很陌生，因此我是个初学者。我希望能够让Scrapy读取一个包含大约100 k URL的种子列表的文本文件，让Scrapy访问每个URL，并提取每个种子URL上的所有外部URL(其他站点的URL)，并将结果导出到一个单独的文本文件中Scrapy只应该访问文本文件中的URL，而不是爬行并跟踪任何其他URL。我希望能够让Scrapy尽快工作，我有一个非常强大的服务器与1 1GBS线。如何在Scrapy中创建一个项目，以便从存储

浏览 0提问于2016-08-28得票数 1

回答已采纳

1回答

如何获取Python* Scrapy工具抓取的项目数？*

、

我正在使用Python Scrapy工具从网站提取数据。我能够抓取数据。现在我想要从一个特定的网站上刮下来的项目的计数。我怎样才能得到抓取的项目数？在Scrapy中有内置的类吗？任何帮助都将不胜感激。

浏览 0提问于2013-10-24得票数 1

2回答

在scrapy上使用xpath提取类内的字符串

、、

我想在下面的html中提取单词白色我使用的是python-scrapy，它只能用Xpath进行提取。使用chrome，我得到了xpath：使用scrapy我得到了 hxs.select('//*[@id=&

浏览 1提问于2013-07-14得票数 2

2回答

仅剪贴式正文文本

、、、

我尝试使用python Scrapy从正文中抓取文本，但还没有成功。希望一些学者能够在这里帮助我从<body>标记中抓取所有的文本。

浏览 1提问于2011-03-22得票数 9

回答已采纳

1回答

使用scrapy、python提取url的标题。

、

我刚接触Scrapy，Python。我需要提取urls的标题，而不是上下文。下面的代码提取上述内容以及title.Kindly帮助 name = 'bg' start_urls = ['https://blog.scrapinghub.com

浏览 1提问于2017-02-07得票数 1

点击加载更多