从python scrapy中的多个urls中提取标题

文章/答案/技术大牛

发布

1回答

、

我使用了多个链接，但无法在每个链接中获取标题： import scrapy 'http://www.ebaystores.com/DB-Electrical-Sta

浏览 16提问于2020-06-24得票数 0

回答已采纳

1回答

如何:获取Python Scrapy以运行简单的xpath检索

、

我是python的新手，正在尝试构建一个脚本，它最终会将页面标题和s从指定的URL提取到我指定格式的.csv中。不幸的是，当我运行我的爬虫所在的文件时，它似乎从来都不能正常工作。我认为问题出在最后一段代码中，不幸的是，我遵循的所有指南似乎都使用CSS。我觉得使用xpath更舒服，因为您可以简单地从开发工具中复制

浏览 17提问于2019-04-17得票数 1

1回答

使用scrapy、python提取url的标题。

、

我刚接触Scrapy，Python。我需要提取urls的标题，而不是上下文。下面的代码提取上述内容以及title.Kindly帮助 name = 'bg' start_urls = ['https://blog.scrapinghub.com

浏览 1提问于2017-02-07得票数 1

1回答

Scrapy + Python，返回多个项，发布读取页面

、、

我试图使用Scrapy和python将多个项提取到数据库中。为了构建我的代码，我首先使用Scrapy读取页面，并测试与数据提取相关的代码行。scrapy shell "http://www.goodmans.net/d/1706/brands.htm"re

浏览 2提问于2020-03-18得票数 0

回答已采纳

2回答

如何在自定义python脚本中从scrapy抓取网站后获得urls列表？

、、、

有谁知道我如何在自定义python脚本中启动scarpy并在列表中获得urls链接呢？

浏览 2提问于2015-03-17得票数 0

回答已采纳

3回答

如何从产量中得到结果并保存到文件中？

、、

我正在练习使用Scrapy网络爬虫包，并有一个2部分的问题，因为我有点挣扎，不知道下一步该做什么：从scrapy导入cmdline类TCSpider(scrapy.Spider)导入scrapy : name = "techcrunch“def start_requests(self)：urls =”url中的url:TCS

浏览 4提问于2020-06-04得票数 1

回答已采纳

2回答

如何从XML页面中提取urls，加载它们并使用提取其中的信息？

、、

我使用Scrapy的XMLfeedspider从页面xml中提取信息。我试图只提取标签"loc“中该页上的链接，并加载它们，但阻止页面重定向，然后将其发送到将从该页收集信息的最后一个解析节点。问题是，我不确定是否可以在"def star_urls“上加载这些页面，或者是否需要使用parse_node并将其重定向到另一个解析以提取我需要的信息，但是即使我尝试了，也不知道如何

浏览 2提问于2017-07-20得票数 1

回答已采纳

2回答

Scrapy -如何抓取网站并将数据存储在Microsoft SQL Server数据库中？

、、、

我正在尝试从我们公司创建的网站中提取内容。我已经在MSSQL Server中为Scrapy数据创建了一个表。我还设置了Scrapy并配置了Python来抓取和提取网页数据。我的问题是，如何将Scrapy抓取的数据导出到本地MSSQL Server数据库中？这是Scrapy用于提取数据的代码： import scrapy<

浏览 1提问于2017-04-07得票数 2

2回答

如何使用python中的scrapy解析来自google警报的数据？

、、、

我创建了一个Google警报来生成一个类似于这个的RSS提要import scrapy name = 'galert-covid' allowed_domains= ['https://www.g

浏览 5提问于2022-01-19得票数 0

1回答

使用Scrapy从多个网页中抓取数据

、

我正在尝试使用scrapy从多个网页中提取电话标题(以及最终的其他数据)。我正在尝试使用已定义的函数来做到这一点。"parse“函数应该提取所有页面链接，如果我让它将结果输出到CSV，它确实可以正确地执行此操作。但是，当我尝试设置第二个"parse_pages“时，代码似乎甚至不会尝试处理，并且我无法获得仅包含每个页面标题的CSV输出im

浏览 7提问于2019-11-12得票数 0

1回答

如何使用scrapy/python从URL直接读取xml

、、、、

在Scrapy中，您必须定义start_url，但是我如何从其他urls中爬行呢？ name = 'example' start_urls = ['login page

浏览 2提问于2015-06-05得票数 1

回答已采纳

3回答

我正在使用最新版本的scrapy ()，并试图找出如何使刮除只抓取作为start_url列表的一部分提供给它。在大多数情况下，我只想爬行一个页面，但在某些情况下，可能会有多个页面，我将指定。我尝试过设置深度level=1，但我不确定在测试中它是否实现了我希望达到的目标。谢谢!2015-12-22 -守则更新：import scrapy from generic.items import Gene

浏览 0提问于2015-12-20得票数 5

回答已采纳

2回答

如何使用scrapy在Python中刮取url

、、、

我想使用python中的scrapy从特定网站中提取URL，它具有以下HTML结构<div class="comic-table"> <img src="http：from scrapy.contrib.spiders import Rule, CrawlSpider from scrapy<

浏览 3提问于2016-03-29得票数 1

回答已采纳

1回答

打印json字典中的多个网页项目

、、

我在64位Windows Vista上使用的是Python.org 2.7版。我有以下代码，它从嵌入在代码中引用的页面的HTML中的javascript 'Datastore.prime‘项中提取数据：fromfor player in json.loads(playerdata): print player['FirstName'

浏览 0提问于2014-08-01得票数 0

3回答

我有12000个已知的URL，用Python抓取它们最快的方法是什么？

、、

因此，我有一个从数据库中提取的URL列表，我需要抓取和解析每个URL的JSON响应。一些URL返回null，而其他URL返回发送到csv文件的信息。我目前使用的是Scrapy，但它需要大约4个小时来抓取这12000个URL。我研究过像、和这样的东西，但我不确定它们是否适合我的用例，因为它们似乎是围绕着抓取网站上找到的URL。对于单机抓取的如此多的URL来说，4小时是“正常”时间吗？或者，有没有更适合

浏览 0提问于2020-08-25得票数 0

1回答

刮除蜘蛛不返回项数据。

、、

我的scrapy脚本似乎没有遵循链接，最终没有从每个链接中提取数据(将一些内容作为scrapy items传递)。我正试图从一个新闻网站上搜集大量数据。我成功地复制/编写了一个蜘蛛，正如我所设想的那样，它应该从一个文件中读取链接(我用另一个脚本生成了它)，将它们放在start_urls列表中，然后按照这些链接开始提取一些数据，然后将其作为items传递在运行scrapy crawl PN

浏览 0提问于2019-01-29得票数 0

回答已采纳

1回答

我在youtube上有一个歌曲播放列表，我想用Scrapy下载所有的歌曲，但我只能看到前30首的标题

、、、

我在YouTube中有一个超过100首歌曲的播放列表，我想使用Scrapy下载所有的歌曲，但我只能从list.Please中看到前30首歌曲的标题建议我一种从播放列表中提取所有歌曲的方法。到目前为止的代码： import scrapy name= 'find_p

浏览 18提问于2019-10-08得票数 0

1回答

用Scrapy从文本文件中从多个URL中抓取所有外部链接

、、、、

我对Scrapy和Python很陌生，因此我是个初学者。我希望能够让Scrapy读取一个包含大约100 k URL的种子列表的文本文件，让Scrapy访问每个URL，并提取每个种子URL上的所有外部URL(其他站点的URL)，并将结果导出到一个单独的文本文件中Scrapy只应该访问文本文件中的URL，而不是爬行并跟踪任何其他URL。我希望能够让

浏览 0提问于2016-08-28得票数 1

回答已采纳

1回答

从链接中提取刮痕

、、

我试图在某些链接中提取信息，但我不能进入链接，我从start_url中提取，我不知道为什么。这是我的代码：from scrapy.contrib.spiders import CrawlSpider, Rule name = "dmoz" all

浏览 3提问于2015-06-10得票数 1

回答已采纳

2回答

在scrapy中抓取大量静态html.gz文件

、、、、

我有一个抓取蜘蛛，它使用file:///命令作为开始url在磁盘上查找静态html文件，但我无法加载gzip文件并循环我的150,000个都有.html.gz后缀的文件目录，我已经尝试了几种不同的方法，我已经注释掉了，但到目前为止都不起作用，我的代码到目前为止看起来是这样的 from Scrapy_new.itemsusr/local&#

浏览 0提问于2017-03-14得票数 0

点击加载更多