使用scrapy、python提取url的标题。

文章/答案/技术大牛

发布

1回答

、

我刚接触Scrapy，Python。我需要提取urls的标题，而不是上下文。下面的代码提取上述内容以及title.Kindly帮助 name = 'bg' yi

浏览 1提问于2017-02-07得票数 1

1回答

AttributeError：“选择器”对象没有属性'find‘(Scrapy)

、

我得到的擦伤错误是： File "/anaconda/lib/python2

浏览 7提问于2017-11-11得票数 1

1回答

如何:获取Python Scrapy以运行简单的xpath检索

、

我是python的新手，正在尝试构建一个脚本，它最终会将页面标题和s从指定的URL提取到我指定格式的.csv中。不幸的是，当我运行我的爬虫所在的文件时，它似乎从来都不能正常工作。我认为问题出在最后一段代码中，不幸的是，我遵循的所有指南似乎都使用CSS。我觉得使用xpath更舒服，因为您可以简单地从开发工具中复制、粘贴它。import sc

浏览 17提问于2019-04-17得票数 1

1回答

使用Scrapy可以处理多少个URL？

、、、

我有一个包含许多URL的文件。我愿意从这些网址中提取链接，然后提取不同页面的标题和metas。for link in le.extrac

浏览 4提问于2017-02-10得票数 0

回答已采纳

1回答

Scrapy + Python，返回多个项，发布读取页面

、、

我试图使用Scrapy和python将多个项提取到数据库中。为了构建我的代码，我首先使用Scrapy读取页面，并测试与数据提取相关的代码行。scrapy shell "http://www.goodmans.net/d/1706/brands.htm"re

浏览 2提问于2020-03-18得票数 0

回答已采纳

1回答

刮刮Deltafetch增量爬行

、

我只想提取那些在上一次运行中没有被刮过的东西。我尝试在"“网站上只提取第一个标题，如果它是更新的。下面是我的代码：from selenium import webdriver ] print (&#x

浏览 2提问于2018-05-31得票数 1

回答已采纳

1回答

如何使用Scrapy自动获取请求头？

、

然后可以将这些标头添加到Scrapy请求中。{b'Accept': [b'text/html,application/xhtml+xml,application/xmllike Gecko) Chrome/81.0.4044.129 S afari/537.36'], b&#

浏览 50提问于2021-05-21得票数 0

回答已采纳

1回答

使用Scrapy从多个网页中抓取数据

、

我正在尝试使用scrapy从多个网页中提取电话标题(以及最终的其他数据)。我正在尝试使用已定义的函数来做到这一点。"parse“函数应该提取所有页面链接，如果我让它将结果输出到CSV，它确实可以正确地执行此操作。但是，当我尝试设置第二个"parse_pages“时，代码似乎甚至不会尝试处理，并且我无法获得仅包含每个页面标题的CSV输出im

浏览 7提问于2019-11-12得票数 0

1回答

刮擦蜘蛛不遵循链接和错误

、、、

我试图写我的第一个网络爬虫/数据提取器使用刮刮，并无法得到它的后续链接。我也收到了一个错误：有谁知道我怎样才能让它跟随页面上的链接并消除错误呢？from scrapy.spiders import Rule

浏览 2提问于2017-03-29得票数 2

回答已采纳

1回答

从分页嵌套链接中提取数据

、、、、

我有大约17页的IMDb标题的分页列表：其中tt0111161是标题ID。并从页面中提取HTML信息。我如何使用Scrapy、BeautifulSoup或任何其他方法来做到这一点？

浏览 4提问于2017-02-08得票数 0

1回答

Python:无限期运行刮伤蜘蛛来监视页面更改

、、

我用刮擦来检查我感兴趣的某些服装产品的价格和可用性。class MonitorSpider(SitemapSpider): sitemap_urls，那也会很有帮助的。他认为，对于这样一个项目，漂亮的汤会跑得更快，但我认为刮水是更好的选择，因为我在过去遇到的

浏览 3提问于2017-09-26得票数 1

回答已采纳

1回答

为什么刮伤提供无法加载错误？

、、

因此，我正在使用抓取和python在这个网站的小爬虫工作。在那里，我试图根据我设置的规则提取评论，这些规则应该与符合以下标准的链接相匹配：从评审页面中提取url、页面标题、进行评审的人的名称以及到其配置文件的链接。我是python和scrapy的新手，对代码的任何提示或改进都很感激。我想通过抓取和python

浏览 1提问于2021-03-17得票数 0

2回答

如何从XML页面中提取urls，加载它们并使用提取其中的信息？

、、

我使用Scrapy的XMLfeedspider从页面xml中提取信息。我试图只提取标签"loc“中该页上的链接，并加载它们，但阻止页面重定向，然后将其发送到将从该页收集信息的最后一个解析节点。问题是，我不确定是否可以在"def star_urls“上加载这些页面，或者是否需要使用parse_node并将其重定向到另一个解析以提取我需要的信息，但是即使我尝试了，也不知道如何从xml页面中提取

浏览 2提问于2017-07-20得票数 1

回答已采纳

1回答

用Scrapy从文本文件中从多个URL中抓取所有外部链接

、、、、

我对Scrapy和Python很陌生，因此我是个初学者。我希望能够让Scrapy读取一个包含大约100 k URL的种子列表的文本文件，让Scrapy访问每个URL，并提取每个种子URL上的所有外部URL(其他站点的URL)，并将结果导出到一个单独的文本文件中Scrapy只应该访问文本文件中的

浏览 0提问于2016-08-28得票数 1

回答已采纳

1回答

抓取-保存链接，同时跟踪它们

、、

我对Python和Scrapy非常陌生，我认为答案应该很简单，但很难自己解决。代码获取所有的链接，跟随它们并记录文章的标题。我如何传递到我的项目的url？我想保存它与文章标题一起使用的短链接。谢谢 for url in response.xpath("//li[@id]/@data-shortlink").

浏览 6提问于2017-02-24得票数 1

回答已采纳

1回答

我在youtube上有一个歌曲播放列表，我想用Scrapy下载所有的歌曲，但我只能看到前30首的标题

、、、

我在YouTube中有一个超过100首歌曲的播放列表，我想使用Scrapy下载所有的歌曲，但我只能从list.Please中看到前30首歌曲的标题建议我一种从播放列表中提取所有歌曲的方法。到目前为止的代码： import scrapy namev=_tNU6dpjIyM&

浏览 18提问于2019-10-08得票数 0

1回答

网站抓取表

、、、

我是一个Python新手，我正试图编写一个脚本来从这个中提取数据。使用scrapy，我编写了以下代码： name = "dairy_price" for url in urls: yi

浏览 3提问于2017-10-25得票数 1

1回答

获取刮伤外壳没有更新objects.What，我在这里丢失了吗？

、、

我将按以下方式打开刮伤的外壳这给了我：[s] Available Scrapy objects: [s] hxs <HtmlXPathSelector xpath=None data=u'<html><head&

浏览 1提问于2013-10-18得票数 0

1回答

学习Python和Scrapy

、

我正在努力学习Scrapy和Python。我有个我不明白的问题。我正在运行同一段代码，一次通过终端，然后再通过脚本运行，结果是不同的。终端给了我所有的标题(我想要的)脚本只是给了我第一个。item = { }更新

浏览 0提问于2018-09-17得票数 1

1回答

从一个页面中抓取多篇文章，每篇文章都有单独的href

、

我是个新手，写了我的第一个爬虫，为类似的网站做了一个爬虫。我已经尝试使用规则和链接提取器，但它不能导航到下一页和提取。我得到错误:爬行器错误处理 (referer: None)import scrapyfrom scrapy.linkextractors(href)&#x

浏览 1提问于2019-07-09得票数 1

点击加载更多