使用Scrapy难以从网页中抓取所需的数据

、、、

我正在抓取以下网页http://www.starcitygames.com/catalog/category/Duel%20Decks%20Venser%20vs%20Koth，我需要获取卡名、价格、嗯，我让四个人中的三个都能工作，但我的身体状况有点问题。无论我尝试什么，它要么只是给我NULL，要么就是其他不正确的东西。http://www.starcitygames.com/content/cardconditio

浏览 14提问于2019-06-05得票数 0

回答已采纳

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

对于web抓取和xml解析，这是最好的学习库。

、、、、

对于相同的工作，我被多个库弄混了。我想学习一个库，它将同时处理xml和html解析。Do元素树与html解析兼容。我听说了lxml，xml.elementtree，漂亮汤，迷你，刮刮。有人能帮我吗。

浏览 4提问于2020-02-03得票数 0

回答已采纳

4回答

在批处理文件中使用scrapy crawl命令时继续批处理脚本命令

、、

我使用scrapy从网页抓取信息。我已经写了爬虫代码，它工作得很好。我还有一些其他的python代码文件来优化抓取的数据。总而言之，我有一个批处理文件，我首先在其中使用"Scrapy Crawl“命令，然后运行我的python文件来优化抓取的信息。问题是，批处理脚本在"Scrapy Crawl“命令的

浏览 1提问于2013-05-09得票数 1

回答已采纳

2回答

Scrapy shell无法抓取网页

、、

我正在尝试使用Scrapy shell来尝试找出zone-h.org的选择器。我运行scrapy shell 'webpage'之后，我试图查看内容，以确保它是下载的。我试图进入网站，检查我的网站连接是否以某种方式被阻止，但它是可访问的。我试着将用户代理设置为更通用的东西，比如chrome，但也没有成功。这个网站以某种方式屏蔽了我，但我不知道如何绕过它。我通过网站挖掘，如果他们阻止爬行，它没有说它是禁止爬行的。有人

浏览 23提问于2018-12-31得票数 1

回答已采纳

2回答

Scrapy -如何抓取网站并将数据存储在Microsoft SQL Server数据库中？

、、、

我正在尝试从我们公司创建的网站中提取内容。我已经在MSSQL Server中为Scrapy数据创建了一个表。我还设置了Scrapy并配置了Python来抓取和提取网页数据。我的问题是，如何将Scrapy抓取的数据导出到本地MSSQL Server数据库中？这是Scrapy用于提取数据<

浏览 1提问于2017-04-07得票数 2

1回答

抓取我们当前所在网页的url

、、

我想知道我们是否能刮到我们目前所在网页的网址？我正试着从网页上

浏览 1提问于2014-02-20得票数 0

回答已采纳

1回答

c# windows phone中的网页抓取

、、

嗨，我需要得到所有的数据页面。以防照片和每个主题的名称。该页面为。int startIndex = e.Result.IndexOf(@"><img"); string result = e.Result;我创建了一个类来保存数据并创建了一个列表，但是字符串"pattern“肯定是完全错误的。因为我不喜欢使用这种类型的字

浏览 3提问于2013-06-26得票数 0

回答已采纳

0回答

Scrapy + Splash:抓取内部html中的元素

、、

我正在使用Scrapy + Splash抓取网页，并试图从google广告横幅和其他广告中提取数据，但我很难让scrapy跟随xpath进入它们。我使用google来渲染页面，以便加载他们的脚本和图像并截图，但似乎广告横幅是由JS脚本创建的，然后将其内容插入到网页中iframe中的新html文档中，如下所示： Splash

浏览 11提问于2017-06-20得票数 1

回答已采纳

1回答

使用scrapy* splash对抓取速度有显著影响吗？*

、、、、

到目前为止，我一直在使用scrapy和编写自定义类来处理使用ajax的网站。但是，如果我使用scrapy-splash，据我所知，它会在javascript之后抓取呈现的html，爬虫的速度会受到严重影响吗？使用scrapy抓取一个普通的html页面所需的时间与使用scrapy-splash<

浏览 3提问于2018-04-18得票数 12

回答已采纳

1回答

使用Scrapy从多个网页中抓取数据

、

我正在尝试使用scrapy从多个网页中提取电话标题(以及最终的其他数据)。我正在尝试使用已定义的函数来做到这一点。"但是，当我尝试设置第二个"parse_pages“时，代码似乎甚至不会尝试处理，并且我无法获得仅包含每个页面标题的CSV输出import scrapy fromscrapy.http import Requ

浏览 7提问于2019-11-12得票数 0

3回答

抓取RSS抓取系统

、、、、

我对python比较陌生，只有两个月左右的时间，主要是自学并喜欢上它。我一直在尝试设计一个程序，可以从国家气象局抓取文本RSS提要，但我不知道从哪里开始。我想要的东西，将扫描恶劣天气，又名龙卷风手表警告exct，并发送到我的电子邮件。我已经编写了一个简单的电子邮件警报系统，甚至会给我的手机发短信。我想知道你们中是否有人可以给我指出正确的方向，如何去构建一个rss刮板，并将其与电子邮件程序相结合，以构建一个功能强大<e

浏览 1提问于2012-01-07得票数 2

回答已采纳

1回答

如何在google的网络商店搜索结果上抓取动态生成的数据

、、、、

我想抓取一个网页，它显示了在谷歌的网络商店的搜索结果，该链接是静态的，为特定的关键字。问题是我无法呈现由Javascript代码生成的动态数据，以响应服务器。我尝试使用Scrapy和Scrapy-Splash呈现所需的页面，但仍然得到相同的响应。我使用Docker在端口8050

浏览 12提问于2019-07-07得票数 0

1回答

动态内容抓取

、、

我们可以使用Scrapy从由Javascript加载的网页中获取内容吗？我正在尝试从页面中抓取使用示例，但是由于它们是使用Javascript作为JSON对象加载的，所以我无法使用Scrapy获取它们。你能提出什么是处理这些问题的最佳方法吗？

浏览 5提问于2016-11-22得票数 0

回答已采纳

1回答

如何在每次爬网后阻止scrapy覆盖CSV导出文件

、

目前，我使用scrapy抓取一个网页的多个页面，并将数据导出到CSV文件。每天，爬行器都会遍历页面并保存数据；但是，它会覆盖前几天的数据。我想知道如何对管道进行编程，使其只在同一文件中从文件末尾开始写入CSV。通过这种方式，我可以将以前抓取的所有数据保存在一个位置。

浏览 0提问于2012-07-20得票数 0

1回答

如何在Scrapy中有条件地重试和重新整理当前页面？

、、

我是Scrapy的新手，对Python也不是很熟悉。我已经设置了一个抓取器来从网站上抓取数据，但是虽然我使用的是代理，但如果同一个代理被使用太多次，那么我的请求就会显示一个页面，告诉我访问太多页面太快(HTTP状态代码200)。因为我的抓取器看到的是页面的状态代码为on，它找不到所需的数据并移动到下一页。我可

浏览 1提问于2013-03-25得票数 3

回答已采纳

4回答

在Scrapy中单击按钮

、、、

我正在使用Scrapy抓取网页。我需要的一些信息只有在您单击某个按钮时才会弹出(当然，单击后也会出现在HTML代码中)。我如何才能简单地单击一个按钮，然后显示我需要的信息？我必须使用像mechanize或lxml这样的外部库吗？

浏览 0提问于2011-07-14得票数 62

回答已采纳

1回答

抓取抓取多个页面，提取数据并保存到mysql中。

、、

我正在尝试抓取抓取所有的网站网页。从"start_urls“开始，但它似乎并不会自动爬行所有页面，而是使用pipelines.py保存到mysql中。当f= open("urls.txt")中提供urls时，它也会抓取所有页面，并使用pipelines.py保存数据。这是我的密码import scrapy from scrapy.co

浏览 6提问于2015-03-30得票数 0

回答已采纳

1回答

如何配置Scrapy以使用BeautifulSoup解析器

、、、

我使用BeautifulSoup的默认html.parser从任何网页中提取数据，没有什么原因让我觉得它比使用XPATH/CSS选择器更灵活、更强大。在抓取之前，我学习了使用BeautifulSoup进行网络抓取。我想不出一种让Scrapy使用bs4作为解析器的方法。有可能吗？

浏览 2提问于2019-08-18得票数 0

回答已采纳

1回答

如何使用Scrapy自动获取请求头？

、

我们知道，在浏览器中，可以查看->网络-> XHR -> Headers和get Request Header。然后可以将这些标头添加到Scrapy请求中。但是，有没有一种方法可以使用Scrapy请求自动获取这些请求头，而不是手动获取？我尝试使用：response.request.headers，但此信息还不够： {b'Accept': [b'text/html,application/xhtml+xml,applica

浏览 50提问于2021-05-21得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

BeautifulSoup和Scrapy crawler有什么区别？

对于web抓取和xml解析，这是最好的学习库。

在批处理文件中使用scrapy crawl命令时继续批处理脚本命令

Scrapy shell无法抓取网页

Scrapy -如何抓取网站并将数据存储在Microsoft SQL Server数据库中？

抓取我们当前所在网页的url

c# windows phone中的网页抓取

Scrapy + Splash:抓取内部html中的元素

使用scrapy* splash对抓取速度有显著影响吗？*

使用Scrapy从多个网页中抓取数据

抓取RSS抓取系统

如何在google的网络商店搜索结果上抓取动态生成的数据

动态内容抓取

如何在每次爬网后阻止scrapy覆盖CSV导出文件

如何在Scrapy中有条件地重试和重新整理当前页面？

在Scrapy中单击按钮

抓取抓取多个页面，提取数据并保存到mysql中。

如何配置Scrapy以使用BeautifulSoup解析器

如何使用Scrapy自动获取请求头？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐