如何在Python Scrapy中从子url中获取数据_Scrapy请求获取url，如何在url中添加关键字？_Python -尝试使用Scrapy从web抓取中获取URL (href - 腾讯云开发者社区

、

我是scrapy的新手。我正在循环tr并创建一个item对象，item 'name‘= 'name from td1’item‘’age‘=’name from td2‘现在，我需要转到标记链接，获取标记并将其设置为item'

浏览 8提问于2019-06-04得票数 0

回答已采纳

2回答

如何使用Scrapy python登录stackoverflow站点

、

我刚刚开始学习Scrapy，我想尝试一些python和scrapy的练习。我正在考虑从我发布的特定标签中获取问题列表，然后对其进行解析。但我不确定如何使用open id和Scrapy登录。有没有人可以指导我，在这个url上我必须提交数据，因为当我输入openid时，网站会转移到openid url上，那么我该如何在那里输入密码呢？

浏览 1提问于2012-11-19得票数 0

回答已采纳

1回答

Scrapy:如何基于url正确创建scrapy.http.response.html.HtmlResponse对象

、、

我写了一个抓取蜘蛛来从有几个子页面的网页中抓取数据。他们中的每一个也有几个子页面等。我想访问所有的子子页面，并采取具体的信息从它。但是要使用xpath，我需要一个scrapy.http.response.html.HtmlResponse类的对象。因此，我写道： from scrapy.http import HtmlResponse new_response = HtmlResponse(url=subpage_url) 但是，当我在这样一个对象上执行但是主体隐藏

浏览 35提问于2020-04-25得票数 0

2回答

如何理解scrapy.Request中的回调函数？

、、

我正在使用Python第二版阅读Web抓取，并希望使用Scrapy模块从网页中抓取信息。解析(R

浏览 4提问于2020-07-04得票数 0

回答已采纳

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

Web用Scrapy迭代Postgres数据库结果

、、、

我正在尝试编写一个从数据库结果中获取域的。我能够从数据库中获取数据，但我无法思考如何将数据提供给Scrapy。我在这里看了看，发现了许多建议，但没有一个是我真正在做的。user="dbuser", port=5432#cursor() is pythond

浏览 3提问于2022-03-05得票数 0

回答已采纳

1回答

如何在python scrapy中获取请求头

、

如何在python scrapy中获取动态表数据的请求头？有没有一种方法可以在不使用点击模拟的情况下获得数据？

浏览 0提问于2020-04-04得票数 0

5回答

如何从雅虎财经获取最大历史价格数据？

、、

我想从雅虎财经获得scrapy的最大历史价格数据。你可以在网页上手动获取，只需点击max即可。不同的股票有不同的period1值。

浏览 2提问于2017-10-20得票数 4

1回答

将Scrapy与Django集成:如何

、、

我在django还是很新的，我正在学习如何集成scrapy和Django的教程。import scrapy url = response.urljoin(url)

浏览 1提问于2018-06-01得票数 5

1回答

尝试在网站上抓取google地图api生成的动态数据，但正常抓取返回空白

、、、、

我正在使用scrapy从这个中抓取作业数据。一个作业页面看起来像。静态数据可以很容易地被scrapy抓取，但是google地图apis生成的动态数据，如“距离”和“时间”，给我带来了问题。当我在chrome中打开控制台，然后在脚本部分的网络选项卡中，我可以看到一个对googles map api发出的java请求("DirectionsService.Route")，所有我需要的值都是JSON有没有一种方法可以让我使用scr

浏览 1提问于2015-02-05得票数 0

1回答

如何用粗糙的框架刮网页？

、、

我已经开始学习scrapy框架。import scrapy name = "clothes"当我打开clothes.html时，html-数据与从浏览器进行检查时不一样。在clothes.html.中遗漏了很多东西我不明白这里出了什么问题。请帮助我向前推进。任何帮助都将不

浏览 2提问于2017-12-18得票数 0

回答已采纳

1回答

Selenium运行Firefox驱动程序，用于不使用

、、

我使用了的火狐驱动程序来加载和废弃项目中的一些蜘蛛中的网页。在蜘蛛完成后，我将退出Firefox实例，但在不使用Selenium的蜘蛛中，这种情况并不明显。这个蜘蛛没有使用Selenium，我希望它不会运行Firefox。class MySpider(scrapy.Spider): domain = 'www.example.com' allowed_domainsparse(self, response)

浏览 3提问于2016-12-10得票数 2

回答已采纳

1回答

在python中没有正确编码的scrapy数据

、

我正在使用scrapy通过python进行web爬行。在抓取时，我有一些字符没有正确编码，如'\xa0'，'\x0259‘。有什么帮助吗?我该如何在python中处理它们？

浏览 2提问于2013-07-18得票数 0

2回答

如何修正“找不到本地伯克利DB”错误？

、、、、

我正在尝试在一个虚拟环境中安装scrapy(如描述的)，在我的新的raspberry pi 3上安装Raspbian。当我在虚拟环境中运行pip install scrapy-deltafetch时，我得到了这样的信息：命令"pythonsetup.py egg_info“失败，错误代码1在/tmp/pip-build-ib6d93/bsddb3 3&

浏览 5提问于2016-08-01得票数 8

回答已采纳

1回答

如何将Python* Scrapy扩展的数据插入到MySql数据库表中？*

、、、

我正在为Python Scrapy构建一个扩展，以获取爬虫相关的详细信息，如开始时间、结束时间、爬虫状态(打开、关闭或活动)。现在我需要在我的MySql数据库表中存储当前的时间戳。有人能帮我吗？我需要一个代码来连接MySql数据库从剪贴画代码，并做数据库相关的查询，如插入，选择等。谢谢..

浏览 3提问于2013-10-14得票数 0

1回答

如何在Scrapy中发送POST请求后获得HTML响应

、

我在Python Scrapy上写了一个网络爬行器，当我发送一个POST请求时，我得到了json响应。如何在请求后获取页面的HTML。问题是，当我在网站中选择一个类别时，它会发送一个POST请求，而不需要重新加载页面，在发送POST请求后，我需要数据。我的蜘蛛： import urllibfrom scrapy.http import Request from scrapy.utils.response import op

浏览 42提问于2021-11-04得票数 1

回答已采纳

1回答

刮擦蜘蛛不返回任何信息

、、、、

它有将近500页，我用Python 3编写了一个Scrapy，它遍历每一个页面并将列表复制到字典中，但我无法计算出xpath或css来获取列表信息。这是我的items.py： creator = scrapy.Field()import scrapy class KitCreatorSpider(sc

浏览 0提问于2017-07-07得票数 3

回答已采纳

1回答

用Scrapy从文本文件中从多个URL中抓取所有外部链接

、、、、

我对Scrapy和Python很陌生，因此我是个初学者。我希望能够让Scrapy读取一个包含大约100 k URL的种子列表的文本文件，让Scrapy访问每个URL，并提取每个种子URL上的所有外部URL(其他站点的URL)，并将结果导出到一个单独的文本文件中Scrapy只应该访问文本文件中的URL，而不是爬行并跟踪任何其他URL。我希望能够让

浏览 0提问于2016-08-28得票数 1

回答已采纳

1回答

在Scrapy中使用Xpath进行抓取

、、、

在开发工具中粘贴XPath之后：(1.crtl+shift+i / 2. ctrl+f) //div[@class="item-page clearfix"]/*[self::p/text() or self但我的Python和Scrapy却不这么认为。JSON 中下面的代码只返回文章的第一段。我不明白为什么。为什么它在网页上工作，而在Python中却不起作用？我错过了什么？from scrapy.linkextrac

浏览 18提问于2021-12-15得票数 1

1回答

无法在scrapy中使用列表理解获取某些链接

、、、

我在python中使用scrapy编写了一个脚本，在向某个url发出post请求后从响应中获取链接。当我尝试使用下面的脚本时，链接就完美地通过了。Working one:from scrapy.crawler import CrawlerProcess yield scrapy.FormRequest(sel

浏览 0提问于2019-03-08得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云