scrapy/regex从html获取json_object <脚本></脚本>_Scrapy:如何从脚本导出Json_使用regex从html字符串中删除脚本 - 腾讯云开发者社区

python、regex、scrapy、web-crawler

我正在用scrapy python从一个网站抓取评论，并希望从原始html的以下部分获取所有评论作为字典。获取window.cj.listings是没有问题的，但是我似乎不能用正则表达式来获取window.cj.app_data。下面的代码用于获取清单。json_data = response.css('script::text').re_first(pattern) data = json.loads(json_data) 但当我将代码更改

浏览 23提问于2020-10-16得票数 0

回答已采纳

2回答

如何在scrapy中提取javascript值

python、scrapy

我用抓取来抓取youtube视频，我需要video.When的标题/描述语言，我在上使用浏览器查看源代码，我可以在脚本标签内有一个变量'METADATA_LANGUAGE': 'no'。我可以在scrapy及其扩展中提取这个值吗?或者我应该下载并解析html，并使用漂亮汤/html解析器之类的库。

浏览 4提问于2016-04-22得票数 1

回答已采纳

2回答

未知数目<div>中的刮擦元素

python、xpath、web-scraping、scrapy

//Things I am looking for </body>我发现了他们之间的一种模式。我在<body>里要找的东西 def parse(self, responsebody.xpath("//scrip

浏览 2提问于2017-12-22得票数 1

回答已采纳

1回答

Scrapy-Splash如何将返回变量添加到响应

lua、scrapy、scrapy-splash

我想运行一个启动脚本，它在lua中做一些事情，然后将结果返回给我的scrapy机器人。但是，我只能接收html主体，而不能接收return语句中的任何变量。 splash:go(...)Scrapy-Splash文档也没有真正解释如何获取这些变量。所以我的问题是-如何通过scrapy_plash.SplashRequest调用从我的lua脚本接收任意返回变量？

浏览 14提问于2020-09-26得票数 1

2回答

浏览带有href参考资料的网站

python、recursion、web-crawler

这样，它就可以进入每一页，并获取我感兴趣的数据。这是我现在拥有的，它似乎运行，但不刮：*from scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.selector import HtmlXPathSelector from KSL.items import KSLitemsid=17403849&

浏览 1提问于2013-10-17得票数 1

1回答

创建JSON数据结构最优雅的方法是什么

arrays、json、python-3.x

我实际上是一名网络工程师，玩弄各种脚本。无论如何，我正在创建各种脚本来向一些some服务器提交JSON请求。我正在试着找出最优雅的方法是什么。JSON数据结构通常有4或5层深。“”“ json_object = {}json_object['first_level']['A'] = "data" json_object['first

浏览 13提问于2019-12-19得票数 0

2回答

在python中使用scrapy解析开发人员网站的版本号

python、scrapy、web-crawler、version

这是我尝试使用脚本从站点css获取当前的Firefox版本号。我使用的是Python 2.7import html2textname = 'mozilla'start

浏览 0提问于2018-04-06得票数 0

1回答

Scrapy没有找到Nokogiri找到的Xpath

ruby、xpath、scrapy、nokogiri

我对python和scrapy有点陌生，因为它编写了原始代码，所以在测试爬虫和Xpath时，我使用Scrapy并打开另一个控制台使用nokogiri (Ruby )进行测试。在特定站点中，我未能使用scrapy提取某些内容，但我发现可以使用相同的xpath从同一个url中获取这些内容。”：len(脚本)，'script'：script，} {"url"："，“脚本长度: 0，”脚本</em

浏览 0提问于2016-01-19得票数 0

回答已采纳

5回答

在脚本文件函数中获取Scrapy* crawler输出/结果*

python、scrapy、web-crawler、twisted、scrapy-spider

我使用脚本文件在scrapy项目中运行爬行器，并且爬行器记录爬虫的输出/结果。但是我想在脚本文件中使用爬行器输出/结果，在某些函数中，.I不想将输出/结果保存在任何文件或DB中。下面是从获取的脚本代码from scrapy.crawler import CrawlerRunner from scrapy.utils.logimport config

浏览 3提问于2016-10-25得票数 12

1回答

如何从html页面中的多个脚本获取单个脚本变量数据

javascript、python-2.7、xpath、scrapy

我有一个html页面，其中有几个脚本标记，但我只想从这些脚本中获取一个varible数据。您可以在这里找到html页代码。我只想要var roomsAndRatePlans变量的数据，因为当我执行下面的代码时，我会得到脚本标记中的所有数据，任何一个都可以帮助我解决这个问题。 selec

浏览 0提问于2018-08-07得票数 1

回答已采纳

3回答

填写表格后刮掉网页

python、web-scraping、scrapy

我试着使用刮伤的shell来完成这个任务，如下所示import lxml.html as lh 'zip': '77098'

浏览 1提问于2016-06-10得票数 2

回答已采纳

1回答

使用Ruby如何检查返回404的URL或导航？

automated-testing、selenium、webdriver、ruby

使用最方便的方式是检查任何page.Actually想要运行的所有url(从导航菜单中)来查看它们的去向。

浏览 0提问于2014-02-26得票数 1

2回答

如何在自定义python脚本中从scrapy抓取网站后获得urls列表？

python、python-2.7、web-crawler、scrapy

我正在使用一个脚本，在那里我需要爬行网站，只需要爬行base_url网站。有谁知道我如何在自定义python脚本中启动scarpy并在列表中获得urls链接呢？

浏览 2提问于2015-03-17得票数 0

回答已采纳

1回答

php shell_exec() - ampps -拒绝scrapy命令的权限

php、linux、scrapy、ampps

我有一个刮刮蜘蛛配置，以获取一些网站的数据。我已经在php和html中开发了一个ui，以显示在运行scrapy命令时从正在生成的json文件中获取被刮掉的data.this数据。实际上，我的php代码如下所示 $output= shell_exec('cd /home/testuser/Desktop/scrapy_tutorial/ && scrapy crawl example因此，我更改了

浏览 0提问于2019-03-21得票数 1

回答已采纳

2回答

使用Scrapy编写instagram爬虫。我怎样才能转到下一页？

python、scrapy、instagram

作为练习，我决定编写一个python脚本来获取指定用户的所有图像。我对Scrapy比较熟悉，这就是为什么我选择它作为抓取工具。目前，该脚本只能从第一页(最大12)下载图像。Scrapy的response.body (类似于从Chrome上看到的源代码)不像Chrome的Inspector那样显示html结构。我怎么才能在Scrapy中获取这个数字，这样我就可以把我的爬虫发送到那里呢？response.body甚至没有包含这个数字。有没

浏览 15提问于2016-07-19得票数 3

回答已采纳

1回答

Scrapy 1.0 -从python脚本运行后获取返回值

python、scrapy、scrapy-spider

我使用以下代码从python脚本运行我的爬虫程序：from scrapy.crawler import CrawlerProcess 上面的代码来自：

浏览 0提问于2015-07-12得票数 2

1回答

从bash (shell脚本)运行Scrapy

java、bash、shell、scrapy

我用Java开发了一个web应用程序，它使用Scrapy获取一些数据。为了达到这个目的，我从Java调用了一个shell脚本： p.waitFor运行它之后，两个"echo“都会被打印出来，但是scrapy什么也不会做。如果我从shell运行myScript.sh，它运行得非常完美.我很困惑！我能做些什么来调试这种奇

浏览 5提问于2015-02-02得票数 0

1回答

在Scrapy中构造TelnetConsole对象的位置是什么？

scrapy

我从脚本运行Scrapy，发现logging在构造scrapy.extensions.telnet.TelnetConsole对象时并不能像预期的那样工作。因此，我试图从源文件中找到对象的构造位置，但我无法找到。从脚本运行时，Scrapy在哪里构造scrapy.extensions.telnet.TelnetConsole对象？

浏览 0提问于2019-12-05得票数 0

1回答

抓取返回xpath的空列表

javascript、python、html、web-scraping、scrapy

我正在使用Scrapy从openreview urls获取摘要。例如，我想从中获取摘要，然后执行 $ scrapy shell "http://openreview.net/forum?此外，当我做view(response)时，我会导致一个空白站点file:///var/folders/1j/_gkykr316td7f26fv1775c3w0000gn/T/tmpBehKh8.

浏览 1提问于2016-11-06得票数 0

回答已采纳

5回答

当脚本位于根目录之外时，获取scrapy项目设置

python、django、web-scraping、scrapy

我已经制作了一个Scrapy爬行器，可以从位于项目根目录的脚本中成功运行。由于我需要从同一脚本运行来自不同项目的多个爬虫(这将是一个django应用程序根据用户的请求调用脚本)，因此我将脚本从其中一个项目的根目录移动到父目录。由于某些原因，脚本不再能够获取项目的自定义设置，以便将抓取的结果通过管道传输到数据库表中。下面是我用来从脚本运行爬行器的scrapy文档中的代码： def s

浏览 2提问于2015-07-28得票数 15

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云