Scrapy:从脚本标记中提取数据

文章/答案/技术大牛

发布

1回答

javascript、python、scrapy

我是Scrapy的新手。出于工作目的，我正在尝试从'https://www.tysonprop.co.za/agents/‘中抓取内容。特别是，我正在寻找的信息似乎是由脚本标记生成的。然而，Scrapy响应对象似乎获取了原始源代码。也就是说，我想要的数据显示为<%= branch.branch_name %>，而不是“泰森地产总公司”。任何帮助都将不胜感激。HTML响应对象提取： <

浏览 11提问于2020-09-23得票数 0

2回答

使用scrapy从脚本标记中提取数据

python、web-scraping、scrapy

下面是页面源代码中的脚本标记，我想从其中提取mp4: list中使用scrapy的字符串。我不能将它加载到json加载程序中，并且我找不到任何其他方法来做到这一点。找不出它的xpath。 var rmp = new RadiantMP(elementID);</script></html> 指导我

浏览 3提问于2019-10-23得票数 2

回答已采纳

2回答

如何在div中获取文本

python、scrapy

看看这个网页： details = response.xpath('.//div[@class="detail"]/text()').extract()

浏览 1提问于2019-07-25得票数 1

1回答

你好，我刚开始使用web抓取和X路径，我在ID main中的scrapy (python框架)中使用了以下x路径，如何修改xpath以不收集“脚本”和“样式”中的文本？my_list=response.xpath('//*[@id="main"]//text()').extract() 在网上搜索后，我发现我可以使用|放置多个x路径(在我的例子中，每个标记都是特定的)，但是这是不有效的，因为文本可以在任何<e

浏览 1提问于2019-12-02得票数 1

回答已采纳

9回答

BeautifulSoup和Scrapy* crawler有什么区别？*

python、beautifulsoup、scrapy、web-crawler

我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

Scrapy:通过Javascript获取内容集

javascript、python、parsing、web-scraping、scrapy

它通过Javascript从130 ot 154.99改变成本。

浏览 3提问于2015-04-10得票数 1

回答已采纳

1回答

无法在脚本标记内使用xpath提取数据

python、html、xpath

我正在尝试使用scrapy提取频道的订阅者计数，我已经弄清楚了一个脚本标记，其中包含订阅者计数，但当我测试它时，我得到了黑色数据。请帮帮忙。.,'" + split + "')]").extract() 您可以在通道的关于源代码页面中搜索文本"subscriberCountText":{"simpleText"，但是如何提取它呢？

浏览 21提问于2019-02-18得票数 0

2回答

如何在自定义python脚本中从scrapy抓取网站后获得urls列表？

python、python-2.7、web-crawler、scrapy

我正在使用一个脚本，在那里我需要爬行网站，只需要爬行base_url网站。有谁知道我如何在自定义python脚本中启动scarpy并在列表中获得urls链接呢？

浏览 2提问于2015-03-17得票数 0

回答已采纳

2回答

我不能在所有的网页上使用Scrapy

python、python-3.x、web-scraping、scrapy

我刚开始使用Scrapy，我需要从加拿大沃尔玛的一些价格中提取信息。问题是它没有提取任何东西，但它只发生在我与沃尔玛加拿大，因为当使用Scrapy在另一个网页，它是正确的工作。import scrapyfrom scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractorsimport LinkExtracto

浏览 2提问于2020-04-20得票数 0

2回答

仅剪贴式正文文本

python、scrapy、scrape、scraper

我尝试使用python Scrapy从正文中抓取文本，但还没有成功。希望一些学者能够在这里帮助我从<body>标记中抓取所有的文本。

浏览 1提问于2011-03-22得票数 9

回答已采纳

3回答

从xml中提取HTML

java、html、xml

我想从xml文件中提取html页面。有什么想法吗？ <html> </html>我想提取

浏览 1提问于2013-04-15得票数 0

1回答

刮伤:如何选择头部和身体标签

python、xpath、scrapy、web-crawler

所以，我有一个爬虫，它需要从头部的元标签中提取一些数据，以及身体中的一些元素标记。</head>标记中的元标记获取数据。它只从html <body>... </body>标记中的标记中获取数据</e

浏览 1提问于2017-02-10得票数 0

1回答

如何使用scrapy/python从URL直接读取xml

python、xml、web-scraping、scrapy、scrapy-spider

在Scrapy中，您必须定义start_url，但是我如何从其他urls中爬行呢？ name = 'example' start_urls = ['login page']urls = ['url&#x

浏览 2提问于2015-06-05得票数 1

回答已采纳

2回答

不带标记的刮取URL (href)元素

python、scrapy

我已经用下面的程序提取了一些数据。但是，当我检查提取的数据结果时，我意识到如果内容中有url，我就无法获取'question_content‘中包含的href元素( url)。import scrapy best_answer = scrapy.Field() question_content = scrapy.Fielddiv.mdPstd.mdPst

浏览 2提问于2017-05-24得票数 2

回答已采纳

2回答

如何在没有额外信息的情况下有效地从网页簇中提取文本

java、python、web-scraping、beautifulsoup、scrapy

我有大约一百万的网页列表，我想有效地从这些网页上提取文本。目前我正在使用python中的BeautifulSoup库从HTML中获取文本，并使用请求命令来获取网页的html。这种方法除了文本之外还提取一些额外的信息，比如在body中是否列出了任何javascript。你能给我推荐一些合适而有效的方法来完成这项工作吗？我看了scrapy，但它看起来像爬行特定的网站。

浏览 24提问于2019-05-22得票数 0

2回答

使用Scrapy无法使用xpath从响应html中提取数据，原因是名称空间

python、xpath、scrapy、namespaces、web-crawler

我使用scrapy和xpath从网页中提取数据。我的html响应如下，我想提取高亮显示的"a“标记中的href链接。通常我使用response.xpath('//a@id="jr-alt-sw"/@href')获取数据，但在这里，我认为由于名称空间问题，结果是空的。如果存在命名空间，如何获得数据。

浏览 4提问于2020-03-18得票数 0

1回答

用Scrapy从延迟加载内容中提取图像源

python、html、scrapy

我试图使用Scrapy提取trying标记的值。<img src="https://media.rightmove.co.uk/map/_generate?zoomLevel=15&latitude=53.803485&longitude=-1.561766&signature=rq2YsiaRQTXqZ2ilgvbFF3fdWfU= 当我查看从刮伤外壳返回的Chrome响应时，我可以看到我希望(通过开发人员工

浏览 6提问于2020-12-30得票数 0

回答已采纳

1回答

Python3抓取网爬虫

html、python-3.x、web-scraping、scrapy、web-crawler

以下是我的默认蜘蛛代码： name = "quotes" ] yield scrapy.Request) self.log('Sav

浏览 2提问于2020-07-20得票数 0

回答已采纳

1回答

scrapy中的响应对象不完整

scrapy

我正在准备使用"scrapy shell“命令从网站中提取数据的脚本：我怀疑web服务器首先提供静态数据

浏览 5提问于2013-07-21得票数 1

1回答

刮擦脚本，如何找到特定的关键字并返回或打印url

python、xpath、web-crawler、scrapy

我已经让脚本部分工作，我可以启动它没有任何问题，这是脚本。粘贴链接在这里：，您可以看到我在cmd行中得到了什么。我确信正在搜索的关键字在这些链接中，因为我也尝试过其他单词，但它没有下载它们。import scrapy from scrapy.http import Request from FinalSpider.itemsitems.py URL = "http://url

浏览 2提问于2015-11-30得票数 0

回答已采纳

点击加载更多