从呈现的网站抓取时出现的问题

文章/答案/技术大牛

发布

1回答

、、、、

我正试图从这个网站上刮掉一件衣服的价格：response.xpath('//span[@data-id="current-price"]/text()').extract()谢谢!

浏览 13提问于2017-02-24得票数 0

回答已采纳

1回答

从网站抓取'td‘值时出现问题

、、

我正在尝试抓取网站，以便根据年份保存所有页面上的所有信息。我没有收到任何错误，但也没有获得详细信息。它必须具有在1，2中给定的行。HTM 有人能指出我哪里错了吗。

浏览 34提问于2018-12-18得票数 0

1回答

谷歌是否考虑到由于JavaScript而引起的页面标题更改？

、、、

我的一个页面被设置为初始页面标题只是一些占位符标题，并且在AJAX调用之后它会发生变化。这个过程如下所示：AJAX调用来检索一些数据谷歌是否考虑到页面标题的更改？还是谷歌只看最初的页面标题是什么？

浏览 0提问于2018-08-18得票数 0

回答已采纳

1回答

从网站抓取数据时出现Chrome扩展问题

、、

我正在尝试创建一个用于抓取网站的chrome扩展。我已经尝试在我的扩展的background.js文件中使用XHR (XMLHttpRequest)。下面是我尝试过的代码：req.send(); if(req.status我收到的是代码中没有注释部分的代码。我已经看到，我试图访问的

浏览 9提问于2017-08-14得票数 0

1回答

使用美汤从网站抓取数据时出现的问题

、、

我试图从一个网站上抓取41个项目和他们的价格清单。但是我的输出csv缺少页面末尾的2-3个项目。原因是，一些设备的价格与其他设备的价格不同。在我的代码中，递归是对名称和价格一起运行的，对于在不同类中提到价格的项目，它将从下一个设备中获取价格值。因此，它跳过最后2-3个项目，因为那些设备的价格已经在以前的设备的递归中输入。utf8').replace(&#

浏览 2提问于2012-12-28得票数 1

回答已采纳

1回答

为什么SEO工具不像尖叫的青蛙爬我的一些链接？

、、、

我的内部页面中有几个内部链接，例如因特拉肯，瑞士。我使用了几个SEO工具，包括尖声蛙来生成站点地图。标题文本内容//hotels/7/hotel-du-nord &#

浏览 0提问于2020-07-12得票数 3

回答已采纳

2回答

Python在抓取IMDb网站时出现的问题

、、、、

我试图使用IMDb在上抓取电影，我可以获得关于所有重要方面的数据，但演员的名字除外。下面是我正在处理的一个示例URL：使用“检查”浏览器功能，我找到了与所有参与者名称相关的XPath，但是当在Python上运行代码时，XPath看起来是无效的(不返回任何内容)。下面是我使用的代码的一个简单版本： import requests

浏览 0提问于2018-09-08得票数 0

回答已采纳

1回答

无法在Google上索引我的WordPress站点(Bing，Yahoo )

、、

我试图使我的WordPress网站出现在谷歌，但没有任何运气。我已经签署并验证了网站管理员工具，在那里提交一个站点地图，检查robot.txt和.htaccess文件，检查没有索引，没有跟踪，也没有检查在WordPress阅读设置的劝阻搜索引擎。有一些爬行统计数据，但是站点：www.example.co.uk给出0的结果，site:example.co.uk只给出cPanel子域(?)。必应和雅虎从一开始就对页面进行了索引。还有其他方法可以检查这是来自WordPress安装或主机端<e

浏览 0提问于2016-03-16得票数 0

1回答

使用Python抓取网站数据时出现的性能问题

、、、、

我正试图从一个包含大约4000页的网站(每页包含25个链接)中删除Python的数据。提前感谢您的每一次帮助。:) 编辑：，我找到了解决方案，当你向下滚动时，你可以在我给出的答案中找到

浏览 0提问于2015-05-22得票数 0

回答已采纳

1回答

如何将程序连接到(学校)网站以提取数据

这是由一个为大学创建的程序提出的，该程序提取可用班级、代码、教师、时间和地点的完整列表。如果没有API或登录凭据来获取可用的课程数据，程序如何访问这些数据。

浏览 1提问于2012-06-15得票数 0

2回答

执行从随机网站下载的javascript代码

、

我做了一个工具，从其他网站(任何类型)抓取所有的html，css，javascript和图片。然后我在我自己的域名上执行这个(当然是在修改链接之后)。javascript也会执行，因此页面呈现与抓取的网站上的页面呈现完全相同。但都在我的域名下。有没有什么方法可以保护这个javascript的执行(使用不受控制的代码)，这样被抓取的</em

浏览 1提问于2013-05-24得票数 1

2回答

错误:在帧中，因为它将“X-框架-选项”设置为“相同来源”。

、

在iframe.中实现iframe.时，我得到了下面的error错误: Chrome中的错误: Mozilla中的 Load de

浏览 5提问于2017-07-14得票数 5

回答已采纳

1回答

网站总是使用过时的浏览器来标记它

、、

我正在尝试抓取网站的，以便使用这些信息来建立一个时间表。问题是该站点总是检测到过时的浏览器(显示)。72.0.3626.109'} 我知道该站点使用的是javascript，请求模块不会引用该站点的javascript生成部分，除非我使用其他工具或潜在的Selenium。

浏览 5提问于2019-02-18得票数 0

5回答

从欧洲议会网站抓取数据时东欧字符出现问题

、、

编辑:非常感谢你提出的所有答案和观点。作为一个新手，我有点不知所措，但这是继续学习python的巨大动力！！<td class="listcontentlight_left"> &

浏览 0提问于2010-06-10得票数 1

回答已采纳

3回答

下载解析HTML数据的说明

、、、

我正在开发一个iPhone应用程序，主要登录到第三方网站，并解析特定的信息，如日期和时间等超文本标记语言数据。然而，这显然很容易打破，如果网站更新他们的HTML模板，即使是最轻微的。我需要一种简单智能的方式，让我的应用程序从我自己的服务器上下载如何解析网站的“说明”。这样，如果HTML发生变化，我可以只更新服务器上的指令，而不是向苹果发送一个全新的应用程序更新。

浏览 0提问于2013-03-01得票数 0

1回答

动态加载的内容在网页上没有识别的关键字密度检查-谷歌做同样的，我能修复它吗？

、、

上下文我目前工作在我的搜索引擎优化-具体而言，关键字密度。article_id=136&userid=2&user=)的文章的网址。当我在密度检查器中提交链接时，它只显示没有动态

浏览 0提问于2021-08-01得票数 2

回答已采纳

2回答

服务器端呈现一个必须有一个良好的SEO一个反应网站？

、、

现在我在我的网站上使用ReactJS，并且想知道更改服务器端呈现(NextJS)是否会影响我的搜索引擎排名？那么，如果我将从客户端呈现更改为服务器端呈现，它真的会影响我的SEO吗？即使它是最小的。我知道这里已经有(仅用于搜索引擎

浏览 0提问于2020-07-07得票数 1

2回答

链接到下一页的CSS选择器在Scrapy shell中返回空列表

、、、

我是新来Scrapy的。我尝试从此站点https://book24.ru/knigi-bestsellery/?section_id=1592获取到下一页的链接 html是什么样子的：enter image description here 在scrapy shell中，我写了这个命令： response.css我将非常感谢您的帮助！

浏览 46提问于2021-10-15得票数 2

回答已采纳

1回答

为什么scrapy在这个例子中不能工作？

、

我试图从一个网站抓取数据，如文章枚举，定价和股票，并将其导出到excel工作表。以下脚本成功登录。未登录时，仅可见articl枚举器。我测试了刮刀，它成功地抓取了文章编号。在下面的示例中，我尝试将登录和抓取数据结合起来，但它不起作用。我做错了什么？

浏览 15提问于2021-11-05得票数 0

3回答

编写我的第一个网络爬虫

、

我试着找到一些好的方法，或者一些例子，当涉及到编写你的第一个网络爬虫时，对初学者来说是很好的。我想用c#写它。有没有人有什么好的示例代码可以分享，或者在一些网站上有一些提示，我可以在这些网站上找到c#的信息，或者一些bacic网络爬行。谢谢

浏览 1提问于2010-11-11得票数 3

回答已采纳

点击加载更多