使用pyppetter进行网页抓取，但网站阻止了我

使用pyppetter进行网页抓取，可能是因为网站采取了反爬虫措施。为了解决这个问题，可以尝试以下几种方法：

修改请求头信息：模拟浏览器的请求头信息，包括User-Agent、Referer等，使请求看起来更像是正常的浏览器访问。
使用代理IP：通过使用代理IP来隐藏真实的请求来源，避免被网站识别为爬虫。可以使用腾讯云的云服务器（CVM）来搭建代理服务器，然后将代理IP应用到pyppetter的请求中。
使用验证码识别：如果网站采用了验证码来阻止爬虫，可以使用腾讯云的人工智能服务——腾讯云验证码识别（CAPTCHA Recognition）来自动识别验证码，以绕过阻止。
调整爬取速度：适当调整爬取的速度，避免过于频繁的请求，以免被网站识别为异常访问。
使用无头浏览器：pyppetter是一个基于Chrome浏览器的无头浏览器工具，可以模拟用户在浏览器中的操作。通过使用无头浏览器，可以绕过网站的一些反爬虫机制。

需要注意的是，进行网页抓取时需要遵守相关法律法规和网站的使用规定，确保合法合规。此外，使用pyppetter进行网页抓取可能会对网站的服务器造成一定的负载压力，建议在进行大规模抓取时提前与网站所有者进行沟通和授权。

distil网络机器人检测的工作原理

、、

我正在尝试抓取一个网站使用python的Scrapy框架。但我要去拿验证码。服务器使用Distil netwrok bot检测来实现bot检测。有什么办法可以解决这个问题吗？

浏览 2提问于2016-02-10得票数 2

1回答

Python-Selenium爬虫冻结，特别是在无头模式下(不可复制的bug)

、、、、

我构建了一个爬虫，它获取用户输入的产品列表的产品信息。有时，爬虫会结冰，特别是如果产品列表很长，如果爬虫在无头模式下运行的话。这个bug似乎是随机的，也是不可复制的，这让我认为它是由被爬行的网站的资源利用引起的。因为这是一个不可复制的错误，我不认为我能修复它，但有没有办法检测爬虫已经冻结，然后再试一次？下面是关于爬虫和bug的一些信息：爬虫是使用Selenium和Python构建的。这个错误发生在不同的网站和产品上。该错误发生在“正常”模式，但更多发生在无头模式。谢谢! 费利佩

浏览 2提问于2019-05-21得票数 1

4回答

在Puppeteer中进行Web抓取时如何处理验证码？

、、、

我正在使用Puppeteer进行Web抓取，我刚刚注意到，由于我在计算机上的访问量，我试图抓取的网站有时会要求验证码。验证码表单如下所示：所以，我需要帮助来解决这个问题。我一直在考虑将验证码表单发送到客户端，因为我使用Express和EJS将值发送到我的索引网站，但我不知道Puppeteer是否可以发送类似的东西。有什么想法吗？

浏览 1提问于2019-04-03得票数 15

2回答

防止自定义Web爬虫被阻塞

、、

我正在创建一个新的网络爬虫使用C#来抓取一些特定的网站。一切都很顺利。但问题是，，一些网站是阻塞我的爬虫IP地址，后，一些请求。我试着在爬行请求之间使用时间戳。但没有起作用。有没有办法阻止网站阻塞我的爬虫？有些类似的解决方案会有所帮助(但我需要知道如何应用它们)：模拟Google或yahoo slurp 使用多个IP地址(事件假IP地址)作为爬虫客户端IP 任何解决办法都会有帮助。

浏览 7提问于2011-10-04得票数 3

回答已采纳

1回答

在请求不起作用时使用代理

、、、、

我正在尝试抓取一个网站，我正在使用python中的Tor模块来生成代理，然后使用requests模块抓取网站。但是，带有代理的请求模块由网站识别，并返回一个api页面(带有显示一些api信息的消息的html)。但是，当我使用没有代理的请求(使用我的原始ip地址)时，我得到了正确的响应。我的问题是:为什么网站如何正确识别来自代理的呼叫必须被阻止，并且来自原始ip (我当前的ip)必须被接受。 import requests from stem import Signal from stem.control import Controller def renew_connection():

浏览 7提问于2017-12-23得票数 0

2回答

抓取网站并检测第三方cookies

、、、、

我正在编写一个爬虫，以记录所有的cookie是由设置数量的网站部署。我可以使用selenium在页面访问时获取设置的第一方cookie，但软件中的限制意味着它不会获取第三方cookie。有没有其他的工具可以选择所有的cookie？谢谢。

浏览 1提问于2012-03-09得票数 1

回答已采纳

3回答

保护网站内容不受爬虫的攻击

、、

商业网站(ASP.NET MVC)的内容经常被竞争对手抓取。这些人是程序员，他们使用复杂的方法来爬行网站，因此不可能通过IP识别他们。不幸的是，不能选择用图像来替换值，因为站点仍然可以被屏幕阅读器(JAWS)读取。我个人的想法是使用robots.txt:禁止爬虫访问页面上的一个公共网址(这可以伪装成一个正常的项目详细信息链接，但对普通用户隐藏有效网址：禁止:128以下的 )。如果IP所有者输入了禁止链接，则会显示验证码验证。普通用户永远不会关注这样的链接，因为它是不可见的，谷歌不需要抓取它，因为它是假的。这样做的问题是，屏幕阅读器仍然会读取链接，我认为这并不是很有效，不值得实现。

浏览 0提问于2011-07-06得票数 5

回答已采纳

2回答

关闭浏览器或单击中止时，脚本不会停止

、、

我写了一个网络爬虫，它在do while循环中调用网页，循环时间为3秒总共有7000个网站...我解析数据并将其保存在我的数据库中。有时因为脚本加载了很长时间，我在浏览器中遇到超时，但在后台，我继续说。我在我的数据库里看到了。我能防止这种情况吗？..现在，如果我停止webserver，这是可能的。谢谢你，并致以最良好的问候。

浏览 0提问于2010-01-22得票数 0

3回答

用自定义爬虫防止虚假分析统计

、、、

是否有办法通过使用PhantomJS和/或这样的红宝石爬虫来防止伪造的Google统计数据我们的监控工具(基于这两种工具)从我们的客户端抓取站点并更新特定域中每个链接的链接状态。这个问题，模拟了巨大的贸易。有没有办法说“我是个机器人，不要跟踪我”之类的话？ (将爬虫IP添加到作为过滤器可能不是最好的解决方案) 提前感谢

浏览 12提问于2013-11-15得票数 2

回答已采纳

1回答

映射Open search服务器中的值

、

我有一个数据库的一些数据，如网址，ip，国家，州等。我需要抓取url并将值映射到url。假设我有一个url 和美国国家，我需要用抓取的数据来映射这个国家。我尝试了数据库爬虫，它是非常慢的.Because我有500万的网址。是否有其他选项可以将数据库值与open search服务器搜索的数据进行映射。？？提前谢谢。

浏览 3提问于2012-12-22得票数 0

3回答

如果Apache2上每秒收到的请求太多，则阻止IP

、、

如果每秒请求太多，如何封堵某个IP /某个IP的请求？有时我注意到每秒有许多(大约50)个网页请求发送到我的per服务器。我认为脚本复制了服务器的内容。现在我想要阻止IP，如果他们提出了许多请求。如果他们输入验证码，他们可以删除该块。Google做了这样的事情(只需创建一个快速的网络爬虫并抓取Google。你很快就会被屏蔽。不要在学校这样做;-) ) 我在Apache2服务器上使用PHP-Scripts。我无法在此服务器上安装新软件，但我可以使用htaccess文件。我希望用这种有限的可能性来解决这个问题。

浏览 4提问于2011-03-14得票数 3

回答已采纳

2回答

网络爬虫是如何影响网站统计的？

网络爬虫(包括搜索引擎和非搜索引擎)会以什么方式影响网站统计(例如，在进行AB测试不同页面的变化时)？解决这些问题的方法是什么？例如：很多人在写网页爬虫时经常会删除自己的cookie并屏蔽他们的IP，所以每次抓取网站时，爬虫者都会以不同的用户身份出现吗？什么是启发式来识别某物是一个机器人？(我猜任何足够复杂的机器人都可能与真正的用户无法区分，如果它想要的话-这是正确的吗？) 为了澄清，基于以下评论:我也感兴趣的情况下，我的网站是具体的目标(可能是非法爬虫)。

浏览 3提问于2010-04-12得票数 1

回答已采纳

2回答

是否可以根据ASP.NET/IIS中的用户代理进行条件URL重写？

、、、、

我工作的网站托管的内容经常被抓取并发布到其他地方。是否可以重写URL，以便普通用户和白名单上的爬虫可以查看网站，但阻止访问无法识别的浏览器？

浏览 2提问于2011-07-14得票数 6

回答已采纳

1回答

如何隐藏我的IP在python中进行网络抓取？

、、、

我正在用python在一些页面上做web抓取，我已经被其中的一些阻止了。当我试图通过TOR浏览器检查它时，我已经看到我无法访问页面，所以我认为这些页面已经能够跟踪我所有的IP或我没有很好地配置TOR (我认为不是因为我用Chrome和TOR检查了我的IP地址和TOR是不同的)，所以，有人知道为什么吗？此外，我正在尝试在我的python代码中执行一个函数或方法来自动更改mi IP。我所看到的是，最好的方法是通过TOR浏览器(将其用作从页面获取数据的搜索引擎)，但我无法使其工作。你对创建这个函数有什么建议吗？谢谢!

浏览 19提问于2020-05-21得票数 2

回答已采纳

4回答

识别搜索引擎爬行器

、、

我在一个网站上工作，通过AJAX加载其数据。我也希望整个网站可以被谷歌和雅虎这样的搜索引擎抓取。我想做2个版本的网站…1当用户访问时，超链接应该像GMAIL一样工作(#'ed超链接)2当爬虫访问时，超链接应该正常工作(关闭AJAX模式) 我如何识别爬虫？？

浏览 1提问于2010-09-17得票数 1

回答已采纳

1回答

识别搜索爬行器

、、、

我有一个网站，统计有多少人访问了这个特定的网页，但我不想计数什么时候搜索爬虫访问他们。java是否有任何方法来识别它是爬虫还是真正的用户？使用Java7和tomcat 谢谢

浏览 2提问于2015-10-21得票数 1

回答已采纳

9回答

如何防止所有爬虫，除了好的(谷歌，必应，雅虎)访问网站内容？

我只想让谷歌，必应，雅虎爬行我的网站建立索引。但我不希望我的对手网站使用抓取服务来窃取我的网站内容。我该怎么办？

浏览 6提问于2010-03-09得票数 2

1回答

如何在集成IP代理的同时抓取使用cookies的网站？

、、、、

我正在创建一个使用多个IP代理的爬虫。每当我尝试在没有代理的情况下抓取网站时，我都能够获得html源代码，但是当我尝试启用ip代理时，它总是失败并抛出一个异常(远程服务器返回错误：(403)禁止)。从小提琴手的角度来看，该网站似乎存储了访问时的cookie。但是如果代理被启用，它在get response部分失败。我不明白为什么cookie不是使用代理设置的？是不是cookies的代理服务器设置导致了它？或者我可以在启用代理的同时对其做些什么？顺便说一下，我使用的是C#，但这个问题似乎与语言无关。

浏览 0提问于2016-02-06得票数 1

2回答

如何在java中使用Http、Socks4和Socks5代理？

、、

我想要屏幕-刮一个网站，为此，我想使用Http，Socks4和Sock5代理。因此，我的问题如下：是否可以通过Java使用这些代理而不使用任何其他外部API？例如，是否可以通过这些代理通过发送请求？如果这是不可能的，那么我还可以使用哪些其他外部API？我是通过使用提供的无头浏览器来实现的，但是加载甚至简单的网页都需要时间，所以请您推荐给我其他API(如果有的话)，这些API可以提供快速加载网页的无头浏览器。我不想打开包含大量AJAX或Javascript代码的网页。我只需要通过无头浏览器点击表单按钮。

浏览 2提问于2010-01-16得票数 5

回答已采纳

1回答