使用pyppeteer或selenium构建scraper API服务器

、、、

我需要创建一个服务器，通过从指定站点获取抓取的数据，我可以向该服务器发出REST请求。例如，url如下所示：唯一的选择是硒或pyppeteer和virtualDisplay。我目前使用selenium和，但它不是一个有很多请求的可用的解决方案。对于每个请求，打开和关闭chrome，这会大大延迟响应，并占用大量资源。使用pyppeteer</e

浏览 41提问于2021-05-17得票数 1

1回答

如何从具有加载屏幕的网页中检索数据？

、、

我使用requests库通过以下代码从nitrotype.com/racer/insert_name_here检索有关用户进度的数据： import requests base_url = 'https

浏览 10提问于2020-06-09得票数 0

回答已采纳

2回答

如何在python中实现动态网站(不使用selenium)

、、、、

Selenium有没有什么库或替代方法可以从动态(javascript渲染的)网站上抓取数据？因此，我正在寻找一种不使用Selenium来抓取动态网站的方法。任何建议都是有帮助的。谢谢!

浏览 2提问于2020-05-24得票数 0

1回答

Python在请求发布时返回422错误

、、、

使用数字海洋上的控制台，我可以运行代码，并且工作正常。因此，我相信问题在于我是如何接收或张贴网址到网页刮板。：SCRAPER_API_ENDPOINT=os.environ.get("SCRAPER_API_ENDPOINT") def ex

浏览 3提问于2021-11-05得票数 0

回答已采纳

1回答

使用python请求绕过recaptcha v2

、、、

这是我正在做的一个网络抓取项目。headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Ap

浏览 17提问于2022-11-23得票数 0

2回答

如何在特快专线内呼叫我的网络抓取器？

、、、

在我的Nodejs服务器的根目录下，我有一个网络抓取器，运行express。它是一个文件，它使用指针发出对html的get请求，并返回一个数据数组。然后我有我的index.js和我的快速路线，一个像"/api/scrape"这样的简单的。但是，当我转到该url时，服务器控制台仍然会在刮取器中打印出一个console.log，以指示它正在完成。

浏览 1提问于2019-10-22得票数 0

1回答

我如何在Mac上解决这个Selenium异常，它显示"chrome不可达“？

、、、、

我正在尝试学习如何使用Selenium自动化web流程，并希望能够构建健壮的web抓取器和其他东西。所以，我刚刚安装完Pycharm和Selenium，我只是想运行一段简单的代码，在chrome中打开一个网页，并不是太花哨。例外情况如下 File "/Users/Kudzie/PycharmProjects/Web Scraper/main.py",__init_

浏览 31提问于2021-05-18得票数 0

回答已采纳

1回答

使用代理不工作/错误选项的Selenium？

、、、

但当我取消这两行评论时-# options.add_argument('--proxy-server=%s' % PROXY) 我如何使用我的代理与selenium /那个代码？(scraperAPI建议使用selenium-wire模块

浏览 3提问于2021-12-02得票数 6

回答已采纳

1回答

Node.js屏幕截图HTML元素

、

第二个问题是Phantomjs不喜欢discord.io库()，并在使用phantomjs.exe运行时抛出错误。我的大问题是，如果可能的话，使用Node.js获得这张卡的图像最好是没有类似幻影的东西。

浏览 3提问于2016-10-28得票数 0

回答已采纳

1回答

Python，api_URL

、、

我查看了“网络”选项卡，但未能找到正确的api_url /url。我该怎么做？

浏览 3提问于2022-09-27得票数 -1

1回答

如何让selenium在scraperwiki上工作

、、、、

我喜欢selenium，我也喜欢scraperwiki，但不知何故，我不能让它们在一起正常工作。我尝试过在scraperwiki上使用selenium以两种方式打开网站，这两种方法都是从教程中获得的：sel = selenium.selenium("localhost它给出了以下错误：这一点也不是： from selenium import web

浏览 0提问于2013-01-12得票数 1

回答已采纳

1回答

例如，一个用例是：·然后报告有多少请求失败，哪些urls被访问。如果这在requests中是不可能的，但是使用selenium却相当简单的话，我可以切换到selenium。我可以将日志设置为登录到文件中，并将日志级别设置为调试。增编:丑陋的工作约2: 更糟糕的是，对于相关而言，解析和标识404更好，而且只要控制了http服务器就可以工作。用nginx解析日志http服务器的日志，我甚至可以用我感兴趣的数据设置csv格式的自定义记录器

浏览 2提问于2020-05-28得票数 1

回答已采纳

2回答

BeautifulSoup web抓取，无结果

、、

我在试着从https://hk.appledaily.com/search/apple..。我需要从div class="flex-feature"但它只返回[]..。希望大家能帮忙，谢谢！ from bs4 import BeautifulSoup results = soup.find_all(

浏览 40提问于2020-10-06得票数 2

回答已采纳

2回答

一个被刮过的HTML与源代码有什么不同？

、、

我正在从一个网站上抓取一张餐馆清单(经允许)，我有一个问题。从网站中提取的html python与源代码中的html不同。他们网站上不到一半的餐馆在python的html中找到。这就是我的代码的样子：from bs4 import BeautifulSoupimport xlwt data = BeautifulSoup(r.text) soup = data.f

浏览 8提问于2016-05-13得票数 2

回答已采纳

1回答

requests_html TimeoutError:超过导航超时:超过9000毫秒

、、

目前我在我的PC上使用它，但我将在我的服务器上使用它。我不想要任何selenium建议，因为我的服务器上没有安装java，所以我可以在服务器上运行它。timeout': int(timeout * 1000)}) raise

浏览 97提问于2020-08-24得票数 1

2回答

如何在Heroku上部署Selenium-python

、、、、

所以我尝试在heroku上部署我的使用node.js和python的应用程序。它可以在我的电脑上运行，但当我尝试在heroku上运行它时，我得到了一个错误：ImportError: no module namedseleniumworker: pip install selenium worke

浏览 3提问于2017-09-23得票数 0

1回答

使用Selenium* WebDriver和NodeJS计算Http请求数？*

、、

如何在NodeJS中使用Selenium WebDriver来计算Http请求？我想在创建web-driver实例时设置一个拦截器，而不是使用扩展，因为我无论如何都想使用web-driver，并且在设置它与扩展一起运行时有问题。

浏览 4提问于2017-09-12得票数 0

1回答

自动按下“加载更多”按钮

我正在尝试抓取一个页面，我有所有的代码集，只是我被“加载更多”按钮卡住了。这个页面很简单，它有一些项目，但只有几个。在web浏览器上要查看其余项目，您可以单击具有onClick事件的html按钮，当它被按下时，更多的项目被加载，依此类推，直到它们都出现在页面上，然后它就消失了。到目前为止，我发送了一个请求并将其存储在一个变量中，然后让BeautifulSoup对其进行解析。我该如何将其余的项加载到该变量中？我应该采取一种不同的方法吗？

浏览 0提问于2021-01-08得票数 0

2回答

确保我的无头浏览器在我的剧作家+ Python + Aws lambda设置的正确位置

、

我以前在JS中使用过剧作家，生活很简单，因为npm包(剧作家-aws)为我做了魔法。对于python，我找不到类似的东西，所以我想我必须深入挖掘，但不知道从哪里开始。

浏览 9提问于2022-02-23得票数 1

2回答

浏览器在heroku意外关闭

、、、、

它使用python pyppeteer软件包。在repl.it上测试时，我没有遇到任何问题。但不幸的是，在heroku浏览器不断崩溃。我使用requirement.txt来安装package。我还尝试使用apt heroku buildpack来安装pupeteer按照工作所需的要求。-05-14T19:39:50.115646+00:00 app[worker.1]: File "/app/.heroku/python/lib/python3.7/

浏览 9提问于2020-05-14得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何从具有加载屏幕的网页中检索数据？

如何在python中实现动态网站(不使用selenium)

Python在请求发布时返回422错误

使用python请求绕过recaptcha v2

如何在特快专线内呼叫我的网络抓取器？

我如何在Mac上解决这个Selenium异常，它显示"chrome不可达“？

使用代理不工作/错误选项的Selenium？

Node.js屏幕截图HTML元素

Python，api_URL

如何让selenium在scraperwiki上工作

html我可以获得所有请求的状态代码(或者)

BeautifulSoup web抓取，无结果

一个被刮过的HTML与源代码有什么不同？

requests_html TimeoutError:超过导航超时:超过9000毫秒

如何在Heroku上部署Selenium-python

使用Selenium* WebDriver和NodeJS计算Http请求数？*

自动按下“加载更多”按钮

确保我的无头浏览器在我的剧作家+ Python + Aws lambda设置的正确位置

浏览器在heroku意外关闭

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐