使用node js进行web抓取页表时面临的问题

使用Node.js进行web抓取页面时面临的问题有以下几个方面：

防止被网站屏蔽：一些网站会通过检测用户的访问行为来判断是否是机器人，从而屏蔽访问。为了避免被屏蔽，可以采取一些策略，如设置合理的请求头信息、使用代理IP、限制访问频率等。
处理动态页面：一些网站的页面内容是通过JavaScript动态生成的，而Node.js默认只能获取到初始的静态页面内容。为了获取完整的页面内容，可以使用一些工具或库，如Puppeteer、Cheerio等，来模拟浏览器行为，执行JavaScript代码并获取动态生成的内容。
处理反爬虫机制：为了防止被爬虫抓取数据，一些网站会采取反爬虫机制，如验证码、登录验证、动态参数等。在使用Node.js进行页面抓取时，需要解析并处理这些反爬虫机制，以确保能够正常获取到目标数据。
数据处理和存储：抓取到的页面数据通常需要进行处理和存储。在Node.js中，可以使用各种数据处理库和数据库来对数据进行清洗、提取、转换等操作，并将结果存储到数据库或文件中。
并发请求和性能优化：在进行大规模页面抓取时，需要考虑并发请求的处理和性能优化。可以使用Node.js的异步特性和相关库，如async、axios等，来实现并发请求和提高抓取效率。
网络异常处理：在进行页面抓取时，可能会遇到网络异常、连接超时等问题。为了保证抓取的稳定性，需要对这些异常情况进行处理，如设置超时时间、重试机制等。

总结起来，使用Node.js进行web抓取页面时，需要解决被屏蔽、处理动态页面、反爬虫机制、数据处理和存储、并发请求和性能优化、网络异常处理等问题。在解决这些问题时，可以使用相关的工具、库和技术来提高抓取效率和稳定性。

腾讯云相关产品和产品介绍链接地址：

腾讯云云服务器（CVM）：https://cloud.tencent.com/product/cvm
腾讯云云函数（SCF）：https://cloud.tencent.com/product/scf
腾讯云对象存储（COS）：https://cloud.tencent.com/product/cos
腾讯云数据库（TencentDB）：https://cloud.tencent.com/product/cdb
腾讯云人工智能（AI）：https://cloud.tencent.com/product/ai
腾讯云物联网（IoT）：https://cloud.tencent.com/product/iot
腾讯云区块链（Blockchain）：https://cloud.tencent.com/product/baas
腾讯云元宇宙（Metaverse）：https://cloud.tencent.com/product/metaverse

将Python脚本连接到Nodejs

、

完成Node.js新手入门。最近，我接到一个任务，用python在web上抓取一个网站，然后使用Node.js中的python-shell包将python脚本连接到Node.js。我已经完成了抓取部分，但对Node.js没有任何先验知识。你能指导我如何解决这个问题吗？

浏览 0提问于2020-01-07得票数 0

1回答

我是新来的。我一直试图使用web3.jsNPM发送以太。这是我的密码 const testnet = `https://ropsten.infura.io/${process.evn.ACCESS_TOKEN}`; let web3 = new Web3(new Web3.providers.HttpProvider(testnet)); web3.eth.personal.unlockAccount(adminWalletAddress, password, 1000) .then(data => console.log(data)) .catch(err => console

浏览 0提问于2018-05-11得票数 0

回答已采纳

1回答

与Node.js上的Python Request.session()类似的任何内容

、、、、

我有一个完全用python编写的web抓取应用程序。我在web上抓取的信息位于登录之后，我正在使用Request.session来保存登录会话。我正在尝试将代码移植到Node.js，但在Node.js上找不到任何类似于request.session的东西。如果存在这样的东西，请让我知道。谢谢。

浏览 38提问于2020-09-29得票数 0

回答已采纳

2回答

套接字与Node.js一起使用Redis缓存时已打开问题

、、、

当我使用Redis和我的node.js项目时，我面临着“错误:套接字已经打开的问题”。我正在尝试将数据库结果缓存到Redis缓存中。当Redis键不为空时，我将从Redis键中选择记录。当它为空时，我将从DB中选择并设置为Redis键。这是我的代码： const { response } = require('express'); var express = require('express'); var mysql = require('mysql'); const redis = require('redis'); con

浏览 17提问于2021-12-21得票数 2

1回答

在iisnode中运行噩梦节点js应用程序

、、、

我们已经创建了一个使用hapi node js的node js应用程序，并包含了一些使用nighmare node js的web抓取功能。使用hapi公开的应用程序接口很少，在命令行中运行应用程序时一切都很好，比如"node app.js“。但当应用程序使用iisnode托管在IIS中时，它会挂起。不知道问题出在哪里... 那么，我的问题是噩梦节点js是否可以在iis节点中工作？请在这方面提供帮助。

浏览 0提问于2016-12-27得票数 0

1回答

网络抓取是安全的吗？

我正在为Alexa世界排名第一的网站进行网络抓取和数据挖掘。我是用node.js，Axios (用于HTTP请求)，在Windows机器上(特别是在was上)这样做的。在运行前500或1000个网站之后，我开始从Windows上的安全软件(Norton security)获得一些恶意攻击、安全问题通知。 📷 我不认为使用一个像样的抓取/ web请求库来进行网络抓取是安全上的问题，这也是第一次对这么大的URL列表进行web抓取，我很惊讶我通过这个程序受到了攻击。对这样一个随机的大URL列表进行web抓取是安全的，还是攻击通知是可以忽略的？如果不是很安全，我可以对我的代码或使用的库、语言或W

浏览 0提问于2020-12-26得票数 0

1回答

Selenium显式等待分页

、、

我正在使用Selenium在一个抓取项目中导航页面。这是HTML： <input type="hidden" id="day_nr" value="2"/> <div id="js-table" class="js-table table"> Day 2 of 2 <div class="js-pager"> <input id="myCustomUrl" name="myCustomUrl"

浏览 15提问于2020-02-22得票数 1

回答已采纳

1回答

升级时面临问题15.6.2版至16.6.3版

、

将react版本从15.6.2升级到16.2.0。但是在运行应用程序的构建时，面临以下问题，错误出现在./node_node/lib addons-update/index.js信息模块未找到:错误:无法解析'D:\Projects\MyTask\web\node_modules\react-addons-update‘INFO @./node_node/lib addons-update/index.js 1:17-44中的“lib/lib/update” package.json "react"："^16.6.3"，“react”：

浏览 1提问于2018-11-28得票数 1

4回答

如何使用node.js使用动态内容刮取页面？

、、、

我试图抓取一个，但是我没有得到一些元素，因为这些元素是动态创建的。我在node.js中使用了cheerio，代码如下所示。 var request = require('request'); var cheerio = require('cheerio'); var url = "http://www.bdtong.co.kr/index.php?c_category=C02"; request(url, function (err, res, html) { var $ = cheerio.load(html); $(

浏览 8提问于2015-02-26得票数 30

回答已采纳

1回答

获取在html/javascript函数中使用的“服务器端”变量

、、

我正在尝试开发一个语言web应用程序。它将从不同的网站抓取数据，并向参与者提出许多问题等。我已经创建了抓取网页的文件，但我很难从node.js文件中获得抓取的变量。以下是节点js文件的一些摘录： var pword = function() { var request = require("request"); var cheerio = require("cheerio"); var aa = Math.floor(Math.random() * 588); var words = ['abash', &#

浏览 1提问于2016-07-03得票数 0

1回答

关于一个简单的命令行web抓取器(Clojure/ClojureScript)的一些问题

、、、、

我打算用Clojure / ClojureScript编写一个小的web抓取程序。这是一个非常简单的命令行应用程序(针对Linux)，它可以访问网页，过滤结果并将其打印到控制台。然而，这引发了一些问题-尤其是因为我来自JS/Node.js背景，而Clojure对我来说是相当新的。 (1)首先:对于Clojure程序来说，这是一个好任务，它将以.jar文件的形式提供给JVM。启动JVM很慢，但是程序需要快速启动和停止，因为它是日常使用的。但我猜有一些方法可以让一个JVM在后台运行，然后等待按需执行jar文件。(?) (2)另一种方法是使用ClojureScript并将其编译为节点友好的Java

浏览 0提问于2016-01-09得票数 2

1回答

找不到模块web3

、、

我只是试图将web3导入到我的项目中，无论出于什么原因，我似乎无法解决我面临的问题。有关守则张贴如下： Example.js const Web3 = require('web3'); console.log('hi'); Package.json { "name": "inbox", "version": "1.0.0", "description": "", "main": "index.js", "sc

浏览 7提问于2022-04-07得票数 0

1回答

对象没有“单击”方法: web抓取

、、

我试图为我们的内部项目创建一个web抓取模块，这与任何其他网站相似，我面临的问题是，在第一页登录是不起作用的。在输入用户名和pasword后，当我单击登录按钮时，它显示对象没有方法单击，我尝试在facebook登录上进行相同的操作，只是为了验证我们的站点哪里出了问题，或者我做错了什么，我再次从facebook上发现了相同的错误 TypeError：对象没有“单击”方法有人能指出$("#loginbutton").click()行中我的脚本有什么问题吗？

浏览 3提问于2015-07-12得票数 0

3回答

Web3问题:未编译

、、、

在编译过程中，我面临着反应应用的问题。请找到下面的问题和截图。 ERROR in ./node_modules/web3-providers-http/lib/index.js 30:11-26 Module not found: Error: Can't resolve 'http' in '/Users/rohit/Downloads/Personal/web3/react-minting-website/node_modules/web3-providers-http/lib' BREAKING CHANGE: webpack < 5 us

浏览 15提问于2021-12-24得票数 1

回答已采纳

1回答

使用webpack监视通用应用程序运行自定义命令

、、

我的工作是一个通用的网络应用程序，使用webpack作为构建系统。我的目录结构如下： |-server/ |-- index.js # Server Side Rendering |-client/ |-- index.js # Client Side Rendering |-common |-- SomeReactComponent.js #Imports things like .css files 我有一个webpack.config.js，类似于： export default [{ //config for server target: 'node'

浏览 0提问于2016-08-31得票数 2

2回答

BeautifulSoup -使用Python通过分页表刮取数据

、、

我正在通过一个博彩网站()收集数据。我可以在当前页面上抓取有限数量的事件。我面临的问题是，我无法浏览表中的其余数据。如何进入下一页或链接。以下是我的代码： import urllib2 from urllib2 import urlopen import requests import dryscrape from bs4 import BeautifulSoup dryscrape.start_xvfb() SessionFDJ = dryscrape.Session() SessionFDJ.visit('https://pointdevente.parionssport.f

浏览 7提问于2016-12-01得票数 1

回答已采纳

1回答

从各个维基百科页面中抓取特定的表。

、、、

我试图从维基百科(如)中为过去两届奥运会中的每一个国家“竞争对手”，并把它变成一个数据格式。我可以找到每个国家的URL列表，但是当我开始抓取时，我会面临这样的问题:每一页都有一个不同顺序的“竞争对手”表(有时是第一个，有时是第二个)，再加上我可以找到一个唯一的标题来标识该表()。我试图应用这个代码-- ，但我搞不懂。任何帮助都将不胜感激。谢谢!

浏览 2提问于2022-04-20得票数 1

1回答

基于Node.JS的仪表板的设计问题

我查过meta，很明显这是最好的问话地点！我工作的公司有许多环境，因此，每个环境中都有许多Nagios/Icinga等框。我们目前有一个仪表板，但它是快速创建的卫星前，需要更换。它目前刮除每个框的HTML，构建一个静态HTML文件并重复。我整理了一个使用PHP/MySQL的概念证明(因为我擅长它)，它有一个从MySQL DB动态生成的页面，然后有一个从Nagios/Icinga获取数据的后台脚本(或者在没有API的地方使用抓取)。这很好，但是我一直渴望学习Node.JS，从我所读到的内容来看，它对仪表板很有好处--特别是因为我将来可能想要交互。那么，我的问题是Node.JS站点在哪里，哪

浏览 0提问于2014-03-12得票数 0

1回答

在node.js中使用Wordpress验证请求

、、、、

我有一个Wordpress站点和一个node.js应用程序，它们共同构成了我正在构建的web应用程序。我使用Node是因为socket.io和Wordpress有很多其他原因。无论怎样，我都不能删除wordpress或节点我面临的问题是确保通过wordpress登录的用户在向Node服务器发出请求时是有效用户。我应该在wordpress auth进程中将会话信息推送到节点服务器，并让它维护自己的会话吗？然后，在随后对节点服务器的请求中，只使用它吗？我正努力想办法解决这件事，希望能得到任何帮助。

浏览 4提问于2014-04-01得票数 1

回答已采纳

1回答

运行npm start命令时发生错误？

、

package.json { "main": "node_modules/expo/AppEntry.js", "scripts": { "start": "expo start", "android": "expo start --android", "ios": "expo start --ios", "web": "expo start --web", "ej

浏览 5提问于2021-05-25得票数 0

1回答

使用PowerShell确定网页是否包含内容

、

我已经创建了一个PHP页面，它对一个表执行基本的select操作，以确定特定代理上次插入数据的时间。该页面的目的是查看是否有座席在过去48小时内未提交数据。只有在该时间段内未提交数据的座席才会显示在列表中。因为我预计这个表中95%的时间都不会有条目，所以我需要设置一个警报，以便只有在PHP页面上存在数据时才发送。我正在尝试一个PowerShell脚本来抓取页面，而且效果很好……我只需要弄清楚如何: 1)刮页2)如果内容存在->发送电子邮件3)否则->关闭。我会通过标准的Windows计划任务来安排它。我知道有更简单，或者更直接的方法可以做到这一点，但我没有在linux web服

浏览 0提问于2013-06-08得票数 2

回答已采纳

1回答

请求()和fs.createReadStream()不返回“右”值

、、、、

我试图用Node.js抓取网页的内容，并将其与作为文件存储的同一页的副本进行比较，如下所示： var fs = require("fs"); var request = require("request"); var archive = ["./archive.html", "http://praguerace.com/comic/archive"]; request(archive[1], //request Prague Race's archive function (error, response, bo

浏览 1提问于2016-11-18得票数 1

回答已采纳

1回答

带网照的电子应用程序

、、

所以，我正在开发一个用电子构建的小应用程序，它可以抓取一个网站，并使用网络快照拍摄截图。我正在使用对话框模块，这样用户就可以选择一个文件夹来保存屏幕截图。 Web快照回调中的变量"filename“是用户选择的路径。预期的行为是：截图如果所选路径不存在，则在所选路径上创建文件夹保存截图下面是代码的一个简化部分： var savePath = dialog.showSaveDialog( { title: 'save screenshots' }, function(filename) {

浏览 2提问于2017-03-06得票数 0

回答已采纳

1回答

网络抓取在反应-本机ios？

、、、

我正在建立一个iOS应用程序与反应-本机，并希望做一些网络刮擦。根据我的理解，传统的npm包不起作用，因为它们依赖Node.js。我知道有一些用于web抓取的目标C/Swift库，但我不明白如何将它们集成到一个react原生组件中。谁有任何想法，如何从一个网站(网络抓取)的反应-本地信息？

浏览 1提问于2015-09-24得票数 4

回答已采纳

3回答

NodeJs捕获未处理的错误发生在异步方法中

、、

最初，我想问一个关于如何创建基于Node.js的robuts web服务器的问题。然而，这可能是一个非常大和模糊的问题。因此，我将其分解为创建robuts web服务器时所面临的小而具体的问题或挑战。那么，我面临的一个挑战是如何在Node.js中捕获所有未处理的错误？我之所以这样做，是因为我不希望任何未处理的错误导致Node.js停止运行，从而导致web服务器宕机。我想到的解决方案是将运行代码块的服务器放在try-catch块中，以捕获所有未处理的错误。但是，如果异步方法发生任何错误，则此方法不起作用。例如，我的web服务器可能看起来像下面的代码： var fs = require(

浏览 1提问于2013-03-29得票数 2

1回答

在web抓取中浏览多个页面

、、

我正在进行网页抓取，从yello页面中获取值，在迭代页面时循环函数不会得到页面计数增量。我增加了一个循环，它继续显示来自同一页的数据。我在下面附加我的代码。 static void Main(string[] args) { string webUrl = "https://www.yellowpages.com"; bool Loop = true; HtmlWeb Web = new HtmlWeb(); //First Url HtmlDocument doc = Web.Load(

浏览 1提问于2019-11-19得票数 0

回答已采纳

1回答

Node.js:用div标记包装所有标题

、

我如何迭代HTML中的所有标题，并在node.js中用惟一的div包装它们？我不能使用regex替换，因为div I必须是唯一的。 Cheerio似乎是node.js中最好的web抓取框架，但是我没有找到解决这个用例的方法。

浏览 5提问于2017-08-04得票数 0

回答已采纳

2回答

RangeError [ERR_OUT_OF_RANGE]："sourceStart“的值超出范围。必须是<= 9。已收到13

、、

我正在尝试通过创建一个池来在我的supermasters表中插入一行- const { createPool } = require('mysql'); const pool = createPool({ port: process.env.DB_PORT, host: process.env.Host, user: process.env.DB_USERNAME, password: process.env.DB_PASSWORD, database: 'users', connectionLimit: 8,

浏览 5提问于2020-07-31得票数 0

2回答

如何从数据库中存储语音并进行识别？

、、、

我想用node js和react js创建web应用程序。在web应用程序中将有2个页面，其中一个页面将记录语音并存储在数据库中，在第二个页面中，任何用户都可以在该web应用程序与该语音和数据库匹配后说任何话，它将返回用户名。我已经做了记录部分保存在文件夹中，但不知道我应该使用哪个数据库来存储数据，这些数据可以匹配第二页中的数据，当用户需要那里的名称时，当他们说什么的时候。提前感谢我在node和react中的新功能，请对此提供帮助：

浏览 1提问于2017-04-26得票数 2

1回答

从添加到按钮按下的html中抓取网页

、、、

我试图从有一个巨大表的页面中抓取数据，该表将100个条目显示为默认值。底部有一个select/选项，允许您将条目更改为200或全部。如何在刮表之前将selecter设置为All，因为我希望从所有条目中抓取，而不仅仅是前100项。我使用node.js/JavaScript从页面中抓取。

浏览 1提问于2016-10-17得票数 0

回答已采纳

1回答

ASP.NET网页有问题

、、、、

我面临着两个ASP.NET网页的问题。这些页面托管在同一台服务器上，但位于不同的应用程序池中。每次我登录到A页时，当我打开B页时，我都会面对一个空白页。如果我在一个不同的选项卡或一个新的浏览器窗口中打开它，它不会显示任何东西。因此，当以相反的方式进行测试时，登录到页面B，然后打开页面A，它可以正常工作，但我已经登录到了页面A(两个页面都使用相同的数据库和用户)。因此，在我看来，我在这里遇到了会话/cookie问题。我试图在这两个网站的system.web部分中定义单独的cookie名称，不幸的是，没有成功。配置SiteA： <configuration> ... <

浏览 1提问于2015-11-25得票数 0

回答已采纳

2回答

我的柏树测试正向pluginsFile砸去，为什么？

、、

在一个项目中，我面临着一些与柏树和打字有关的问题。当我尝试在一个新的项目中设置带有类型记录的柏树时，一切都进行得很顺利。当我在另一个大项目中做同样的事情时，我在运行柏树时出错，运行柏树浏览器打开，然后我点击一个打开的浏览器，然后在我的终端上使用这个堆栈跟踪崩溃。 We stopped running your tests because a plugin crashed. Your pluginsFile threw an error from: /home/xxxxx/Desktop/workspace/trouve-ui-13/src/web_app/cypress/plugins/in

浏览 23提问于2022-04-01得票数 1

回答已采纳

1回答

从具有跨越多个页面的表格的网页中抓取信息

、、

我正在使用R中的rvest包，我想从一个只包含大约40%的总信息的表中抓取一些数据。我关注了HTML，但它没有指定当不同页面的地址没有差异时如何抓取数据。我正在尝试从获取一些工作列表数据。我已经使用以下代码成功地检索了第一页上的数据： job_page <- read_html( 'page_address' ) data_raw <- job_page %>% html_node('table') %>% html_text() 当多个页面的数据的HTML地址没有不同时，是否可以抓取网页？我希望使用lappl

浏览 2提问于2018-06-20得票数 0

1回答

如何操作node.js网页上的数据

、、

我对node.js和Javascript有点陌生，所以如果这个问题措辞不当，请原谅我。我正在使用cheeriojs从一个站点抓取数据。我正在运行js文件，它在命令行中抓取数据，并输出我想要的数据，但我希望能够在网页上访问这些数据，在那里我可以将其放入表中。(或者我想要的任何事情)。我到底该怎么做？谢谢

浏览 1提问于2016-07-29得票数 1

回答已采纳

1回答

Openbravo:生成组件的url

、、、

我按照的方法安装了ERP "Openbravo“：因此，我遵循了教程中的步骤。我在配置文件中为参数"Web URL“设置了"localhost”。在那之后，我运行了服务器，Apache和Tomcat。当使用通过浏览器访问应用程序时，我面临的问题是，浏览器找不到某些组件。我在Google-chrome的控制台上得到了这样的日志： Login_F1.html:11 GET http://localhost/openbravo/security/localhost/js/ajax.js 404 (Not Found) 当我尝试在新的标签页中加入之前的url时，我得到了“

浏览 7提问于2015-03-20得票数 0

2回答

潜在狄利克雷分配(LDA)的文档数

、、

感谢您抽出时间来看这个问题。我最近从web上抓取了一些文本，并将输出保存为一个大约300页的.txt文件。我正在尝试实现LDA来构建主题，并且熟悉这样做的技术方面。然而，我的问题是，LDA使用一个文件还是多个文件(即，如果我正在检查200封电子邮件，我是否需要进行标记化，删除停用词和双关语，并阻止大文件，然后在实施LDA之前将每个电子邮件另存为单独的.txt文件，或者我可以在一个文件中完成所有这些操作？我现在面临的问题是，如果我将所有内容分解到单独的.txt文件中，文档的预处理将需要很长时间。有什么建议吗？非常感谢。

浏览 10提问于2013-10-28得票数 1

2回答

角2 Aot错误：“ToastsManager”未导出

、、

在执行AOT时，我面临NG2-烤面包的问题，我正在使用NG2-烤面包 ToastsManager' is not exported by 'node_modules\ng2-toastr\src\toast-manager.js 'ToastModule' is not exported by 'node_modules\ng2-toastr\src\toast.module.js'. 'ToastOptions' is not exported by 'node_modules\ng2-toastr\src\

浏览 0提问于2016-12-13得票数 1

回答已采纳

2回答

在创建构建之后。运行生成时显示空白白页

、、、、

运行yarn build后，获取dist文件夹。在运行index.html时，我得到的是白色的空白页。文件结构：- :~/Desktop/web$ ls babel.config.js docs node_modules public src yarn.lock dist log package.json README.md vue.config.js vue.config.js module.exports = { publicPath: "./", chainWeb

浏览 9提问于2021-09-29得票数 0

回答已采纳

2回答

如何通过node.js运行python环境

、、

我正在开发一个将使用python模型的web应用程序。我已经为python模型创建了well.But环境，我面临的问题是我不知道如何通过节点js执行该python环境，因为我在后台使用node.js。

浏览 3提问于2020-05-29得票数 1

1回答

JSON.Dump并不能捕获整个流

、、、

所以我有一个简单的爬虫，它可以抓取3个商店位置页面，并将商店的位置解析为json。我打印(app_data‘store)，它打印所有三页的商店。然而，当我试图写出它时，我只得到三页中的一页，随意地写到我的json文件中。我想把所有流都写到文件里。任何帮助都会很好。下面是代码： import scrapy import json import js2xml from pprint import pprint class StlocSpider(scrapy.Spider): name = "stloc" allowed_domains = ["best

浏览 1提问于2016-10-13得票数 0

回答已采纳

2回答

构建一个使用Node.js在浏览器中刮RSS的网页

、、、

我有一些编码经验，但对Javascript和web开发来说几乎是全新的。我试图构建一个网页，其主要功能包括从国家气象局(如)抓取RSS提要，然后解析输出以显示各种参数(温度、湿度等)。作为文本。我已经研究过了，似乎Node.js有几种不同的方法来抓取外部网页，并将源代码作为一个对象返回。然而，据我所知，Node.js是为服务器端应用程序设计的，而我想在人们可以访问的实际网站上使用它。我被困在以下几个方面：如何将Node.js功能集成到网页的代码中？Node.js脚本和其他依赖项是通过浏览器中的浏览器自动“工作”来打包的，还是还有更多？是否有一个自我包含的Javascript编辑器，允许我

浏览 3提问于2020-07-26得票数 1

回答已采纳

2回答

从URL抓取数据到pandas中

、、、、

我正在尝试从URL中抓取日期。数据不在HTML表中，所以pandas.read_html()没有提取它。网址是：我想要得到的数据是过去5000场比赛的性别，年龄，时间(名字并不重要)。数据在网页50中一次呈现约25页。它为UI使用了各种javascript框架(node.js、react)。使用chrome浏览器中的"What Runs“广告找到了这一点。这是我想要获得这些数据的真正原因。我是一个新的跑步者，将参加下周的5000米比赛，我想探索一些过去面孔的分布统计数据(这是一场年度比赛，数据可以追溯到20世纪80年代)。提前感谢！

浏览 1提问于2019-01-29得票数 1

1回答

防火墙网络抓取项目

、、、、

我正在做项目，我是一个网络抓取和防火墙的初学者。我已经进入了“国家预防机制运行服务”部分。但是，如何传入{ "text"："和“}之类的对象体呢?？在运行'npm运行服务‘之前，我是否将其输入到我的终端窗口，并将其放入index.js文件中？我没有像视频中提到的那样使用“失眠症”软件，也不知道它是什么。我在苹果电脑上。我不明白如何实际使用这两个网络抓取功能。有人能简单地解释一下吗？附件是我在终端窗口的错误。谢谢你的帮助！！ i functions: Beginning execution of "scraper" > (node:266

浏览 4提问于2020-05-13得票数 0

回答已采纳

1回答

Node.js后台处理

、

我是node.js的新手，所以请原谅一个可能是天真的问题:)我的问题是，设置在node中编写的非UI作业的最佳方式是什么？我创建的任务用于基于Azure队列抓取一些web内容(队列消息告诉作业要抓取哪些内容)。我在node周围看到的所有示例都更多地基于UI和请求，使用http.createServer并侦听特定的端口。虽然我可以做到这一点，但这似乎并不正确，似乎我只需要创建某种javascript setInterval循环(或类似的循环)来不断查看我的队列。任何能将我推向正确方向的建议或例子都将不胜感激。克里斯

浏览 0提问于2012-01-30得票数 2

回答已采纳

1回答

从github源部署时，在azurewebsites中显示空白页。这是一个nodejs网络应用程序

、、、

我刚把github的代码部署到azure。这是一个nodejs网络应用程序。在蔚蓝中，我使用的是应用程序服务。另外，我在/bin/www中添加了端口代码 var port = process.env.port || 8080; // 8080 for local or whatever number u want var listener = app.listen(port, function(){ console.log('Listening on port ' + port); }); 不过，网页并没有出现在中下面是部署日志 Command: "D:\

浏览 0提问于2016-07-24得票数 0

回答已采纳

1回答

代码错误:运行带有停靠量的停靠容器时

、、、、

我面临以下问题，我有一个码头容器(反应应用)运行与音量连接到它。这样，我的代码更改就会自动反映出来，并且可以正常工作。停靠程序编写文件命令如下所示 volumes: - ".:/app" - "./src:/web/src" - "/app/node_modules" ports: - "3000:3000" - "35729:35729" 现在我所做的是，我已经创建了一个克隆相同的回购和拉到我的本地机器到一个不同的文件夹。现在，我正在尝

浏览 9提问于2022-07-08得票数 0

2回答

错误TS5023:未知编译器选项'p‘

、

在Visual代码中运行任务时，我将面临此问题。这是供参考的屏幕截图。以下是tasks.json的代码 { // See https://go.microsoft.com/fwlink/?LinkId=733558 // for the documentation about the tasks.json format "version": "0.1.0", "command": "tsc", "isShellCommand": true, "ar

浏览 3提问于2016-07-04得票数 5

1回答

使用node.js从别人的谷歌工作表页面抓取数据？

、、

有人能告诉我如何从不属于我的Google Sheets页面中抓取数据吗？使用API不是一个选项。我看到了很多关于如何使用Sheet来存储web抓取数据的教程，但却没有关于如何从Sheets页面获取信息的教程希望我能用node.js来做这件事。有谁知道最好的方法吗？

浏览 1提问于2020-09-22得票数 1

1回答

Node.js应用程序的结构

、、、

我叫亚历克斯。对不起，我的英语很差，因为我来自德国。我刚开始用Node.js编程。以前我做了一些小的静态HTML和CSS网站。我有一些初学者的问题(可能是垃圾)。我认为这些问题目前非常普遍，因此没有包括任何代码示例。到目前为止，我已经编写了一个静态的HTML网站，我使用Node.js和Express在我的计算机上本地托管。我的问题是：在web应用程序中的哪些操作应该在客户端进行，哪些应该在服务器端进行。例如，我在起始页面上有几个按钮。在预定义的用户可以登录的帮助下。单击按钮时，应该将用户重定向到登录页面。相应用户的用户名应直接输入登录页上的“用户名”字段。我如何实现这种过渡？用户名可能必

浏览 1提问于2021-02-16得票数 0

2回答