我有反应网络应用程序。这是一个单一的页面应用程序,所以基本上有一个“空”HTML文件和一个JS包来完成这一切。
但为了提高SEO的能力,我正在为我的服务器上的机器人爬虫做SSR。我还区分了“桌面”爬虫和“移动”爬虫,并为每个爬虫提供了不同的布局。
我通过用户和机器人的User-Agent字符串来区分它们。
所以这些都是可能的:
REGULAR USER => GETS "EMPTY" HTML + JS BUNDLE
ROBOT DESKTOP => GETS RENDERED HTML WITH DESKTOP LAYOUT
ROBOT MOBILE =>
我想用JS写我自己的网络爬虫。我正在考虑使用node.js解决方案,如
目标是每10分钟进行一次“爬行”,所以我希望我的爬虫每10分钟从网站上获取数据。
我知道我可以编写一个无限循环,例如:
var keeRunning = true;
while (keepRunning) {
// fetch data and process it every 10 minutes
}
如果我一直都有我的电脑,而且我在网站上,这会非常好的工作。
然而,如果我关闭我的电脑,我可以想象它将不再工作了。那么,我应该考虑什么样的解决方案来让脚本一直运行,即使计算机被关闭了呢?