我有反应网络应用程序。这是一个单一的页面应用程序,所以基本上有一个“空”HTML文件和一个JS包来完成这一切。
但为了提高SEO的能力,我正在为我的服务器上的机器人爬虫做SSR。我还区分了“桌面”爬虫和“移动”爬虫,并为每个爬虫提供了不同的布局。
我通过用户和机器人的User-Agent字符串来区分它们。
所以这些都是可能的:
REGULAR USER => GETS "EMPTY" HTML + JS BUNDLE
ROBOT DESKTOP => GETS RENDERED HTML WITH DESKTOP LAYOUT
ROBOT MOBILE =>
我想用JS写我自己的网络爬虫。我正在考虑使用node.js解决方案,如
目标是每10分钟进行一次“爬行”,所以我希望我的爬虫每10分钟从网站上获取数据。
我知道我可以编写一个无限循环,例如:
var keeRunning = true;
while (keepRunning) {
// fetch data and process it every 10 minutes
}
如果我一直都有我的电脑,而且我在网站上,这会非常好的工作。
然而,如果我关闭我的电脑,我可以想象它将不再工作了。那么,我应该考虑什么样的解决方案来让脚本一直运行,即使计算机被关闭了呢?
我目前被指派创建一个网络爬虫来自动执行我所做的一些报告任务。这个网络爬虫必须使用我的凭证登录,在不同的字段中搜索特定的东西(一些关于当前日期),如果有任何可用的数据,则下载包含数据的CSV,快速解析CSV以获得快速计数,创建带有CSV附件的电子邮件并发送它。
我目前对C++和Python非常了解,我正在学习C语言,但有人告诉我Ruby或Ruby on Rails是一个很好的方法。Ruby on Rails是否只用于创建web应用程序,如果是这样,我的任务是否符合web应用程序的描述,或者我是否可以只创建一个独立的程序来运行并完成所有这些工作?
我想知道哪种语言最容易编码(有易于使用的模块),有