linux定时爬虫 - 腾讯云开发者社区

、

我想知道在给定时间内并发会话的数量。但对于爬虫和负载均衡器，以及可能不知道的影响，在全局asax中执行此操作有多安全：{ counter+

浏览 1提问于2009-04-20得票数 2

0回答

python打包成exe后，input时间之后报错？

、、

把py打包成了exe，里面有一个input是用来确定一个爬虫运行的时间。py运行没问题，但是exe只要输入这个时间就会报错，在换成固定时间触发后就正常了，不知道到底是什么原因？该如何解决？

浏览 660提问于2020-01-09

1回答

在Linux服务器上使用Selenium运行Scrapy Web Crawler

、、、、

我用scrapy和selenium(python)开发了一个网络爬虫。它可以在我的本地成功运行。我很好奇，我可以把我的整个爬虫项目上传到我的linux服务器上，然后像在本地一样运行吗？只有一个问题是在我的本地，当程序运行时，它会打开浏览器，模仿人类的动作，但在linux服务器上，就像你知道的，我们没有浏览器可以打开。所以我们可以这样做吗？

浏览 1提问于2016-02-26得票数 0

1回答

在ubuntu的后台运行时，爬虫停止。

、

我使用具有无限循环的python制作了一个简单的爬虫，所以它不能停止。随机延迟17 ~ 30，这个爬虫爬行相同的一个页面，并找到'href‘链接，定期更新，并存储到Mysql。因为我使用了Linux命令这个爬虫是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但爬虫突然停止了。第二天我再试一次。

浏览 1提问于2014-05-20得票数 0

回答已采纳

3回答

网络爬虫反馈？

、、、

无论如何，作为对我上一个问题的跟进，我写了一个小的网络爬虫，可以访问网站。 - Main.java - HTMLUtils.java

浏览 12提问于2010-05-29得票数 2

回答已采纳

2回答

去缓存DNS查找吗？

、、

我正在构建一个测试爬虫，并且想知道Go (golang)是否缓存DNS查询。在中，我没有看到任何关于缓存的内容。这似乎是一个重要的事情添加到任何爬虫，以防止许多额外的DNS查询。如果没有，那么debian/ubuntu/linux、windows或达尔文/OSX在网络级别的缓存会受益吗？

浏览 8提问于2016-10-26得票数 13

回答已采纳

1回答

python计划，根据os时间每30分钟执行一次

、

我使用PythonSchedul进度表每30分钟运行一次爬虫，我希望我的爬虫每隔30分钟运行一次，这个间隔是根据系统的时间计算的(例如mac、windows、linux)。

浏览 5提问于2022-06-08得票数 0

2回答

ASP.NET内核中的异步任务

、、、

我需要运行我的爬虫从我的网络管理。我有两个想法要做：爬虫将是我的网站的一部分，我会在后台运行它。我觉得这是个更好的解决办法。应用程序用C#编写，在Linux上使用.NET内核。

浏览 3提问于2016-06-11得票数 0

1回答

为什么当客户出现空闲时，Linux来宾在VirtualBox下消耗100%的主机CPU？

、

我的linux来宾有时会消耗100%的主机CPU (在活动监视器中查看)，即使来宾是空闲的。为什么主机CPU利用率这么高，如何解决这个问题？

浏览 0提问于2015-01-09得票数 1

1回答

gem安装失败

、

我试图通过使用gem命令安装instagram爬虫：但我收到以下错误：构建本机扩展。这需要一段时间..。错误:安装instagram爬虫时出错:错误:无法构建创业板本机扩展。登录到/var/lib/gems/2.5.0/extensions/x86_64-linux/2.5.0/nokogiri-1.10.1/gem_make.out的结果

浏览 0提问于2019-02-05得票数 0

1回答

linux中的计时计算参考是什么？

、、、

我想澄清一下linux中的计时器，它们是如何工作的？我知道在微控制器中，定时器/计数器我们使用机器指令的参考，定时到execute.so，我们可以让它循环多少时间，我们需要睡眠/定时器/计数器。但是在linux中，如果我使用elapsed.If (5)，恰好5秒是睡眠，那么在linux中，它将如何引用，任何人都知道，请友好地告诉我。

浏览 2提问于2016-09-28得票数 1

1回答

基于存储优化的Nutch 1.17网络爬行

、、、、

一次以深度爬虫的形式运行爬虫，以便从给定的(100万)域获取最大URL。第一次，您可以最多运行48小时。之后，运行5到6小时后具有相同100万个域的爬虫，并且只选择这些域上新的URL。作业完成后的，Solr中的索引URL，以后不需要存储原始的HTML，因此保存存储空间，只删除原始数据，并维护每个页面元数据，这样在下一个任务中，我们应该避免重新获取页面(在预定时间之前)。

浏览 5提问于2020-09-25得票数 0

回答已采纳

1回答

如何在Step函数中包含AWS胶爬行器

、、

如何确保只在爬虫成功运行之后，才能启动下一个状态-- Pyspark作业。参考文献：

浏览 0提问于2020-01-29得票数 6

6回答

具有独立实例的.NET自定义线程池

、、

我需要一个无限的队列大小(建立一个爬虫)，并需要运行我正在爬行的每个网站在并行单独的线程池。编辑:我需要尽可能快地挖掘这些站点的信息，使用每个站点的单独线程池将使我能够控制在任何给定时间在每个站点上工作的线程数量。(不超过2-3个) 谢谢罗伊

浏览 0提问于2009-06-23得票数 12

1回答

如何用特定的时间戳列出系统上的所有文件？

、

我正在从零开始运行Linux系统，我想列出所有带有特定时间戳的文件，作为列出属于包的文件的一种方式。这个是可能的吗？我看到Unix & Linux中有一些问题与查找具有比特定时间戳更新的时间戳有关的文件有关，但我希望找到具有与特定时间戳相等的时间戳的文件。这个是可能的吗？

浏览 0提问于2017-10-13得票数 2

1回答

调度Javascript服务器端脚本执行

、、、

这个想法是为我的网站(一个专门的搜索引擎)触发我的网页爬虫/索引器，来运行和索引一组网络种子。也许我可以通过cpanel配置一种在特定时间自动运行我的脚本的方法？

浏览 0提问于2012-01-01得票数 0

回答已采纳

1回答

HTTP代理来处理不同的编码

、、、

我正在做一个网页爬虫，所以我解析HTML页面。我的问题是有时页面编码不是UTF8 (ISO，外来的0-9等等)而我的分析器也被磨碎了。

浏览 0提问于2014-01-07得票数 0

2回答

重定向爬行器

然而，有时我会收到各种机器人和爬虫的访问。我如何温和地将它们重定向到其他地方而不“伤害他们的感情”？我在想，我应该用机器人的名字建立一个数组，并根据它运行每个代理信息，如果在数组中找到，就重定向。

浏览 6提问于2012-01-14得票数 4

1回答

谷歌代理是个假爬虫吗？例如:google 66-249-81-131.google.com

、、

我怀疑这些google爬虫是合法的，因为这些爬虫并不总是在代理后面(就像主机名所描述的那样)，并将自己标识为浏览器。主机名的格式类似/类似于google，但是添加了字符串'proxy‘。我的PHP阻塞类会阻止这些爬虫，但是阻止这些爬虫是正确的吗？他们是什么，这些是来自谷歌还是它是假的？: No Agent_name : chrome Os_type : linux Os_name这些

浏览 6提问于2013-04-05得票数 7

1回答