腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如何安全地计算会话数: Global.Asax中的Session_Start/End是否足够安全?
、
我想知道在给
定时
间内并发会话的数量。但对于
爬虫
和负载均衡器,以及可能不知道的影响,在全局asax中执行此操作有多安全:{ counter+
浏览 1
提问于2009-04-20
得票数 2
0
回答
python打包成exe后,input时间之后报错?
、
、
把py打包成了exe,里面有一个input是用来确定一个
爬虫
运行的时间。py运行没问题,但是exe只要输入这个时间就会报错,在换成固
定时
间触发后就正常了,不知道到底是什么原因?该如何解决?
浏览 660
提问于2020-01-09
1
回答
在
Linux
服务器上使用Selenium运行Scrapy Web Crawler
、
、
、
、
我用scrapy和selenium(python)开发了一个网络
爬虫
。它可以在我的本地成功运行。我很好奇,我可以把我的整个
爬虫
项目上传到我的
linux
服务器上,然后像在本地一样运行吗?只有一个问题是在我的本地,当程序运行时,它会打开浏览器,模仿人类的动作,但在
linux
服务器上,就像你知道的,我们没有浏览器可以打开。 所以我们可以这样做吗?
浏览 1
提问于2016-02-26
得票数 0
1
回答
在ubuntu的后台运行时,
爬虫
停止。
、
我使用具有无限循环的python制作了一个简单的
爬虫
,所以它不能停止。随机延迟17 ~ 30,这个
爬虫
爬行相同的一个页面,并找到'href‘链接,定期更新,并存储到Mysql。因为我使用了
Linux
命令这个
爬虫
是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但
爬虫
突然停止了。第二天我再试一次。
浏览 1
提问于2014-05-20
得票数 0
回答已采纳
3
回答
网络
爬虫
反馈?
、
、
、
无论如何,作为对我上一个问题的跟进,我写了一个小的网络
爬虫
,可以访问网站。 - Main.java - HTMLUtils.java
浏览 12
提问于2010-05-29
得票数 2
回答已采纳
2
回答
去缓存DNS查找吗?
、
、
我正在构建一个测试
爬虫
,并且想知道Go (golang)是否缓存DNS查询。在中,我没有看到任何关于缓存的内容。这似乎是一个重要的事情添加到任何
爬虫
,以防止许多额外的DNS查询。如果没有,那么debian/ubuntu/
linux
、windows或达尔文/OSX在网络级别的缓存会受益吗?
浏览 8
提问于2016-10-26
得票数 13
回答已采纳
1
回答
python计划,根据os时间每30分钟执行一次
、
我使用PythonSchedul进度表每30分钟运行一次
爬虫
,我希望我的
爬虫
每隔30分钟运行一次,这个间隔是根据系统的时间计算的(例如mac、windows、
linux
)。
浏览 5
提问于2022-06-08
得票数 0
2
回答
ASP.NET内核中的异步任务
、
、
、
我需要运行我的
爬虫
从我的网络管理。我有两个想法要做:
爬虫
将是我的网站的一部分,我会在后台运行它。我觉得这是个更好的解决办法。应用程序用C#编写,在
Linux
上使用.NET内核。
浏览 3
提问于2016-06-11
得票数 0
1
回答
为什么当客户出现空闲时,
Linux
来宾在VirtualBox下消耗100%的主机CPU?
、
我的
linux
来宾有时会消耗100%的主机CPU (在活动监视器中查看),即使来宾是空闲的。 为什么主机CPU利用率这么高,如何解决这个问题?
浏览 0
提问于2015-01-09
得票数 1
1
回答
gem安装失败
、
我试图通过使用gem命令安装instagram
爬虫
:但我收到以下错误: 构建本机扩展。这需要一段时间..。错误:安装instagram
爬虫
时出错:错误:无法构建创业板本机扩展。登录到/var/lib/gems/2.5.0/extensions/x86_64-
linux
/2.5.0/nokogiri-1.10.1/gem_make.out的结果
浏览 0
提问于2019-02-05
得票数 0
1
回答
linux
中的计时计算参考是什么?
、
、
、
我想澄清一下
linux
中的计时器,它们是如何工作的?我知道在微控制器中,
定时
器/计数器我们使用机器指令的参考,
定时
到execute.so,我们可以让它循环多少时间,我们需要睡眠/
定时
器/计数器。但是在
linux
中,如果我使用elapsed.If (5),恰好5秒是睡眠,那么在
linux
中,它将如何引用,任何人都知道,请友好地告诉我。
浏览 2
提问于2016-09-28
得票数 1
1
回答
基于存储优化的Nutch 1.17网络爬行
、
、
、
、
一次以深度
爬虫
的形式运行
爬虫
,以便从给定的(100万)域获取最大URL。第一次,您可以最多运行48小时。之后,运行5到6小时后具有相同100万个域的
爬虫
,并且只选择这些域上新的URL。作业完成后的,Solr中的索引URL,以后不需要存储原始的HTML,因此保存存储空间,只删除原始数据,并维护每个页面元数据,这样在下一个任务中,我们应该避免重新获取页面(在预
定时
间之前)。
浏览 5
提问于2020-09-25
得票数 0
回答已采纳
1
回答
如何在Step函数中包含AWS胶爬行器
、
、
如何确保只在
爬虫
成功运行之后,才能启动下一个状态-- Pyspark作业。 参考文献:
浏览 0
提问于2020-01-29
得票数 6
6
回答
具有独立实例的.NET自定义线程池
、
、
我需要一个无限的队列大小(建立一个
爬虫
),并需要运行我正在爬行的每个网站在并行单独的线程池。编辑:我需要尽可能快地挖掘这些站点的信息,使用每个站点的单独线程池将使我能够控制在任何给
定时
间在每个站点上工作的线程数量。(不超过2-3个) 谢谢罗伊
浏览 0
提问于2009-06-23
得票数 12
1
回答
如何用特定的时间戳列出系统上的所有文件?
、
我正在从零开始运行
Linux
系统,我想列出所有带有特
定时
间戳的文件,作为列出属于包的文件的一种方式。这个是可能的吗?我看到Unix &
Linux
中有一些问题与查找具有比特
定时
间戳更新的时间戳有关的文件有关,但我希望找到具有与特
定时
间戳相等的时间戳的文件。这个是可能的吗?
浏览 0
提问于2017-10-13
得票数 2
1
回答
调度Javascript服务器端脚本执行
、
、
、
这个想法是为我的网站(一个专门的搜索引擎)触发我的网页
爬虫
/索引器,来运行和索引一组网络种子。 也许我可以通过cpanel配置一种在特
定时
间自动运行我的脚本的方法?
浏览 0
提问于2012-01-01
得票数 0
回答已采纳
1
回答
HTTP代理来处理不同的编码
、
、
、
我正在做一个网页
爬虫
,所以我解析HTML页面。我的问题是有时页面编码不是UTF8 (ISO,外来的0-9等等)而我的分析器也被磨碎了。
浏览 0
提问于2014-01-07
得票数 0
2
回答
重定向爬行器
然而,有时我会收到各种机器人和
爬虫
的访问。我如何温和地将它们重定向到其他地方而不“伤害他们的感情”? 我在想,我应该用机器人的名字建立一个数组,并根据它运行每个代理信息,如果在数组中找到,就重定向。
浏览 6
提问于2012-01-14
得票数 4
1
回答
谷歌代理是个假
爬虫
吗?例如:google 66-249-81-131.google.com
、
、
我怀疑这些google
爬虫
是合法的,因为这些
爬虫
并不总是在代理后面(就像主机名所描述的那样),并将自己标识为浏览器。主机名的格式类似/类似于google,但是添加了字符串'proxy‘。我的PHP阻塞类会阻止这些
爬虫
,但是阻止这些
爬虫
是正确的吗?他们是什么,这些是来自谷歌还是它是假的?: No Agent_name : chrome Os_type :
linux
Os_name这些
浏览 6
提问于2013-04-05
得票数 7
1
回答
网站数据
爬虫
,发布数据和遍历
、
、
我想编写这样一个
爬虫
。那么,哪种工具/语言最适合实现这一点呢?我已经精通java和C语言,所以任何基于它们的东西都会很有帮助。
浏览 1
提问于2013-03-27
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Linux启动定时任务
Linux定时执行任务Crontab
在 Linux 中创建定时器|Linux 中国
Linux进程与定时任务
在 Linux 上使用 systemd 设置定时器
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券