腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
客户端操作
系统
上
的
DNS查询是否序列化?
、
、
即使您在
Linux
或windows上发出多个并行异步DNS解析请求(以编程方式),操作
系统
是否会序列化这些请求,并且不会将它们全部并行发送出去?那么,是否有任何.NET应用程序接口或一般情况
下
,它可以并行工作,根据我
的
程序给出
的
请求数量?想象一
下
一个网络
爬虫
场景,我需要每秒大量
的
dns查询,在一些早期
的
网络
爬虫
出版物中,提到dns成为瓶颈。
浏览 1
提问于2010-12-10
得票数 2
回答已采纳
1
回答
用于
爬虫
应用
的
数据库
系统
、
我在一个基于java
的
爬虫
上工作。我想在我
的
爬虫
恢复功能,用户可以在任何时候暂停
爬虫
,在他想要
的
情况
下
,
爬虫
崩溃
的
情况
下
,他应该能够开始从
爬虫
停止
的
点上一次爬行。为此,我必须在数据库中存储所有outlink (在任何页面找到
的
链接)。我不确定哪个数据库是最好
的
这类
系统
,因为它需要非常快
的
插入和检索
的</
浏览 2
提问于2012-01-06
得票数 1
回答已采纳
1
回答
python计划,根据os时间每30分钟执行一次
、
我使用PythonSchedul进度表每30分钟运行一次
爬虫
,我希望我
的
爬虫
每隔30分钟运行一次,这个间隔是根据
系统
的
时间计算
的
(例如mac、windows、
linux
)。下面是我
的
代码,每次执行它都会被延迟一分钟。
浏览 5
提问于2022-06-08
得票数 0
1
回答
为什么不能在Windows上安装"node.js / Crawler“?
、
、
我有Windows XP (32位)和Windows7(64位),但是 (
爬虫
)不能安装在这两个
系统
上。我目前只能在
Linux
上使用它,但是如何让它在Window机器上运行呢?
浏览 1
提问于2012-05-29
得票数 0
1
回答
在ubuntu
的
后台运行时,
爬虫
停止。
、
我使用具有无限循环
的
python制作了一个简单
的
爬虫
,所以它不能停止。随机延迟17 ~ 30,这个
爬虫
爬行相同
的
一个页面,并找到'href‘链接,定期更新,并存储到Mysql。因为我使用了
Linux
命令这个
爬虫
是在Ubuntu服务器背景
下
运行
的
。我想它已经运行了大约4个小时。但
爬虫
突然停止了。第二天我再试一次。这是关于网页
的
浏览 1
提问于2014-05-20
得票数 0
回答已采纳
1
回答
Linux
可接受负载平均值
、
我有一个
linux
专用服务器机器(8核8 8gbRAM),在这里我运行一些
爬虫
php脚本。
系统
上
的
负载最终在200左右,这听起来很大。由于我没有使用机器来承载内容,那么如此高
的
负载对于上述目的有什么副作用呢?
浏览 4
提问于2014-05-20
得票数 0
回答已采纳
1
回答
爬虫
服务器端
、
、
、
我有一个关于特定服务器端功能
的
问题。实现这一目标的最佳方法是什么? 将这个
系统
称为“
爬虫
”正确吗?
浏览 2
提问于2013-05-30
得票数 0
回答已采纳
1
回答
我
的
Dockerize应用程序不工作。错误: /bin/sh:./
爬虫
:未找到
、
/
爬虫
:找不到 FROM golang:1.16-buster AS build 我怎样才能找到问题
的
原因。我<
浏览 5
提问于2021-08-18
得票数 0
1
回答
爬虫
和
爬虫
架构
、
、
、
、
当我遇到这个设计问题时,我一直在用php构建一个刮板和
爬虫
。我想知道创建一个分离爬行和抓取任务
的
系统
(大多数专业
系统
似乎都是这样做
的
)和一个在
爬虫
爬行时抓取任务
的
系统
之间
的
权衡。我能想到
的
唯一一件事是,通过将其拆分并使用一个队列,您可以更好地并行化任务,只需询问队列下一个要抓取
的
页面是什么。谁能想到其他权衡,并向我解释一
下
这两个程序通常被分成两个程序
的
主要原因?注
浏览 4
提问于2012-04-16
得票数 2
回答已采纳
2
回答
网络
爬虫
的
最佳数据库设计
、
、
、
许多数据库
系统
适合与网络
爬虫
一起工作,但是有没有专门为网络
爬虫
开发
的
数据库
系统
(在.net中)。事实上,我有两个问题 1)与网络
爬虫
一起工作
的
最好
的
数据库
系统
是
浏览 2
提问于2011-07-05
得票数 1
1
回答
未定义
的
Apache服务器错误rdbmmap
、
几天后,我在服务器错误日志中得到了以下错误消息: 虽然网站
的
加载是正确
的
。
浏览 0
提问于2017-09-10
得票数 0
4
回答
Java -销毁正在执行某些操作
的
对象
、
我看过Java中关于析构函数
的
帖子,了解到Java没有析构函数,但我很困惑,如果没有析构函数,我
的
应用程序需要做什么。 我
的
应用程序允许用户创建一系列
的
网络
爬虫
,这些
爬虫
保存在一个数组列表中。每个crawler都有一个进度面板gui,显示已爬行
的
页面等,并允许用户暂停该
爬虫
。但是,用户可能还想“终止”该
爬虫
程序。应该注意
的
是,Crawler类
的
每个实例都有一个Scraper类
的
实例
浏览 4
提问于2011-07-08
得票数 0
回答已采纳
2
回答
使用websocket在烧瓶中排队
、
、
、
、
基本
的
想法是,你输入一个url,它就会以输入作为参数启动一个
爬虫
进程。目前,它似乎可以很好地处理通过websocket传输
的
输出。我很好奇什么是最好
的
方式来处理多个
爬虫
同时运行,所以如果两个人在同一时间输入一个网址。我认为最好
的
方法是使用队列
系统
,理想情况
下
,我只希望同时运行数量可控
的
爬虫
。有没有关于如何使用我已经在使用
的
库
的
建议?或者可能会提出一种不同
的
方法?
浏览 1
提问于2012-12-16
得票数 0
1
回答
网站数据
爬虫
,发布数据和遍历
、
、
虽然已经有相当多关于这些主题
的
帖子,但我
的
问题有点具体。我需要分析几个网站,一旦完成,我需要发送一些数据给它。例如,假设网站A为我提供了一个搜索选项卡,我需要以编程方式向其提供数据。根据目标站点
的
更新,结果页可能会有所不同。我想编写这样一个
爬虫
。那么,哪种工具/语言最适合实现这一点呢?我已经精通java和C语言,所以任何基于它们
的
东西都会很有帮助。
浏览 1
提问于2013-03-27
得票数 0
2
回答
生成python scrapy程序后,项中
的
类无法识别
、
我试着根据一本书来构建一个简陋
的
项目。
浏览 0
提问于2018-10-01
得票数 0
1
回答
分布式爬行与速率限制/流量控制
、
、
、
、
我正在运行一个利基搜索产品,与网络
爬虫
工作。当前
的
爬虫
是一个单独
的
(PHP Laravel)工作人员,它爬行urls并将结果放入一个弹性搜索引擎。
系统
连续地以X毫秒
的
间隔对找到
的
url进行重新爬行。这为我提供了很好
的
服务,但随着一些新
的
大客户
的
到来,
爬虫
将达到极限。我需要重新设计一个分布式
爬虫
系统
,以加快爬行速度。问题是下面的规范组合。该
系统
必须
浏览 1
提问于2018-07-23
得票数 1
1
回答
重定向时
的
道德/法律考虑
、
一个网络
爬虫
买了我们
的
网站两次。它忽略了我们
的
robots.txt,我们没有得到客户服务
的
回复,也没有使用电子邮件和twitter
的
支持。我已经创建了基于他们
的
用户代理字符串
的
url重定向,我已经将他们
的
所有请求重定向回他们自己
的
公共网站。这样做对吗? 编辑如何返回40?基于用户代理字符串
的
错误代码使用tomcat/tuckey?(如果这很重要,我们
的
站点是托管在Windows服务器上<e
浏览 0
提问于2012-06-15
得票数 2
回答已采纳
1
回答
在
Linux
服务器上使用Selenium运行Scrapy Web Crawler
、
、
、
、
我用scrapy和selenium(python)开发了一个网络
爬虫
。它可以在我
的
本地成功运行。我很好奇,我可以把我
的
整个
爬虫
项目上传到我
的
linux
服务器上,然后像在本地一样运行吗?只有一个问题是在我
的
本地,当程序运行时,它会打开浏览器,模仿人类
的
动作,但在
linux
服务器上,就像你知道
的
,我们没有浏览器可以打开。 所以我们可以这样做吗?
浏览 1
提问于2016-02-26
得票数 0
1
回答
爬行,爬行,获取数据
我想写一个
爬虫
来做一些基础设施(路由器,WAPS,
系统
等)
的
清单。所以,我在服务器上安装了一个应用程序,以及如何部署它。
爬虫
是怎么开始
的
?
爬虫
是如何返回数据
的
?
浏览 5
提问于2008-12-05
得票数 0
1
回答
非人类演员
的
用户故事和非功能性需求
、
、
我有一个主要
的
申请。我有两个典型的人类演员为主要应用程序,并写了许多用户故事。但是,为了工作,主应用程序需要一个
爬虫
、一个调度程序和一个管理应用程序。这些被认为是演员吗?我知道它们是我
的
主要应用程序
的
外部,它们直接与它交互以实现一个目标,但它们并没有为非开发团队涉众提供一些明显
的
业务价值。对于
系统
如何处理糟糕
的
数据,我也有一些非常重要
的
规范,除了主要应用程序本身之外,我想不出任何人都是描述这些场景
的
参与者。上面的一些内容是在功能需求和
浏览 4
提问于2014-07-21
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Linux系统布置python爬虫时遇到的问题——PYTHONPATH
Linux系统下常用的数据备份方法
介绍Linux下的系统调用过程
Linux下修改系统时间的简单方法
linux系统下的用户文件句柄数限制
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券