腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
向远程MySQL提供数据的模式
、
、
我有一个“无所不包”的
服务器
,它是were
服务器
,mysql,
爬虫
服务器
。由于使用监视工具的两三周时间,我发现当我的
爬虫
运行时,我的平均负载总是超过5(一个4核心
服务器
,可以一直使用到4.00作为负载)。所以,我有另一台
服务器
,我想把我的
爬虫
移到那里。我的问题是。一旦我在我的
爬虫
服务器
中爬行数据,我必须插入我的
数据库
。我不想打开远程连接并将其插入
数据库
中,因为我更喜欢使用Rails
浏览 2
提问于2011-05-01
得票数 0
1
回答
定期运行python程序作为防火墙中的后台服务。
、
、
我已经有了负责解析数据的python
爬虫
,但是我不知道如何(在后台)在firebase中执行
服务器
的这个python
爬虫
(或者根本不可能)?下面是我的系统的示例用法 用户可以从
数据库
中看到网站变更的摘要。我想到的一个选择是在本地机器上运行
爬虫
,并使用REST将解析的数据更新到firebase
数据库
。然而,这似乎是一种非常低效/天真的
浏览 0
提问于2018-01-25
得票数 3
1
回答
使用副本辅助
服务器
运行DSpace
在前面有负载均衡器的多台
服务器
上运行DSpace会有什么问题吗?我想将连接从收割机和
爬虫
转移到辅助
服务器
,以减少主
服务器
上的负载,而辅助
服务器
具有
数据库
的只读副本作为后端。否则,实现如何处理来自收割机和网络
爬虫
/机器人的通信,而不会对DSpace的用户体验和性能产生负面影响?
浏览 3
提问于2022-10-07
得票数 0
2
回答
crawler实例
、
我正在构建一个大规模的网络
爬虫
,多少个实例是最佳的爬行时,在专用的网络
服务器
上运行时,位于互联网
服务器
场。
浏览 0
提问于2009-06-21
得票数 0
回答已采纳
2
回答
搜索引擎误解
、
、
如果我有一个从
数据库
加载内容和/或更改内容的页面,那么搜索引擎会抓取由
数据库
和jquery加载的内容吗?? 非常感谢你的帮助!
浏览 0
提问于2012-04-04
得票数 2
1
回答
完成后删除AWS Glue Crawler
、
、
我有一个用例,在这个用例中,我需要创建一个AWS Glue crawler来抓取存储在S3中的一些数据,启动
爬虫
,然后在完成抓取数据后删除
爬虫
。我遇到的难题是,
爬虫
可能需要很长时间才能完成,有时需要20-30分钟来完成对实际数据的爬行,然后才能将其删除。最初我打算用AWSGlueAsyncClient来解决这个问题,这样就不会阻塞调用线程20-30分钟,我只需要写一个回调,这样当
爬虫
完成时,它就会立即被删除。这样做的问题是,如果
服务器
在
爬虫
完成所需的20-30分钟时间内关闭或中断,它将不
浏览 27
提问于2021-05-26
得票数 0
回答已采纳
2
回答
如何将代理池实现为多个抓取程序?
、
、
、
我必须在具有多个使用scrapy的
爬虫
的
服务器
中实现一个代理池。 假设我已经有一个
数据库
,其中有多个代理一直在更新,我该如何实现代理池。我不想直接在代码中添加代理,主要是因为很多代理死得很快,有些
爬虫
需要很长时间才能完成。 有没有一种方法可以使用中间件或其他东西来实现这一点,而不需要更改我获得的每个
爬虫
? 谢谢。
浏览 9
提问于2019-03-19
得票数 0
2
回答
如何在WCF中运行程序?
、
、
、
、
我是世界自然基金会的新手,我正在设计一个项目,在其中我想运行一个
爬虫
程序(在c#中编码),它爬行一些网站,它将抓取的数据存储在表的
数据库
(sql
服务器
数据库
)。我希望
爬虫
在30分钟后重复运行,并更新
数据库
。是否可以使用WCF来实现此目的?
浏览 0
提问于2012-01-14
得票数 0
回答已采纳
2
回答
在网站和独立应用程序中使用Django框架
、
我计划为它写一个网络
爬虫
和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络
爬虫
使用与网站相同的MySQL后端(而不是让网络
爬虫
本身成为“网站”)。
浏览 1
提问于2009-06-04
得票数 1
回答已采纳
1
回答
ruby on rails如何杀死resque工作人员
、
、
、
我在resque队列中运行
爬虫
程序。它是一个
爬虫
程序,将信息提取到
数据库
中...我想阻止它..。然后,我使用以下命令在
服务器
中启动控制台:=> "09ec127d-bb90-4629-a6f2-bb2610885ab5:09ec127d-bb90-4629-a6f2-bb2610885ab5:62:*")尽管在/resque page...it中显示no worker is runnin
浏览 0
提问于2013-04-12
得票数 0
1
回答
如何在定义的时间段内执行特定的代码-Django-
、
、
我正在构建一个收集信息并将其存储在JSON文件中的网络
爬虫
,以及一个读取文件并将文件信息存储在SQLite
数据库
中的函数。此信息将在我的网站上呈现并可见。目前,我必须运行
爬虫
和功能,将数据保存在
数据库
中,只需单击一个按钮,但这是非常无效的。最好是自动更新
数据库
信息,大约每6小时更新一次(当然,只有在
服务器
正在运行的情况下)。
浏览 25
提问于2019-08-10
得票数 0
回答已采纳
1
回答
阻止搜索引擎访问特定的
数据库
字段
、
、
、
、
我想隐藏我的
数据库
中的一些特定字段(例如:年龄,电话号码,地址),以便阻止搜索engines..Is,有什么方法可以做到吗?谢谢
浏览 0
提问于2012-10-10
得票数 2
回答已采纳
2
回答
蜘蛛会使用哪个链接来搜索列表,静态链接还是RewriteRule url?
、
、
、
、
我的问题是,
爬虫
/蜘蛛/机器人会使用php在我的网站上显示的链接: example.com\Shoes\Running\Men,还是会使用RewriteRule的url: php作为最终会在搜索引擎中显示的链接
浏览 0
提问于2013-03-15
得票数 1
回答已采纳
2
回答
无视robots.txt的抓取器
、
、
有人遇到过一个叫格雷斯热的
爬虫
吗?他们在我们的网站上反复敲击同一个页面。我相信他们正在寻找广告相关的关键字,基于以前的内容广告宣传。奇怪的是,我们从来没有在他们如此感兴趣的页面上进行过这样的竞选活动。User-agent: grapeshot对如何阻止这种讨厌的
爬虫
有什么想法吗?我开始认为最好的方法是在IIS中设置IP规则?
浏览 0
提问于2013-10-21
得票数 5
回答已采纳
1
回答
服务端渲染如何帮助
爬虫
?
服务器
端渲染和客户端渲染哪个更好?
、
、
、
我正在阅读angular的
服务器
端渲染文档,因为它们提到
服务器
端渲染是帮助
爬虫
。我知道在
服务器
端渲染
爬虫
可以获得整个dom,但
爬虫
也可以与组件交互,那么它如何帮助
爬虫
呢?从安全的角度来看,
服务器
端渲染和客户端渲染哪个更好?我也为react读到了同样的东西。
浏览 18
提问于2019-09-15
得票数 0
6
回答
什么样的网络主机可以让你在上面运行
爬虫
?
、
、
我正在为我的一门大学课程做毕业设计,我需要找到一些地方来运行我用C#写的几个
爬虫
。没有虚拟主机的经验,我有点迷茫。这是任何网站都允许的吗?我是否需要一个特殊的主机来为
服务器
提供更多的访问权限?
爬虫
是一个简单的应用程序,它完成自己的工作,然后定期将信息写入远程
数据库
。
浏览 1
提问于2009-08-03
得票数 8
2
回答
爬行时管理URL的常见方法是什么?
我正在尝试编写一个网络
爬虫
程序,但现在我想知道:存储所有urls的最佳方法是什么,这样
爬虫
就可以一起工作,但不会干扰。
浏览 5
提问于2011-12-28
得票数 0
回答已采纳
2
回答
php网络
爬虫
中断,运行时间限制?
、
、
、
我将
爬虫
设置为每天从Facebook获取所有页面的数据,以便数据始终在本地
数据库
中更新。你有什么建议来解决这个问题吗?非常感谢!
浏览 1
提问于2012-07-03
得票数 0
2
回答
Import.io某些爬网程序没有本地爬网按钮
我使用import.io创建了一些
爬虫
,但是对于其中一些
爬虫
来说,本地运行的选项似乎没有显示出来。有谁知道为什么他们没有从本地运行按钮,或者我怎么才能把
爬虫
放进去?
浏览 2
提问于2015-11-29
得票数 0
1
回答
如何使用python urllib2复制
数据库
而不出现错误?
我想在我的计算机上复制一个托管在上的
数据库
。谢谢!
浏览 0
提问于2012-07-19
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
爬虫数据的数据库存储——MongoDB数据库
爬虫性能优化-数据库去重优化
反爬虫的极致手段,几行代码直接炸了爬虫服务器
服务器使用Nginx搭建HTTP爬虫代理
搭建Oracle数据库服务器
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券