腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在ubuntu的后台运行时,
爬虫
停止。
python
、
web-crawler
我使用具有无限循环的
python
制作了一个简单的
爬虫
,所以它不能停止。随机延迟17 ~ 30,这个
爬虫
爬行相同的一个页面,并找到'href‘链接,定期更新,并存储到Mysql。因为我使用了
Linux
命令这个
爬虫
是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但
爬虫
突然停止了。第二天我再试一次。
浏览 1
提问于2014-05-20
得票数 0
回答已采纳
1
回答
在
Linux
服务器上使用Selenium运行Scrapy Web Crawler
python
、
linux
、
selenium
、
scrapy
、
web-crawler
我用scrapy和selenium(
python
)开发了一个网络
爬虫
。它可以在我的本地成功运行。我很好奇,我可以把我的整个
爬虫
项目上传到我的
linux
服务器上,然后像在本地一样运行吗?只有一个问题是在我的本地,当程序运行时,它会打开浏览器,模仿人类的动作,但在
linux
服务器上,就像你知道的,我们没有浏览器可以打开。 所以我们可以这样做吗?
浏览 1
提问于2016-02-26
得票数 0
3
回答
用于调试phantomjs脚本的GUI
phantomjs
我正在使用phantomjs来构建一个网络
爬虫
。我目前使用的
爬虫
是一个使用selenium的
Python
脚本,它需要一个正在运行的Firefox浏览器。虽然Selenium非常适合于调试脚本(因为我可以使用firebug来检查网页),但是如果没有GUI,它就不能部署到
linux
服务器上。因此,我正在尝试将我的
Python
脚本转换为phantomjs。 为了调试phantomjs脚本,我将页面源代码html保存到磁盘并呈现png屏幕截图,然后在Firefox中打开它以检查源页面。
浏览 1
提问于2013-07-31
得票数 6
1
回答
如何在windows上安装
python
-spidermonkey
python
我正在写一些使用
python
机械化的脚本。我遇到的一个问题是,很难找到哪些支持javascript的web客户端抓取或
爬虫
。我找到了一些,比如
python
-spidermonkey和pykhtml,但大多数都只在
Linux
上支持。 我想用exe文件制作我的
python
脚本,所以我一定要安装在windows平台上。我的问题是,有没有在Windows上安装
python
-spidermonkey或pykhtml的方法?
浏览 0
提问于2009-11-13
得票数 0
1
回答
使用Qt作为纯终端应用的Web
爬虫
c++
、
qt
、
web-crawler
我在GUI环境中使用Qt创建了一个用于特定任务的简单web
爬虫
。现在,我想将它自动化(使用cron),并使用纯非GUI环境所必需的。我试图将代码移植到一个非GUI应用程序,但没有成功。(
Linux
终端)。我读过一些类似的问题,我认为这是不可能的,但我仍然有一些疑问。 根据的说法,我可以在终端上运行我的网络
爬虫
,但是我必须使用一个假服务器。今后,我将探索用于此
浏览 0
提问于2012-09-20
得票数 1
3
回答
如何从另一个网站“抓取”内容
web-crawler
、
archive
我的一个朋友问我这个问题,我无法回答。它的工作原理是这样的,你像something.com这样进入你的网站,然后我们的网站抓取该网站上的内容,比如图片,然后所有这些都上传到我们的网站上。然后,即使支持something.com的服务器宕机,人们也可以在我们的site.com/omething.com上查看该站点的精确副本。
浏览 2
提问于2010-08-01
得票数 0
回答已采纳
1
回答
客户端操作系统上的DNS查询是否序列化?
asynchronous
、
dns
、
web-crawler
即使您在
Linux
或windows上发出多个并行异步DNS解析请求(以编程方式),操作系统是否会序列化这些请求,并且不会将它们全部并行发送出去?当我在一些地方读到gethostbyname或DNS APIs在最低层序列化时,甚至有人编写了这个async-dns
python
库来戏剧性地加速DnsResolve解析。想象一下一个网络
爬虫
场景,我需要每秒大量的dns查询,在一些早期的网络
爬虫
出版物中,提到dns成为瓶颈。
浏览 1
提问于2010-12-10
得票数 2
回答已采纳
1
回答
scrapyd deploy显示0个蜘蛛
python
、
scrapy
project = scrapBib'Building egg of scrapBib-1346242513 'build/bdist.
linux
-x86_64' does not exist -- can't clean it22,127.0.0.1] 127.0.0
浏览 2
提问于2012-08-29
得票数 5
回答已采纳
1
回答
弹性豆杆不运行的克隆约伯
python
、
amazon-web-services
、
cron
、
crontab
、
amazon-elastic-beanstalk
我在一个弹力豆茎应用程序上有一个抓取器,我可以像这样运行SSH: 我想帮我安排一个任务来处理这个问题。Cron won't r
浏览 0
提问于2015-04-13
得票数 0
1
回答
爬虫
服务器端
linux
、
postgresql
、
server-side
、
web-crawler
我有一个带有PostgreSQL数据库的服务器(
Linux
) (服务器端是用
python
开发的)。我想创建一个系统,以固定的间隔(一天一次..可能一夜之间)从数据库中删除所有过期信息。将这个系统称为“
爬虫
”正确吗?
浏览 2
提问于2013-05-30
得票数 0
回答已采纳
1
回答
将具有动态生成名称的DynamoDB表导出到S3
amazon-s3
、
amazon-dynamodb
、
aws-glue
我将时间序列数据存储在每日生成的DynamoDB表()中。这些表的命名惯例是"timeseries_ 2019-12-20 ",其中2019-12-20为当前日期。我想以CSV格式将前一天表发送到S3桶。推荐的方法是什么?我在看AWS Glue,但不知道如何让它每天找到新的表名。也许有云观察事件的lambda函数会更好?DynamoDB表的大小不大,存储了几百个数字。
浏览 4
提问于2019-12-21
得票数 0
回答已采纳
2
回答
使用scrapy
python
的.net框架
c#
、
python
、
scrapy
、
ironpython
可以在
Python
框架中使用.NET框架从不同的站点抓取数据吗?我正在做我的最后一年的项目,在这个项目中,我想使用C#作为前端语言,并使用
Python
来抓取数据。
浏览 0
提问于2014-05-07
得票数 4
3
回答
将数据从PHP脚本传递到
Python
Web Crawler
php
、
python
、
stdout
、
stdin
、
web-crawler
我有一个
python
爬虫
,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示
爬虫
获得的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发
爬虫
程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的
python
脚本?然后我在考虑使用一个共享文件,php在其中写入数据,
python
从中读取数据。但是,我需要一些方法来让
python
脚本知道,新数
浏览 1
提问于2011-03-31
得票数 1
1
回答
如果我为我的
python
脚本做了一个简单的gui,它会影响它的效率吗?
python
、
user-interface
、
tkinter
嗨,我想做一个网页
爬虫
,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络
爬虫
效率降低吗? 我需要
爬虫
尽可能高效,能够尽可能快地处理数据。为这个
Python
脚本制作一个gui,会不会妨碍web
爬虫
的性能?
浏览 3
提问于2015-01-27
得票数 0
回答已采纳
1
回答
如何轻松地在远程github分支和本地分支/文件夹之间切换?
python
、
git
、
github
、
scrapy
我用
Python
2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持
Python
3,这种转换必须在1 go内完成。我只能在
Python
3
爬虫
做好部署准备之后才能开始使用。现在,由于“所有操作都必须保持活动状态”,我需要一个单独的
Python
3
爬虫
的远程分支。这个分支可以称为Remote-B。我手动创建了这个分支,所以整个存储库现在有两个分支: Master(Remote-A)和
Python
3
爬虫
(Remote-B),后者是主分支的一个
浏览 3
提问于2019-09-10
得票数 0
回答已采纳
1
回答
如何创建包含驱动程序的
python
selenium应用程序?
python
、
selenium
我刚刚开始学习
python
和爬行。那么,是否必须在服务器上安装chrome才能让
爬虫
运行??如何将二进制文件与应用程序一起发布?同样,我使用的是
linux
,因此部署此应用程序的服务器必须是
linux
??或者我如何实现it.Can ?有人可以帮助我创建这个
爬虫
的应用程序并将其提供给其他人吗?谢谢您:)
浏览 2
提问于2019-12-11
得票数 3
1
回答
我怎么能强制停止我的
爬虫
得到一个特定的网址抓取最后一次?
python
、
beautifulsoup
、
scrapy
、
web-crawler
、
html-parsing
我正在制作一个
爬虫
来找出最近添加的youtube视频,当我的
爬虫
到达旧视频(在前一个转弯中爬行)时,我想停止
爬虫
。我使用的不是scrapy和漂亮的汤,我使用的是
python
库。请给我推荐任何选项
浏览 9
提问于2017-06-27
得票数 0
2
回答
PHP与
php
、
python
、
web-crawler
我计划制作的网络
爬虫
,可以抓取200+领域,哪一种语言将适合它。我非常熟悉PHP,但我是
Python
的业余爱好者。
浏览 2
提问于2014-11-21
得票数 0
回答已采纳
1
回答
如何提取我的
爬虫
目前所站的网址?
python
、
scrapy
、
web-crawler
我正在使用
python
中的scrapy框架制作一个web
爬虫
。其主要思想是,
爬虫
从页面中提取一些数据,如果数据符合某些条件,
爬虫
应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL?
浏览 5
提问于2016-11-27
得票数 0
回答已采纳
1
回答
分布在不同地理位置的
爬虫
python
、
web-crawler
、
nutch
我需要创建一个
爬虫
与客户端在每个台式机和一个中央服务器,其中的数据是索引。有没有可能在Nutch中创建这样的
爬虫
?还有没有别的选择。基于
Python
的
爬虫
会更好。
浏览 2
提问于2011-07-04
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Linux系统布置python爬虫时遇到的问题——PYTHONPATH
Python爬虫入门3 爬虫必备Python知识
Python爬虫
python爬虫
Python 爬虫(五)
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券