腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
为什么Selenium的程序总是
自动
跳到我的桌面
、
、
、
、
我为
python
-selenium做了一个
自动
爬虫
,但它总是
自动
跳到我的桌面上。请告诉我为什么?
浏览 3
提问于2021-11-20
得票数 0
1
回答
如何用
python
多进程检查网页是否存活
、
我想使用
Python
的多处理库并行执行这些检查。我写了以下代码(主要基于
Python
文档示例),但运行速度似乎相当慢。有什么方法可以让这个脚本运行得更快吗?
浏览 0
提问于2011-08-06
得票数 0
回答已采纳
2
回答
如何在爬行时绕过robots.txt
、
谁能告诉我,如果有任何方法可以忽略或绕过robots.txt爬行。有没有办法修改脚本,让它忽略robots.txt,继续抓取?User-agent: *Disallow:
浏览 3
提问于2015-01-21
得票数 1
1
回答
托管
爬虫
的最佳解决方案?
、
、
、
我有一个
爬虫
,爬行几个不同的领域为新的帖子/内容。总内容数为十万页,每天都有很多新的内容添加。因此,为了能够通过所有这些内容,我需要我的
爬虫
爬行24/7。目前,我将
爬虫
脚本托管在与
爬虫
添加内容的站点相同的服务器上,而且我只能在夜间运行cron作业来运行脚本,因为当我这样做时,网站基本上停止工作,因为脚本的加载。换句话说,一个非常糟糕的解决方案。是否有可能继续从同一主机运行
爬虫
,但在某种程度上平衡负载,以便脚本不会扼杀网站? 我会找什么样的主机/服务器来托管
爬虫</
浏览 3
提问于2014-03-06
得票数 10
回答已采纳
1
回答
Python
爬虫
。解析和执行ajax
、
、
、
我有一个
爬虫
的基本结构。现在我在一些php驱动的网站上发布了它,它就像一个护身符。不过,现在我想让它从ajax内容构建数据表。目前,我正在使用Mechanize for
PYTHON
和perl来构建我的
爬虫
。虽然机械化模块不执行AJAX。如何访问由异步ajax构建的内容?我知道有一种叫做Selenium的东西,一种真正的
自动
化浏览器。但这是我唯一的选择吗?
浏览 2
提问于2012-01-26
得票数 2
回答已采纳
3
回答
scrapy能像Selenium一样控制和显示浏览器吗?
、
、
当我使用Selenium时,我可以看到浏览器GUI,是否可以使用scrapy或严格基于scrapy命令行?
浏览 4
提问于2015-11-03
得票数 1
回答已采纳
1
回答
如何使用漂亮的soup
python
检索最大尺寸的图像
、
、
、
、
我用
python
做了一个
爬虫
,我正在尝试下载这篇文章中的图片--。这个网站的问题是,它会
自动
调整大小,当我尝试下载文章的图片时,它给我的是320像素(太小)。发生这种情况的原因是
爬虫
进入url的源文件(view- source:),它有320个像素。有一种方法可以使图像最大尺寸,或者我如何在浏览器中看到它?
浏览 0
提问于2015-11-30
得票数 2
1
回答
使用Qt作为纯终端应用的Web
爬虫
、
、
我在GUI环境中使用Qt创建了一个用于特定任务的简单web
爬虫
。现在,我想将它
自动
化(使用cron),并使用纯非GUI环境所必需的。我试图将代码移植到一个非GUI应用程序,但没有成功。如果不可能,如何使用Qt为非GUI应用程序编写web
爬虫
程序?我熟悉Qt (当然不是专家),如果可能的话,我想使用它 根据的说法,我可以在终端上运行我的网络
爬虫
,但是我必须使用一个假服
浏览 0
提问于2012-09-20
得票数 1
1
回答
从
python
Django的角度来看,bot与
爬虫
程序不同吗?
、
、
、
、
但我想做一些
python
程序,它的功能与实际用户类似。我的意思是像
自动
化任务。 例如,去www.myblah.com,然后在某个类别中获得最便宜的产品,如果低于我的预设数量,则发送电子邮件给我。
浏览 3
提问于2012-11-13
得票数 3
回答已采纳
2
回答
如何
自动
运行
python
脚本
、
、
如何
自动
运行3个
python
脚本。假设我有3个脚本,分别是a.py、b.py和c.py。 在这里,a.py运行一个网络
爬虫
,并将其另存为xml文件。有没有办法让这一切
自动
化呢?
浏览 0
提问于2012-02-01
得票数 4
1
回答
弹性豆杆不运行的克隆约伯
、
、
、
、
我在一个弹力豆茎应用程序上有一个抓取器,我可以像这样运行SSH: 我想帮我安排一个任务来处理这个问题。Cron won't r
浏览 0
提问于2015-04-13
得票数 0
4
回答
自动
网络
爬虫
、
我正在编写一个
爬虫
,需要从许多网站获取数据。问题是每个网站都有不同的结构。我如何才能轻松地编写一个从(许多)不同网站下载(正确)数据的
爬虫
?如果网站的结构发生变化,我是否需要重写
爬虫
,或者是否有其他方法?谢谢!
浏览 0
提问于2012-07-20
得票数 1
1
回答
从单独的
python
脚本运行爬行器
、
我想知道从另一个
python
脚本运行
爬虫
的最好方法是什么。我的scrapy项目由4个不同的
爬虫
组成,它们都创建了帮助其他蜘蛛工作的文件,其中一些必须读取一些文件才能工作。productToSearchIsBlue): #Make another spider crawl 我的最终计划是将完整的程序上传到云上,并让它
自动
运行
浏览 8
提问于2019-02-05
得票数 0
回答已采纳
1
回答
使用Scrapy,获取"Error: ImportError: No模块名为testspiders.spiders.followall“
、
、
实际上,我是通过node.js运行这个
python
脚本的,它有一个名为的模块,它只允许您使用以下简单代码运行
python
脚本:crawler.configure()crawler.start()reactor.run() 我的目录结构仅通过添加
python
目录和文件以及使用
python
的几行代码从中
浏览 2
提问于2014-10-22
得票数 3
回答已采纳
1
回答
将具有动态生成名称的DynamoDB表导出到S3
、
、
我将时间序列数据存储在每日生成的DynamoDB表()中。这些表的命名惯例是"timeseries_ 2019-12-20 ",其中2019-12-20为当前日期。我想以CSV格式将前一天表发送到S3桶。推荐的方法是什么?我在看AWS Glue,但不知道如何让它每天找到新的表名。也许有云观察事件的lambda函数会更好?DynamoDB表的大小不大,存储了几百个数字。
浏览 4
提问于2019-12-21
得票数 0
回答已采纳
2
回答
使用scrapy
python
的.net框架
、
、
、
可以在
Python
框架中使用.NET框架从不同的站点抓取数据吗?我正在做我的最后一年的项目,在这个项目中,我想使用C#作为前端语言,并使用
Python
来抓取数据。
浏览 0
提问于2014-05-07
得票数 4
1
回答
抓取完成后重新启动crawler
当我的Scrapy
爬虫
完成后,我想
自动
再次启动相同的
爬虫
。这可以通过Scrapy函数来完成吗?或者我是否必须使用Cronjob,例如crontab?
浏览 3
提问于2013-10-23
得票数 1
3
回答
将数据从PHP脚本传递到
Python
Web Crawler
、
、
、
、
我有一个
python
爬虫
,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示
爬虫
获得的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发
爬虫
程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的
python
脚本?然后我在考虑使用一个共享文件,php在其中写入数据,
python
从中读取数据。但是,我需要一些方法来让
python
脚本知道,新数
浏览 1
提问于2011-03-31
得票数 1
1
回答
如果我为我的
python
脚本做了一个简单的gui,它会影响它的效率吗?
、
、
嗨,我想做一个网页
爬虫
,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络
爬虫
效率降低吗? 我需要
爬虫
尽可能高效,能够尽可能快地处理数据。为这个
Python
脚本制作一个gui,会不会妨碍web
爬虫
的性能?
浏览 3
提问于2015-01-27
得票数 0
回答已采纳
1
回答
用Java开发
自动
web
爬虫
我已经使用Java开发了
爬虫
,但在这方面,我们必须通过提供URL和HTML标记来手动抓取网站,并通过连接URL和解析URL来抓取站点,并在相应的HTML标记中获取产品。在这个例子中,我使用JSoup (“doc.getElementsByTagName”);在名为“爬行”的标签中获取产品有可能使
爬虫
自动
化吗?如果是,请帮助我做这
浏览 1
提问于2014-01-20
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券