腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
分布式系统中的任务分配
java
、
apache-kafka
我的
爬虫
使用卡夫卡把爬行的网站对象的一个
主题
和水槽将重定向输出到Solr。有多个
爬虫
产生数据卡夫卡。 我的问题是:当一个
爬虫
想要爬一个网站,其他
爬虫
不应该尝试爬行它。如何在分布式环境中与它们通信?
浏览 0
提问于2017-06-01
得票数 2
1
回答
Beautifulsoup4未返回页面上的所有链接
python
、
python-3.x
、
beautifulsoup
、
web-crawler
、
html-parsing
我正在用
Python
3.5开发一个网络
爬虫
。使用请求和Beautifulsoup4。我正在尝试获得所有
主题
的链接在论坛的第一页。并将它们添加到列表中。我有两个问题: 1)不确定如何使用beautifulsoup获得链接,我无法进入链接本身,只有div 2) Beautifulsoup似乎只返回了几个
主题
,而不是所有的
主题
。
浏览 1
提问于2015-10-28
得票数 1
1
回答
弹性豆杆不运行的克隆约伯
python
、
amazon-web-services
、
cron
、
crontab
、
amazon-elastic-beanstalk
我在一个弹力豆茎应用程序上有一个抓取器,我可以像这样运行SSH: 我想帮我安排一个任务来处理这个问题。Cron won't r
浏览 0
提问于2015-04-13
得票数 0
1
回答
如何让一个网络
爬虫
对用户查询的信息进行搜索,并访问作为搜索结果的链接?
java
、
web
、
web-crawler
如何让一个网络
爬虫
对用户查询的信息进行搜索,并访问作为搜索结果的链接?比方说,如果用户对某个
主题
提出了一些问题,
爬虫
必须访问only.Can的一些顶级链接,有人告诉我如何做到这一点吗?
浏览 0
提问于2012-04-16
得票数 1
2
回答
Facebook机器人是否停止了对?_escaped_fragment= AJAX爬行的坚持?
ajax
、
facebook
、
bots
、
shebang
很长一段时间以来,当#!somethingLikeThis包含?_escaped_fragment=somethingLikeThis时,它可以为机器人提供页面,而在幕后,机器人会以?_escaped_fragment=somethingLikeThis的形式请求它,但这似乎不再起作用了。有官方说明这是为什么吗?
浏览 1
提问于2018-03-08
得票数 0
回答已采纳
1
回答
使用Kafka
主题
将种子url提供给Storm Crawler
apache-kafka
、
apache-storm
、
stormcrawler
我们想从卡夫卡
主题
的种子URL馈送到基于StormCrawler的项目。有必要更换风暴
爬虫
吗?
浏览 5
提问于2020-10-14
得票数 0
1
回答
将具有动态生成名称的DynamoDB表导出到S3
amazon-s3
、
amazon-dynamodb
、
aws-glue
我将时间序列数据存储在每日生成的DynamoDB表()中。这些表的命名惯例是"timeseries_ 2019-12-20 ",其中2019-12-20为当前日期。我想以CSV格式将前一天表发送到S3桶。推荐的方法是什么?我在看AWS Glue,但不知道如何让它每天找到新的表名。也许有云观察事件的lambda函数会更好?DynamoDB表的大小不大,存储了几百个数字。
浏览 4
提问于2019-12-21
得票数 0
回答已采纳
2
回答
使用scrapy
python
的.net框架
c#
、
python
、
scrapy
、
ironpython
可以在
Python
框架中使用.NET框架从不同的站点抓取数据吗?我正在做我的最后一年的项目,在这个项目中,我想使用C#作为前端语言,并使用
Python
来抓取数据。
浏览 0
提问于2014-05-07
得票数 4
3
回答
将数据从PHP脚本传递到
Python
Web Crawler
php
、
python
、
stdout
、
stdin
、
web-crawler
我有一个
python
爬虫
,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示
爬虫
获得的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发
爬虫
程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的
python
脚本?然后我在考虑使用一个共享文件,php在其中写入数据,
python
从中读取数据。但是,我需要一些方法来让
python
脚本知道,新数
浏览 1
提问于2011-03-31
得票数 1
1
回答
如果我为我的
python
脚本做了一个简单的gui,它会影响它的效率吗?
python
、
user-interface
、
tkinter
嗨,我想做一个网页
爬虫
,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络
爬虫
效率降低吗? 我需要
爬虫
尽可能高效,能够尽可能快地处理数据。为这个
Python
脚本制作一个gui,会不会妨碍web
爬虫
的性能?
浏览 3
提问于2015-01-27
得票数 0
回答已采纳
1
回答
如何轻松地在远程github分支和本地分支/文件夹之间切换?
python
、
git
、
github
、
scrapy
我用
Python
2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持
Python
3,这种转换必须在1 go内完成。我只能在
Python
3
爬虫
做好部署准备之后才能开始使用。现在,由于“所有操作都必须保持活动状态”,我需要一个单独的
Python
3
爬虫
的远程分支。这个分支可以称为Remote-B。我手动创建了这个分支,所以整个存储库现在有两个分支: Master(Remote-A)和
Python
3
爬虫
(Remote-B),后者是主分支的一个
浏览 3
提问于2019-09-10
得票数 0
回答已采纳
1
回答
如何检测Nodejs服务器上的crawler流量
node.js
、
express
、
traffic
我已经开发了Nodejs express服务器,我关心的是
爬虫
流量....i意味着如果有人开始向我的服务器发送请求使其宕机,那么如何检测或避免这种情况。 提前谢谢。
浏览 0
提问于2016-04-10
得票数 0
1
回答
我怎么能强制停止我的
爬虫
得到一个特定的网址抓取最后一次?
python
、
beautifulsoup
、
scrapy
、
web-crawler
、
html-parsing
我正在制作一个
爬虫
来找出最近添加的youtube视频,当我的
爬虫
到达旧视频(在前一个转弯中爬行)时,我想停止
爬虫
。我使用的不是scrapy和漂亮的汤,我使用的是
python
库。请给我推荐任何选项
浏览 9
提问于2017-06-27
得票数 0
2
回答
PHP与
php
、
python
、
web-crawler
我计划制作的网络
爬虫
,可以抓取200+领域,哪一种语言将适合它。我非常熟悉PHP,但我是
Python
的业余爱好者。
浏览 2
提问于2014-11-21
得票数 0
回答已采纳
1
回答
在ubuntu的后台运行时,
爬虫
停止。
python
、
web-crawler
我使用具有无限循环的
python
制作了一个简单的
爬虫
,所以它不能停止。随机延迟17 ~ 30,这个
爬虫
爬行相同的一个页面,并找到'href‘链接,定期更新,并存储到Mysql。因为我使用了Linux命令这个
爬虫
是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但
爬虫
突然停止了。第二天我再试一次。
浏览 1
提问于2014-05-20
得票数 0
回答已采纳
2
回答
如何在AWS Glue Crawler中监视和控制DPU使用
amazon-web-services
、
aws-glue
可以在Glue控制台中配置作业和开发端点以消耗更少的DPU,但我还没有看到
爬虫
程序有任何这样的配置。 每个
爬虫
有固定数量的DPU吗?我们能控制这个数量吗?
浏览 0
提问于2018-03-08
得票数 9
1
回答
如何提取我的
爬虫
目前所站的网址?
python
、
scrapy
、
web-crawler
我正在使用
python
中的scrapy框架制作一个web
爬虫
。其主要思想是,
爬虫
从页面中提取一些数据,如果数据符合某些条件,
爬虫
应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL?
浏览 5
提问于2016-11-27
得票数 0
回答已采纳
2
回答
使用移动友好测试和PageSpeed内嵌时测试结果的冲突
google-search-console
、
search-engine-indexing
、
googlebot
、
googlebot-mobile
我们的网站使用开源产品来检测用户代理,并在此基础上向用户服务器移动
主题
或桌面
主题
。因此,如果MFT使用普通的Google请求页面,那么当然会提供桌面
主题
。但是更合适的是,PageSpeed Insight使用移动用户代理来请求页面。因此,它将与移动
主题
服务。页面速度结果给出了移动可用性的100%传递,并在移动设备中正确加载移动
主题
。但另一方面,以下链接的结果是0%的移动可用性传递。我相信可能有1000's的网站,有两个不同的
主题
为移动和桌面用户。 我的问题是:其他人面临着同样的
浏览 0
提问于2015-03-25
得票数 1
1
回答
如何防止搜索引擎对ajax生成的内容进行索引
javascript
、
html
、
ajax
、
seo
就在不久前,谷歌宣布现在它的
爬虫
能够在页面上索引ajax生成的内容(你只需要遵循一些规则)。但在我的例子中,我需要确保任何搜索引擎都不能让爬行我的ajax生成的内容。
浏览 1
提问于2015-07-12
得票数 3
回答已采纳
1
回答
网页爬行技术的信息
web-applications
、
web-crawler
我正在构建一个小型的网络
爬虫
,我想知道是否有人对实际的实现有一些有趣的信息(只是爬行,没有搜索,没有排名,没有分类,只是爬行,亲吻:)。这些书很好,但是它们倾向于保持简单,对于缩放、存储数据、并行的东西和其他更高级的
主题
不详细。当然,我可以检查现有的开源
爬虫
的代码,但是这会发生在另一个边缘(C++
爬虫
看起来很复杂.)。
浏览 5
提问于2009-05-18
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫入门3 爬虫必备Python知识
Python爬虫
python爬虫
Python 爬虫(五)
Python 爬虫(四)
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券