腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Elasticsearch HTTP API或python API
python
、
api
、
rest
、
elasticsearch
、
elasticsearch-py
我是一个实时分布式搜索引擎elasticsearch的新手,但我想问一个
技术
问题。真正的问题如下所示。哪种
技术
更适合我的场合?
浏览 4
提问于2015-12-01
得票数 1
1
回答
最好的
爬虫
确定与
技术
建设?
web-crawler
Builtwith.com和类似的服务(收费)提供了使用SalesForce或NationBuilder等特定
技术
构建的域列表。有一些
技术
,我感兴趣的,与建设不扫描,可能是因为他们太小的市场存在。如果我们知道某个网页的某些签名显示了一种
技术
是用于一个网站,什么是最好的方式来识别尽可能多的这些网站?我们预计有1000个网站,我们感兴趣的是那些排名前一千万的网站。(我们不认为最大的网站使用这种
技术
。) 我有一个开源网络
爬虫
列表-- --但是我的用例似乎与
爬虫
的许多常规标准不同,因为我们只想
浏览 2
提问于2017-03-28
得票数 3
回答已采纳
3
回答
Kentico 10使用的Web Crawler引擎
web-crawler
、
kentico
根据文档,是否有更多关于Kentico 10使用的网络
爬虫
技术
/引擎的信息?我之所以问这个问题,是因为我想把它用于一个定制的
爬虫
项目,这个项目可以位于Kentico之外,并且仍然允许它与Kentico平台具有内在的兼容性。
浏览 0
提问于2017-08-31
得票数 7
回答已采纳
3
回答
聚合器是如何构建的?
web-services
、
aggregation
、
web-crawler
、
nutch
比方说,我想要从许多来源(可以是旅行、
技术
或其他任何来源)聚合与特定利基相关的信息。我该怎么做呢?或者Kayak.com如何聚合他们的数据?(这是一项旅游聚合服务。)
浏览 2
提问于2009-05-29
得票数 14
2
回答
SEO + ViewState =只适用于
爬虫
?是隐形吗?
.net
、
c#
、
cloaking
这里有足够多的问号,所以我想避免这种
技术
。我对这两种情况都不满意,也找不到更多关于这个话题的东西。我潜在的解决方案是,只有当ViewState是一个
爬虫
时,才将UserAgent移动到页面底部,从而将这些
技术
结合起来。
爬虫
不使用ViewState,所以将ViewState
浏览 0
提问于2013-05-01
得票数 2
1
回答
在性能方面,为什么facebook不一次加载所有的JS文件?
performance
、
seo
所以,虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件),但我的问题是更通用的网站和网络
爬虫
的状态。我们应该担心这些
技术
(通过ajax加载主要内容)会影响网络
爬虫
(googlebot和朋友)吗?我想提高性能,加载“稍后需要”的内容(text/js/css)似乎是个好主意,但如果
爬虫
不能使用(当然是内容),就不是一个好主意。 谢谢!
浏览 2
提问于2013-03-18
得票数 3
1
回答
抓取AJAX请求
ajax
、
seo
、
web-crawler
基于日志,
爬虫
试图像正常gets一样访问这些AJAX方法,因此我的应用程序会记录错误。我将这些AJAX方法设置为不可爬行,这意味着当请求不是AJAX调用时,我将返回404。这是最好的方法吗?
浏览 4
提问于2014-11-03
得票数 0
2
回答
风暴
爬虫
-
技术
栈和Apache Nutch
web-crawler
、
apache-storm
、
nutch
、
stormcrawler
我听说Apache可以解决这个问题,但遗憾的是,它所需要的
技术
栈已经相当陈旧了。我不想把hadoop从2.6降到更早的版本,Elasticsearch降到1.7/1.4,所以我把注意力转移到了风暴
爬虫
上。由于我使用Hadoop2.6、ElasticSearch2.0和Hbase 1.1.3,有人能告诉我是否可以使用风暴
爬虫
0.9吗?
浏览 3
提问于2016-04-06
得票数 1
回答已采纳
3
回答
寻找关于搜索引擎背后的理论的好书
search
、
search-engine
、
web-crawler
我正在做一个项目,要求我理解搜索引擎在网络上使用的不同
技术
。我是全新的学科,我正在寻找有用的资源和书籍的主题。如有任何建议,敬请见谅。
浏览 0
提问于2011-09-03
得票数 8
回答已采纳
1
回答
抓取器正在获取相关链接。
python
、
scrapy
我已经创建了一个使用scrapy.The
爬虫
爬虫
的网站和抓取链接。**所使用的
技术
:**Python,Scrapy Error抓取相对urls,因为刮刀器无法抓取网页。我要
爬虫
只取无源网址。
浏览 2
提问于2021-06-29
得票数 1
2
回答
我们还应该关心ajax爬行规范吗?
ajax
、
seo
、
web-crawlers
、
single-page-application
、
googlebot
似乎是谷歌
爬虫
运行js。但是ajax爬行文档
技术
仍然可以在谷歌开发者的网站上使用。 它们是否仍然有效,是否有必要加以遵循?
浏览 0
提问于2015-11-28
得票数 5
1
回答
学习多线程Java
爬虫
的良好开端
java
、
multithreading
、
web-crawler
我正在用Java开发一个网络
爬虫
。我正在寻找一个很好的项目开发这个
爬虫
的基础上。然而,实际上有超过几百个用Java编写的
爬虫
程序。我要找的是一个相当简单的
爬虫
,它有: 基于最新的Java构建和新的functionalityGood performanceImplemented好documentationNot的多线程documentationNot
浏览 1
提问于2012-04-16
得票数 0
回答已采纳
1
回答
获得由Shodan爬行的Screen发URL
shodan
当shodan爬行一个IP时,需要一个基于某种
技术
的屏幕截图(?)尽管如此,肖丹拍摄的大部分截图都是来自IP摄像头。 有什么方法可以访问
爬虫
在上面找到图像的URL吗?
爬虫
找到了"rtsp://blargh.com/1/stream",拍了一张那条小溪的截图。我能以某种方式访问这个确切的URL吗?
浏览 0
提问于2021-03-14
得票数 0
回答已采纳
9
回答
如何防止所有
爬虫
,除了好的(谷歌,必应,雅虎)访问网站内容?
web-crawler
我只想让谷歌,必应,雅虎爬行我的网站建立索引。但我不希望我的对手网站使用抓取服务来窃取我的网站内容。我该怎么办?
浏览 6
提问于2010-03-09
得票数 2
2
回答
使用单个Web
爬虫
以预定义的格式抓取多个带有附件的网站?
python
、
scrapy
、
web-crawler
基于我的无知和缺乏研究,我开始构建每个网页的
爬虫
,这开始变得难以完成和维护。 根据我到目前为止的分析,我已经知道我想在每个网页上抓取什么信息,很明显,这些网站都有自己的结构。我的百万美元的问题,有没有一个单一的
技术
或单一的网络
爬虫
,我可以用来抓取这些网站?我已经知道我想要的信息,这些网站很少在其网站结构方面进行更新,而且大多数网站都有需要下载的文档。或者,有没有更好的解决方案,可以减少我需要构建的网络
爬虫
的数量?此外,这些网络
爬虫
将仅用于下载我针对的网站的新信息。
浏览 3
提问于2019-04-29
得票数 0
1
回答
怎样才能做出完美的释义呢?
python
、
python-3.x
参考答案:,我尝试修改这个示例,如下所示。上面链接中的答案中的Google API对me.So不起作用,我修改了下面的示例:import json content= gs.translate(text, lang2) trans_dict=json.loads(content) try:
浏览 0
提问于2017-06-05
得票数 0
1
回答
如何抓取外部web搜索
c#
、
web
、
web-crawler
、
robots.txt
例如,以下内容:它显示以下结果:单击每个名称旁边的任意一组数字将显示信息,例如:为了这个目的,我查看了抓取器、arachnode和其他网络
爬虫
,但我不太相信这是适合它的
技术
爬虫
能像用户一样爬行搜索吗?
浏览 2
提问于2014-05-30
得票数 0
回答已采纳
1
回答
抓取
爬虫
:无法将多个urls存储到postgres中
python
、
postgresql
、
scrapy
我使用刮伤python.I创建了一个
爬虫
,我想将由
爬虫
获取的多个urls存储到postgres table.When中,启动
爬虫
,抓取urls并将表创建到postgres中,但是数据没有被存储。使用的
技术
: Scrapy错误:我无法存储所有的urls.The
爬虫
并不适用于所有的网站。
浏览 0
提问于2021-12-15
得票数 0
3
回答
AWS Glue Crawler -读取csv的gzip文件
amazon-web-services
、
aws-glue
你能帮我用胶水数据
爬虫
读取一个tar.gz文件吗?我的S3中有一个tar.gz文件,其中包含两个不同模式的文件,当我尝试运行
爬虫
程序时,我在数据目录中看不到该模式。我们应该使用任何自定义分类器吗?
浏览 32
提问于2018-02-16
得票数 2
1
回答
无法在BlueMix容器中添加多个自定义日志
logging
、
containers
、
ibm-cloud
、
websphere-liberty
容器
爬虫
技术
有什么已知的问题吗?我可以做些什么来检查这些环境变量是否被正确地传递到
爬虫
程序中?
浏览 0
提问于2015-11-15
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
什么是爬虫技术?
我的爬虫技术经历
QQ好友说说爬虫技术详解
大数据的宠儿——爬虫技术
Python大佬分享爬虫的例子,教你快速掌握Python爬虫技术!
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券