腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如果我们要用Hadoop和Solr做一个搜索引擎,NUTCH的作用是什么?
solr
、
hadoop
、
nutch
我想做一个搜索引擎。我想在其中爬行一些网站,并将其索引和信息存储在Hadoop中。然后使用Solr搜索就可以了。但我面临着很多问题。如果在google上搜索,那么不同的人会给出不同的建议和不同的配置方式来设置基于hadoop的搜索引擎。以下是我的一些问题:2) Solr有什么用?如果NUTCH完成了抓取,并将抓取的索引和信息存储到Hadoop中,那么Solr的作用是什么?4) Solr如何与Hado
浏览 2
提问于2012-09-06
得票数 3
1
回答
仅使用urllib2下载html页面
python
、
beautifulsoup
、
urllib2
我正试着用urllib2和美汤来
爬
网。但我的代码内存不足,一些链接如下所示: 是个
视频
下载链接。当我使用urllib2.urlopen()时,它将下载
视频
,这不是我想要的。如果url指向
视频
文件或其他文件,我基本上想跳过它,但我不知道如何做到这一点。
浏览 2
提问于2012-11-14
得票数 1
回答已采纳
1
回答
爬
“UserWarning”我该
怎么
办?
python
、
selenium
、
web-scraping
、
beautifulsoup
、
web-crawler
怎么
了?我怎样才能解决这个问题?
浏览 4
提问于2020-07-02
得票数 0
回答已采纳
1
回答
禁用爬行子域google爬虫
web-crawler
、
google-crawlers
我想知道我
怎么
能不允许谷歌爬行我的子域名?另一个曾经是子域。我想说的是谷歌不应该
爬
这个,但我不知道
怎么
爬
。 我在awesom媒体文件夹中没有robot.txt,但正如您在/部件中所看到的那样。我
怎么
能告诉google不要爬行子域
浏览 5
提问于2014-09-08
得票数 1
回答已采纳
0
回答
scrapy
怎么
实现自定
爬
取深度?
python
、
scrapy
我想实现对一个网址的图片进行下载,然后对该网址里面所有a标签里面的链接的图片进行下载,以此类推,这是我写的代码,求教大佬
怎么
做到在spider里用循环实现自定义深度啊 name = 'test_spider' url = input("请输入要
爬
取的网址
浏览 209
提问于2020-04-13
1
回答
SharePoint2010 search中的索引数据库和属性数据库有什么不同?
search
、
sharepoint-2010
SharePoint2010 search中的索引数据库和属性数据库有什么不同?
浏览 5
提问于2011-02-15
得票数 0
回答已采纳
1
回答
Python Scrapy - IP网络掩蔽
python
、
web-scraping
、
scrapy
我试着刮example.com,但是在
爬
了100页之后,网站被封锁了。AWS是否有助于避免阻塞?
浏览 3
提问于2014-01-29
得票数 1
回答已采纳
2
回答
当列表中的URL较多时,Import.io大容量提取速度会变慢
python
、
import.io
我已经设置了一个Import.io批量提取,可以很好地处理50个URL。它几乎可以在几秒钟内快速浏览所有这些内容。然而,当我尝试提取40,000个URL时,对于前1000个URL,提取器启动得非常快,然后逐渐变慢,每增加一个URL。到了5000年,每个URL大概需要4-5秒。有没有人经历过这种情况,如果有,他们有没有更优雅的解决方案?
浏览 0
提问于2015-07-14
得票数 4
1
回答
谷歌网站地图和Robots.txt问题
sitemap
、
robots.txt
在我们的网站上有一个网站地图另外,我在站长中心有一个解析结果,上面写着:“第21行:爬行延迟: 10规则被Googlebot忽略”。什么意思?谢谢。
浏览 3
提问于2009-09-28
得票数 1
1
回答
已暂停
爬
网问题的计划增量
爬
网行为
sharepoint
它将在下一次计划的增量
爬
网时恢复还是需要手动恢复?
浏览 12
提问于2019-12-20
得票数 0
4
回答
Scrapy问题
python
、
web-crawler
、
scrapy
我正在尝试让SgmlLinkExtractor正常工作。SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None)所以,我进入 rules = (Rule(SgmlLinkExtractor(allow=(&
浏览 1
提问于2009-11-28
得票数 9
回答已采纳
3
回答
C++ Win32如何创建“切换”按钮
c++
、
winapi
、
button
、
toggle
我原本以为这样做是非常容易的。谷歌搜索返回了除了这个以外的一切结果。我找到了一个能做我想做的事情的函数,但是只有在按钮保持焦点的情况下才能工作,点击其他地方,它就会再次上升。有什么真正的办法吗?还是我需要用手做这种事?
浏览 2
提问于2013-08-22
得票数 1
回答已采纳
2
回答
rapidminer是否可以从URLS列表中提取xpath,而不是先保存HTML页面?
xpath
、
screen-scraping
、
web-scraping
、
data-mining
、
rapidminer
(与RapidMiner中的“
爬
网”操作符相比,它有更多的选项) 我看过Neil Mcguigan的以下教程:。但我试图抓取的网站有数千个页面,我不想把它们都存储在我的pc上。
浏览 1
提问于2012-01-28
得票数 2
2
回答
获取爬行信息的SharePoint接口
sharepoint
、
moss
我正在尝试创建一个自定义报告,它显示当前的
爬
网时间/持续时间,状态是完全
爬
网还是增量
爬
网。 有谁知道我可以用什么API来获取这样的信息?
浏览 0
提问于2009-06-01
得票数 0
回答已采纳
1
回答
Nutch Crawler读取分段结果
apache
、
nutch
、
web-crawler
我使用apache-nutch-crawler1.6进行爬行。在爬行之后,当我尝试使用命令读取爬行结果的内容时错误是 Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/home/ubuntu/nutch/framework/apache-nutch-1.6/blogs/segments/20
浏览 0
提问于2013-06-21
得票数 1
1
回答
即使网址从seed.txt中删除,网站也会被爬行(Nutch2.1)
nutch
、
web-crawler
我尝试检查隐藏的种子文件,但没有找到,并且在我运行
爬
网命令的NUTCH_HOME/ run /local中只有一个文件夹urls/seed.txt。请告诉我可能是什么问题?
浏览 1
提问于2013-04-17
得票数 1
1
回答
Solr 5.0和Nutch 1.10
solr
、
nutch
我发出的命令如下:据我所知,2是爬行的轮数。当我执行此命令并读取crawldb时,我只收到127个url,这比预期的要少得多。当我发出这个命令将数据传递给Solr时:然后执行搜索,那么我总共只得到了20个url。
浏览 0
提问于2015-06-03
得票数 0
1
回答
不确定是否保留这个(无索引问题)
seo
<meta name="robots" content="noindex,follow">亲切的问候
浏览 0
提问于2017-12-08
得票数 0
3
回答
当添加新页面时,Nutch会自动抓取我的站点吗?
nutch
当我向网站添加新页面时,会自动
爬
网吗?
浏览 4
提问于2009-11-25
得票数 0
1
回答
单击链接,Crawler
javascript
、
php
、
jquery
、
laravel
有没有可能通过某种方式点击这个div,它会生成一个我需要抓取的URL?下面是我需要单击的按钮的HTML: <div> </div> <div id="
浏览 1
提问于2018-11-26
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬取视频
python大佬云盘800G视频,怎么爬视频以及内容是什么,我脸红了!
Python爬取腾讯视频评论
快手短视频爬取经验分享
用Python爬视频超级简单的!
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券