腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3995)
视频
沙龙
2
回答
使用机械化来检索
网站
的所有链接
、
、
、
如何
使用Mechanize库查找
网站
上的所有链接? 我喜欢递归地解析内部链接,以便抓取一个
网站
的所有链接。
浏览 0
提问于2012-07-23
得票数 2
回答已采纳
1
回答
Nutch API建议
、
、
我正在做一个项目,我需要一个成熟的
爬虫
来做一些工作,我正在为这个目的评估Nutch。我目前的需求相对简单:我需要一个能够将数据保存到磁盘的
爬虫
程序,并且我需要它能够仅重新
爬
取
站点的更新资源,并跳过已经
爬
取
的部分。有没有人有在Java中直接使用Nutch代码的经验,而不是通过命令行。我想从简单开始:创建一个
爬虫
(或类似的),最低限度地配置它并启动它,没有任何花哨的东西。有没有这方面的例子,或者我应该看看的资源?在不需要索引和搜索的情况下,Nutch爬行模块的可用性
浏览 0
提问于2010-12-03
得票数 6
回答已采纳
1
回答
JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程
、
、
我目前正在构建这个网络
爬虫
来获取起始url的所有链接,并从这些链接中
爬
取
所有链接,等等。我还注意到,一旦我运行我的
爬虫
,我的互联网开始崩溃,这意味着
网站
不会加载,直到我打开我的网络
爬虫
。我想我发送了太多的http请求。如果有人知道
如何
限制线程或修复以下错误: java.lang.outOfMemory :无法创建本机线程
浏览 1
提问于2012-05-02
得票数 0
回答已采纳
2
回答
我
如何
“获得”数据的所有酒吧/俱乐部在美国的数据库。Yelp API?
、
、
、
、
我
如何
才能现实地实现我的目标?
浏览 0
提问于2011-01-18
得票数 1
2
回答
Google Adsense是
如何
获得页面主题的?
我已经构建了一个web应用程序。问题是,广告中的产品几乎总是一样的,即使我的webapp是一个任务/项目管理工具,我猜有很多产品是用Google Adsense做营销的。我猜它可能使用了某种缓存。谢谢,汤姆
浏览 6
提问于2010-10-04
得票数 1
1
回答
Crawler4j计算页面深度
、
、
、
我正在用groovy & grails和mongodb开发一个网络
爬虫
,有没有办法用crawler4j计算页面的深度?我知道我可以限制到我想要
爬
取
的深度,但还没有遇到任何建议
如何
计算页面深度的东西。
浏览 2
提问于2014-06-26
得票数 0
1
回答
分布式系统中的任务分配
、
我想抓取
网站
和写入输出到Solr与我的应用程序。我的
爬虫
使用卡夫卡把爬行的
网站
对象的一个主题和水槽将重定向输出到Solr。有多个
爬虫
产生数据卡夫卡。我的问题是:当一个
爬虫
想要
爬
一个
网站
,其他
爬虫
不应该尝试爬行它。
如何
在分布式环境中与它们通信?
浏览 0
提问于2017-06-01
得票数 2
1
回答
Sharepoint 2010搜索不会为自定义字段建立索引
、
我正在尝试创建一个托管元数据字段,但它没有显示在我的
爬
网列中。它是一个自定义字段。我不确定哪里出了问题,但当我搜索时,我唯一的结果是查看与列表相关的所有项目页面。它似乎不会搜索列表项本身。
浏览 1
提问于2010-06-15
得票数 1
1
回答
php
如何
禁止从url直接访问
网站
页面?
、
有些人会通过url直接访问文章页面进行抄袭,所以想禁止通过url直接访问
网站
的行为。再次深表感谢!
浏览 276
提问于2023-02-24
1
回答
如果我们要用Hadoop和Solr做一个搜索引擎,NUTCH的作用是什么?
、
、
我想在其中爬行一些
网站
,并将其索引和信息存储在Hadoop中。然后使用Solr搜索就可以了。但我面临着很多问题。以下是我的一些问题:2) Solr有什么用?4) Solr
如何
与Hadoop通信?我真的真的被这个卡住了。
浏览 2
提问于2012-09-06
得票数 3
1
回答
在if语句下索引链接?
、
、
、
索引Google会有任何链接在if语句下吗? <a"; if($user_category=="register2"){ $link="href='".$databaselink; echo $link;}"> BOOK</a>抓取可以看到并将被索引的链接的WIll?
浏览 0
提问于2013-01-06
得票数 0
2
回答
大神有没有研究过美团的_token生成方法?
、
、
如题,我最近在做一个数据分析,想要用到美团的美食信息,于是就想用python
爬
取
美团的数据,但是在构造
爬虫
的时候发现美团有一个_token参数,百思不得其解,还请大神指教
浏览 2213
提问于2018-09-12
3
回答
网络
爬虫
的更新间隔是多少?
、
我目前正在做我自己的网络
爬虫
,我想知道…你应该每天重温一次吗?每小时一次?我真的不know...has任何人在这件事上的一些经验?
浏览 0
提问于2010-07-10
得票数 1
回答已采纳
1
回答
Web抓取HTML与浏览器结果不同
、
、
、
对于我的项目,我需要谷歌搜索结果。我使用的是python请求和BeautifulSoup。我得到了结果,但它们与我在浏览器上看到的结果不同。我需要显示在我的浏览器上的确切内容。我也尝试过urllib。但它也不同于web结果。有人能帮我解决这个问题吗?import bs4 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:49.0) Gecko/2010010
浏览 29
提问于2019-06-02
得票数 0
1
回答
谷歌搜索控制台上受robots.txt错误限制的URL
我正在子域上创建一个wordpress站点,并且我面临着这样的错误:站点地图包含被robots.txt阻止的urls。在google搜索控制台上
浏览 2
提问于2018-05-20
得票数 0
2
回答
Facebook粉丝从何而来?
、
我想知道从什么时候起Facebook上的粉丝就是粉丝了?我想出的唯一办法就是抓取粉丝页面的整个feed,然后像墙上的帖子一样追踪第一个帖子。然而,这种方法并不十分准确。
浏览 2
提问于2011-05-19
得票数 0
回答已采纳
1
回答
单个IP请求的精确限制
、
、
、
我正在开发一个应用程序,它从所有字母中获取前20个页面。基本上,在这个时候没有限制的问题。但是我需要知道每秒从一个IP地址发出的请求的确切数量是多少?
浏览 1
提问于2011-11-16
得票数 0
回答已采纳
1
回答
如何
抓取受登录保护的站点或页面?
、
、
我想抓取一个
网站
,这是必要的访问,以查看网页。我可以
爬
客网页,但
如何
抓取登录保护网页?如果有人共享一些步骤来配置或跳过身份验证机制来使用storm
爬虫
爬行页面,那将是非常棒的。 先谢谢你。
浏览 5
提问于2021-04-12
得票数 0
回答已采纳
1
回答
不允许所有的用户代理,除了一个用户代理?
如何
不允许除一个用户代理之外的所有用户代理?例如,所有用户代理都不允许,但只允许Googlebot?
浏览 0
提问于2015-11-09
得票数 0
回答已采纳
4
回答
降低
网站
爬行速度
、
、
、
有没有办法迫使
爬虫
放慢对
网站
的爬行速度?可以放在headers或robots.txt中的内容吗? 我想我记得我读过一些关于这是可能的东西,但现在找不到任何东西。
浏览 2
提问于2010-01-30
得票数 6
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
十年python大牛解析反反爬虫,高效爬取,再也不怕网站反爬虫策略
网络爬虫该如何爬取海外网站?爬虫代理IP要该如何选择?
如何合理控制爬虫爬取速度?
Python爬虫实例-爬取网站的备案信息
爬虫初体验:爬取学校网站所有图片
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券