腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(124)
视频
沙龙
1
回答
Nutch API建议
、
、
我正在做一个项目,我需要一个成熟的
爬虫
来做一些工作,我正在为这个目的评估Nutch。我目前的需求相对简单:我需要一个能够将数据保存到磁盘的
爬虫
程序,并且我需要它能够仅重新
爬
取
站点的更新
资源
,并跳过已经
爬
取
的部分。有没有人有在Java中直接使用Nutch代码的经验,而不是通过命令行。我想从简单开始:创建一个
爬虫
(或类似的),最低限度地配置它并启动它,没有任何花哨的东西。有没有这方面的例子,或者我应该看看的
资源
?
浏览 0
提问于2010-12-03
得票数 6
回答已采纳
1
回答
怎样在不使用API的前提下
爬
取
Twitter数据?
、
、
、
、
由于现在Twitter API 数据
爬
取
付费
,所以我想在不使用Twitter API的情况下使用python
爬
取到特定关键词的Twitter数据或者Reddit数据,有什么好办法吗?
浏览 370
提问于2024-01-06
1
回答
Sharepoint 2010搜索不会为自定义字段建立索引
、
我正在尝试创建一个托管元数据字段,但它没有显示在我的
爬
网列中。它是一个自定义字段。我不确定哪里出了问题,但当我搜索时,我唯一的结果是查看与列表相关的所有项目页面。它似乎不会搜索列表项本身。
浏览 1
提问于2010-06-15
得票数 1
1
回答
Crawler4j计算页面深度
、
、
、
我正在用groovy & grails和mongodb开发一个网络
爬虫
,有没有办法用crawler4j计算页面的深度?我知道我可以限制到我想要
爬
取
的深度,但还没有遇到任何建议如何计算页面深度的东西。
浏览 2
提问于2014-06-26
得票数 0
1
回答
在if语句下索引链接?
、
、
、
索引Google会有任何链接在if语句下吗? <a"; if($user_category=="register2"){ $link="href='".$databaselink; echo $link;}"> BOOK</a>抓取可以看到并将被索引的链接的WIll?
浏览 0
提问于2013-01-06
得票数 0
2
回答
大神有没有研究过美团的_token生成方法?
、
、
如题,我最近在做一个数据分析,想要用到美团的美食信息,于是就想用python
爬
取
美团的数据,但是在构造
爬虫
的时候发现美团有一个_token参数,百思不得其解,还请大神指教
浏览 2211
提问于2018-09-12
2
回答
Facebook粉丝从何而来?
、
我想知道从什么时候起Facebook上的粉丝就是粉丝了?我想出的唯一办法就是抓取粉丝页面的整个feed,然后像墙上的帖子一样追踪第一个帖子。然而,这种方法并不十分准确。
浏览 2
提问于2011-05-19
得票数 0
回答已采纳
1
回答
在我的网站上奇怪的404 URL请求
、
、
我最近推出了一个Django支持的网站,我有404错误报告。我收到了一些奇怪的URL请求,每隔几天一次。我发现其中一些非常奇怪,因为我没有PHP站点或移动站点。 有谁知道这是什么原因吗?更重要的是,我应该担心/做点什么吗?
浏览 0
提问于2016-05-03
得票数 2
回答已采纳
1
回答
JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程
、
、
我目前正在构建这个网络
爬虫
来获取起始url的所有链接,并从这些链接中
爬
取
所有链接,等等。我还注意到,一旦我运行我的
爬虫
,我的互联网开始崩溃,这意味着网站不会加载,直到我打开我的网络
爬虫
。我想我发送了太多的http请求。
浏览 1
提问于2012-05-02
得票数 0
回答已采纳
2
回答
我如何“获得”数据的所有酒吧/俱乐部在美国的数据库。Yelp API?
、
、
、
、
我要做的是创建一个美国所有酒吧的数据库。我需要这个数据库半定期更新(大约每周),以包括新开的酒吧。
浏览 0
提问于2011-01-18
得票数 1
2
回答
使用机械化来检索网站的所有链接
、
、
、
如何使用Mechanize库查找网站上的所有链接?
浏览 0
提问于2012-07-23
得票数 2
回答已采纳
3
回答
Facebook
爬虫
机器人崩溃网站
、
、
Facebook是不是刚刚实现了一些网络
爬虫
?在过去的几天里,我的网站已经崩溃了几次,严重超载了我追踪到的Facebook的I地址。我试着用谷歌搜索,但找不到任何关于通过robots.txt控制Facebook的
爬虫
机器人的权威
资源
。这里有关于添加以下内容的参考:用户-代理: facebookexternalhit/1.0
爬
网-延迟:5 User-agent
浏览 2
提问于2012-10-14
得票数 7
1
回答
将视图状态置于底部或禁用
爬
网程序的视图状态
仅禁用
爬
网程序的视图状态。将视图状态移到底部似乎比禁用
爬虫
的视图状态占用更多的
资源
。
浏览 1
提问于2012-08-22
得票数 2
2
回答
获取IIS工作进程崩溃转储
、
、
、
、
我已经将问题缩小到我的HTTP
爬虫
,这是一个多线程的野兽,当被请求时,它会
爬
取
站点以获取有用的信息。在我启动
爬虫
程序并重新部署应用程序之后,IIS工作进程将崩溃(弹出一条崩溃消息)并继续重新加载应用程序域,而不是正常卸载appDomain并重新加载。
浏览 0
提问于2008-09-10
得票数 9
回答已采纳
2
回答
Google Adsense是如何获得页面主题的?
我已经构建了一个web应用程序。问题是,广告中的产品几乎总是一样的,即使我的webapp是一个任务/项目管理工具,我猜有很多产品是用Google Adsense做营销的。我猜它可能使用了某种缓存。谢谢,汤姆
浏览 6
提问于2010-10-04
得票数 1
1
回答
Web
爬虫
更新策略
、
我想抓取有用的
资源
(比如背景图片)。)从某些网站。这不是一项艰苦的工作,特别是在一些出色的项目,如刮刮的帮助下。这是我想过的一个粗略的算法。我把爬行过程分成了几个回合。每一轮URL存储库都会为
爬虫
提供一定数量(比如,10000)的URL来进行抓取。具体步骤如下:
爬虫
要求URL存储
浏览 1
提问于2010-04-05
得票数 4
2
回答
Facebook爬行许可申请表?
、
、
、
我已经在谷歌上搜索了一段时间,但我猜我用错了关键字。有谁知道这个URI,可以让我从Facebook请求许可,让我在他们的网络上爬行?上次我使用Python做这件事时,有人建议我看一下,但我也找不到那篇文章。
浏览 2
提问于2010-10-22
得票数 2
回答已采纳
2
回答
php dom不接受url
、
然后,它将获取文本文档第一行,
爬
取
该url并将其从文本文件中移除。每个url都是由一个基本的
爬虫
抓取的。我知道
爬虫
部分可以工作,因为如果我在引用中输入一个urls,而不是文本文件中的一个变量,它就会工作。我在这一点上,它将不会返回任何东西,因为网址根本不会被接受。
浏览 0
提问于2012-03-15
得票数 0
回答已采纳
2
回答
Robots.txt,如何只允许访问域根,而不允许更深?
我希望允许
爬虫
访问我的域的根目录(即index.html文件),但不允许更深层次的访问(即无子目录)。我不想在robots.txt文件中单独列出和拒绝每个子目录。
浏览 0
提问于2011-03-06
得票数 13
1
回答
单个IP请求的精确限制
、
、
、
我正在开发一个应用程序,它从所有字母中获取前20个页面。基本上,在这个时候没有限制的问题。但是我需要知道每秒从一个IP地址发出的请求的确切数量是多少?
浏览 1
提问于2011-11-16
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫:“追新番”网站资源链接爬取
PYTHON爬虫系列-图片爬取
python爬虫:定向爬取小说
python爬虫-爬取盗墓笔记
Python爬虫系列—图片爬取预告
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券