腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(454)
视频
沙龙
1
回答
Nutch API建议
java
、
web-crawler
、
nutch
我正在做一个项目,我需要一个成熟的
爬虫
来做一些工作,我正在为这个目的评估Nutch。我目前的需求相对简单:我需要一个能够将数据保存到磁盘的
爬虫
程序,并且我需要它能够仅重新
爬
取
站点的更新资源,并跳过已经
爬
取
的部分。有没有人有在Java中直接使用Nutch代码的经验,而不是通过命令行。我想从简单开始:创建一个
爬虫
(或类似的),最低限度地配置它并启动它,没有任何花哨的东西。有没有这方面的例子,或者我应该看看的资源?
浏览 0
提问于2010-12-03
得票数 6
回答已采纳
1
回答
Sharepoint 2010搜索不会为自定义字段建立索引
search
、
sharepoint-2010
我正在尝试创建一个托管元数据字段,但它没有显示在我的
爬
网列中。它是一个自定义字段。我不确定哪里出了问题,但当我搜索时,我唯一的结果是查看与列表相关的所有项目页面。它似乎不会搜索列表项本身。
浏览 1
提问于2010-06-15
得票数 1
1
回答
Crawler4j计算页面深度
grails
、
groovy
、
depth
、
crawler4j
我正在用groovy & grails和mongodb开发一个网络
爬虫
,有没有办法用crawler4j计算页面的深度?我知道我可以限制到我想要
爬
取
的深度,但还没有遇到任何建议如何计算页面深度的东西。
浏览 2
提问于2014-06-26
得票数 0
1
回答
如何抓取受登录保护的站点或页面?
web-crawler
、
apache-storm
、
stormcrawler
我想抓取一个网站,这是必要的访问,以查看
网页
。我可以
爬
客
网页
,但如何抓取登录保护
网页
?如果有人共享一些步骤来配置或跳过身份验证机制来使用storm
爬虫
爬行页面,那将是非常棒的。 先谢谢你。
浏览 5
提问于2021-04-12
得票数 0
回答已采纳
1
回答
在if语句下索引链接?
php
、
seo
、
web-crawler
、
googlebot
索引Google会有任何链接在if语句下吗? <a"; if($user_category=="register2"){ $link="href='".$databaselink; echo $link;}"> BOOK</a>抓取可以看到并将被索引的链接的WIll?
浏览 0
提问于2013-01-06
得票数 0
2
回答
大神有没有研究过美团的_token生成方法?
python
、
爬虫
、
数据分析
如题,我最近在做一个数据分析,想要用到美团的美食信息,于是就想用python
爬
取
美团的数据,但是在构造
爬虫
的时候发现美团有一个_token参数,百思不得其解,还请大神指教
浏览 2168
提问于2018-09-12
2
回答
Facebook粉丝从何而来?
facebook
、
facebook-page
我想知道从什么时候起Facebook上的粉丝就是粉丝了?我想出的唯一办法就是抓取粉丝页面的整个feed,然后像墙上的帖子一样追踪第一个帖子。然而,这种方法并不十分准确。
浏览 2
提问于2011-05-19
得票数 0
回答已采纳
1
回答
使用http 405代码的页的风暴
爬虫
解决方案
web-crawler
、
stormcrawler
我想
爬
一个像一样的
网页
。www.notebooksbilliger.de/lenovo+320+15abr+80xs009bge/incrpc/topprod with status 405 in msec 53 这页似乎有
爬虫
保护是否还可以使用风暴
爬虫
和selenium一起爬行呢?
浏览 1
提问于2018-04-09
得票数 1
回答已采纳
1
回答
如何使用wget下载页面,但如果页面不存在,则忽略404错误消息?
wget
有没有办法让wget在下载网址或
爬
取
网页
时忽略HTTP错误响应码?
浏览 5
提问于2015-08-19
得票数 6
回答已采纳
1
回答
如何用python
爬
取
数据并保存到excel?
python
利用python
爬
取
豆瓣电影排行榜(https://movie.douban.com/chart)的数据并保存到excel中。用相同代码
爬
取
网页
豆瓣top250的数据可以
爬
取到excel中,但将网址及相关信息改为
网页
豆瓣电影排行榜中的信息时便无法
爬
取
,也找不出问题所在。以下图片为完整代码。
浏览 291
提问于2021-01-09
1
回答
JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程
java
、
multithreading
、
web-crawler
我目前正在构建这个网络
爬虫
来获取起始url的所有链接,并从这些链接中
爬
取
所有链接,等等。我还注意到,一旦我运行我的
爬虫
,我的互联网开始崩溃,这意味着网站不会加载,直到我打开我的网络
爬虫
。我想我发送了太多的http请求。
浏览 1
提问于2012-05-02
得票数 0
回答已采纳
2
回答
我如何“获得”数据的所有酒吧/俱乐部在美国的数据库。Yelp API?
java
、
database
、
json
、
screen-scraping
、
data-mining
我要做的是创建一个美国所有酒吧的数据库。我需要这个数据库半定期更新(大约每周),以包括新开的酒吧。
浏览 0
提问于2011-01-18
得票数 1
2
回答
请问一下页面上的图片,怎样获取它的URL呢?
php
、
云直播
浏览 303
提问于2020-10-26
1
回答
Web
爬虫
更新策略
web-crawler
、
scrapy
这里的问题是,我不仅要
爬
这个网站一次。我还想让我的爬行长时间运行,并抓取更新的资源。因此,我想知道,有什么好的策略,一个
网页
爬虫
得到更新的
网页
?
爬虫
获取URL,并更新URL存储库中的某些信息,如页面内容、获取时间和内容是否已更改。
浏览 1
提问于2010-04-05
得票数 4
2
回答
使用机械化来检索网站的所有链接
ruby
、
recursion
、
mechanize
、
web-crawler
如何使用Mechanize库查找网站上的所有链接?
浏览 0
提问于2012-07-23
得票数 2
回答已采纳
1
回答
如何在Google上爬行
java
、
proxy
、
web-crawler
、
jsoup
、
search-engine
我的计划是我的网络
爬虫
google.com/robots.txtDisallow: /search我的新计划我的网络
爬虫
会 在谷歌、必应或雅虎上搜索关键词(每天最多搜索2-3次
浏览 3
提问于2017-09-15
得票数 0
2
回答
获取IIS工作进程崩溃转储
c#
、
asp.net
、
multithreading
、
debugging
、
iis
我已经将问题缩小到我的HTTP
爬虫
,这是一个多线程的野兽,当被请求时,它会
爬
取
站点以获取有用的信息。在我启动
爬虫
程序并重新部署应用程序之后,IIS工作进程将崩溃(弹出一条崩溃消息)并继续重新加载应用程序域,而不是正常卸载appDomain并重新加载。
浏览 0
提问于2008-09-10
得票数 9
回答已采纳
2
回答
关闭浏览器或单击中止时,脚本不会停止
c#
、
asp.net
、
events
我写了一个网络
爬虫
,它在do while循环中调用
网页
,循环时间为3秒 总共有7000个网站...我解析数据并将其保存在我的数据库中。
浏览 0
提问于2010-01-22
得票数 0
1
回答
如何使条件循环单击节点上的恶梦事件?
javascript
、
node.js
、
web-crawler
、
nightmare
我想
爬
的
网页
有“加载更多”按钮。当我点击这个按钮时,会有更多的帖子像其他
网页
一样被加载。 问题是-这个页面上的帖子数量可能会改变。因此,我的
爬虫
应用程序不知道多少次按“加载更多”按钮。
浏览 2
提问于2017-06-19
得票数 0
回答已采纳
0
回答
新浪微博搜索是否禁用了huginn,有什么解决办法吗?
tcp/ip
比如,用huginn
爬
网这个链接: https://s.weibo.com/weibo?换了其他地方的机器,电脑和ip不同,huginn照样无法正常
爬
取
。而在同一台机器上用 下载工具甚至简单的脚本下载这个链接的
网页
内容,却可以实现,不知道是什么情况。
浏览 87
提问于2021-09-28
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
python突破爬虫动态网页障碍,爬取电影下载地址
Python网络爬虫:教你爬取网页信息之Request入门教学
爬虫基础教程1–urllib库与使用urllib爬取单个网页
爬虫何必用Python,用EXCEL爬取网页上的多页表格
PYTHON爬虫系列-图片爬取
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券