腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(2489)
视频
沙龙
1
回答
Nutch API建议
、
、
我正在做一个项目,我需要一个成熟的
爬虫
来做一些工作,我正在为这个目的评估Nutch。我目前的需求相对简单:我需要一个能够将
数据
保存到磁盘的
爬虫
程序,并且我需要它能够仅重新
爬
取
站点的更新资源,并跳过已经
爬
取
的部分。有没有人有在
Java
中直接使用Nutch代码的经验,而不是通过命令行。我想从简单开始:创建一个
爬虫
(或类似的),最低限度地配置它并启动它,没有任何花哨的东西。有没有这方面的例子,或者我应该看看的资源?
浏览 0
提问于2010-12-03
得票数 6
回答已采纳
2
回答
大神有没有研究过美团的_token生成方法?
、
、
如题,我最近在做一个
数据
分析,想要用到美团的美食信息,于是就想用python
爬
取
美团的
数据
,但是在构造
爬虫
的时候发现美团有一个_token参数,百思不得其解,还请大神指教
浏览 2330
提问于2018-09-12
1
回答
Sharepoint 2010搜索不会为自定义字段建立索引
、
我正在尝试创建一个托管元
数据
字段,但它没有显示在我的
爬
网列中。它是一个自定义字段。我不确定哪里出了问题,但当我搜索时,我唯一的结果是查看与列表相关的所有项目页面。它似乎不会搜索列表项本身。
浏览 1
提问于2010-06-15
得票数 1
1
回答
JAVA
中的Web Crawler。
java
.out.lang.outofmemory无法创建本机线程
、
、
我目前正在构建这个网络
爬虫
来获取起始url的所有链接,并从这些链接中
爬
取
所有链接,等等。我还注意到,一旦我运行我的
爬虫
,我的互联网开始崩溃,这意味着网站不会加载,直到我打开我的网络
爬虫
。我想我发送了太多的http请求。如果有人知道如何限制线程或修复以下错误:
java
.lang.outOfMemory :无法创建本机线程
浏览 1
提问于2012-05-02
得票数 0
回答已采纳
2
回答
我如何“获得”
数据
的所有酒吧/俱乐部在美国的
数据
库。Yelp API?
、
、
、
、
我要做的是创建一个美国所有酒吧的
数据
库。我需要这个
数据
库半定期更新(大约每周),以包括新开的酒吧。 yelp api的问题是他们只返回20个结果。在我周围5英里的范围内有800多家酒吧。
浏览 0
提问于2011-01-18
得票数 1
1
回答
Crawler4j计算页面深度
、
、
、
我正在用groovy & grails和mongodb开发一个网络
爬虫
,有没有办法用crawler4j计算页面的深度?我知道我可以限制到我想要
爬
取
的深度,但还没有遇到任何建议如何计算页面深度的东西。
浏览 2
提问于2014-06-26
得票数 0
1
回答
在if语句下索引链接?
、
、
、
索引Google会有任何链接在if语句下吗? <a"; if($user_category=="register2"){ $link="href='".$databaselink; echo $link;}"> BOOK</a>抓取可以看到并将被索引的链接的WIll?
浏览 0
提问于2013-01-06
得票数 0
2
回答
Facebook粉丝从何而来?
、
我想知道从什么时候起Facebook上的粉丝就是粉丝了?我想出的唯一办法就是抓取粉丝页面的整个feed,然后像墙上的帖子一样追踪第一个帖子。然而,这种方法并不十分准确。
浏览 2
提问于2011-05-19
得票数 0
回答已采纳
2
回答
怎样在不使用API的前提下
爬
取
Twitter
数据
?
、
、
、
、
由于现在Twitter API
数据
爬
取
付费,所以我想在不使用Twitter API的情况下使用python
爬
取到特定关键词的Twitter
数据
或者Reddit
数据
,有什么好办法吗?
浏览 893
提问于2024-01-06
1
回答
怎样在不使用远程桌面的情况下就能查看储存在腾讯云服务器上面的文件(不是网盘)?
、
、
、
、
在服务器上部署了
爬虫
,想在不使用远程桌面的情况下直接就能查看服务器硬盘上
爬虫
爬
取到的最新
数据
,想问一下该如何实现?
浏览 397
提问于2020-04-16
2
回答
使用机械化来检索网站的所有链接
、
、
、
如何使用Mechanize库查找网站上的所有链接?
浏览 0
提问于2012-07-23
得票数 2
回答已采纳
1
回答
如果我们要用Hadoop和Solr做一个搜索引擎,NUTCH的作用是什么?
、
、
5)请解释我一个步骤,如果可能的话,我如何爬行一些网站,并将其信息保存到
数据
库(Hadoop或任何其他),然后做搜索。提前说一声非常感谢。
浏览 2
提问于2012-09-06
得票数 3
1
回答
分布式系统中的任务分配
、
我的
爬虫
使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个
爬虫
产生
数据
卡夫卡。 我的问题是:当一个
爬虫
想要
爬
一个网站,其他
爬虫
不应该尝试爬行它。如何在分布式环境中与它们通信?
浏览 0
提问于2017-06-01
得票数 2
2
回答
仅搜索动态
数据
、
有没有办法让我编程的
爬虫
,使静态按钮,如主页,按钮及其页脚是相同的,每个页面都不包括在
爬虫
中System.out.println(Jsoup.parse(html).body
浏览 3
提问于2013-02-12
得票数 2
回答已采纳
2
回答
获取IIS工作进程崩溃转储
、
、
、
、
我已经将问题缩小到我的HTTP
爬虫
,这是一个多线程的野兽,当被请求时,它会
爬
取
站点以获取有用的信息。在我启动
爬虫
程序并重新部署应用程序之后,IIS工作进程将崩溃(弹出一条崩溃消息)并继续重新加载应用程序域,而不是正常卸载appDomain并重新加载。
浏览 0
提问于2008-09-10
得票数 9
回答已采纳
4
回答
访问常见的
爬
网AWS公共
数据
集
、
、
、
、
我需要浏览和下载公共
爬虫
公共
数据
集的一个子集。页面提到了
数据
托管的位置。如何浏览和下载托管在s3://aws-publicdatasets/common-crawl/crawl-002/上的常见
爬
网
数据
?
浏览 0
提问于2013-05-20
得票数 6
回答已采纳
2
回答
Google Adsense是如何获得页面主题的?
我已经构建了一个web应用程序。问题是,广告中的产品几乎总是一样的,即使我的webapp是一个任务/项目管理工具,我猜有很多产品是用Google Adsense做营销的。我猜它可能使用了某种缓存。谢谢,汤姆
浏览 6
提问于2010-10-04
得票数 1
1
回答
如何限制来自同一个IP的多个请求?(Centos + APACHE)
、
、
、
我像
数据
库网站一样运行wiki。有些人经常
爬
(刮)我的网站
数据
。所以我想阻止这些
爬虫
。 是否有一个脚本来阻止一定数量的来自同一个IP地址的请求?
浏览 14
提问于2021-12-12
得票数 0
1
回答
如何为web
爬虫
设置有效的cron作业
、
、
我已经写了一个php网络
爬虫
来索引只有180个特定来源的内容,但它平均每页需要2秒来分析,抓取和保存我想要的内容:图片,网址,标题,完整内容,摘录,标签。(有几种算法可以分析所有元标签以获得正确的
数据
) 我只抓取最新的9个文章页面,所以每个信息源需要18-25秒。
爬虫
脚本访问
数据
库中的18个源,获取最新的9个文章页面并
爬
取
内容,对其进行分析,并根据结果将其存储在
数据
库中。
浏览 0
提问于2012-09-26
得票数 1
2
回答
如何用python
爬
取
数据
并保存到excel?
利用python
爬
取
豆瓣电影排行榜(https://movie.douban.com/chart)的
数据
并保存到excel中。用相同代码
爬
取
网页豆瓣top250的
数据
可以
爬
取到excel中,但将网址及相关信息改为网页豆瓣电影排行榜中的信息时便无法
爬
取
,也找不出问题所在。以下图片为完整代码。
浏览 480
提问于2021-01-09
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券