腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用
Java
的web索引器
、
、
、
当用
Java
开发时,并行系统和分布式系统哪个更适合网站
爬虫
和web索引器?可用的
框架
有哪些?
浏览 3
提问于2010-08-01
得票数 2
回答已采纳
5
回答
C#中任何好的开源网络爬行
框架
、
、
、
我已经决定在C#中构建
爬虫
。我对HttpWebRequest/HttpWebResponse类有很多不好的体验,众所周知,它们对于大型
爬虫
来说是高度错误和不稳定的。即使在
框架
4.0中,它们也是有缺陷的。 我是根据自己的亲身经历说的。如果他们知道有什么好的开源
爬虫
框架
,比如
java
有nutch和apache commons,它们是非常稳定和高度健壮的库,我想要这里的专家们的意见,他们已经编码
爬虫
程序。如果C#中已经存在一些爬行
框架
,我将继续在它
浏览 2
提问于2010-12-06
得票数 9
回答已采纳
1
回答
twitter好友爬行器
、
是否有可能根据友谊信息为twitter编写一个
爬虫
? 我环顾四周,但至今没有发现任何有用的东西。谢谢莱拉
浏览 1
提问于2011-03-17
得票数 0
3
回答
有没有
java
script web
爬虫
框架
?
、
有没有JavaScript网络
爬虫
框架
?
浏览 0
提问于2011-04-06
得票数 13
2
回答
最适合用于图像爬行的开源、可扩展
爬虫
、
我们正处于一个项目的开始阶段,我们目前想知道哪个
爬虫
是我们最好的选择。基本上,我们要建立Hadoop和抓取网络上的图像。一些特殊问题:现在这些看起来是最好的三种选择-摘要: 我们需要从网络上获取尽可能多的图片。现
浏览 5
提问于2009-07-28
得票数 3
2
回答
滚动您自己的web
爬虫
来抓取一个有多个条目的特定网站。
、
什么样的语言能够处理编写自己的网页
爬虫
?但是如果我需要的话,我想有一个很好的理由去学习一门新的语言。
浏览 0
提问于2011-08-02
得票数 0
回答已采纳
1
回答
获取用于制作web
爬虫
的页面的完整html源代码。
、
、
我试图在
java
中制作一个web
爬虫
,它接受网页的URL,并导航到给定网页的源代码中存在的其他页面。问题是,我正在获得HTML的源代码,它包含各种标记,如
框架
和一些javascript文件名。现在,要导航到其他页面,我需要访问
框架
和javascript文件中提供的http链接。我应该如何在列表中得到这些链接。
浏览 0
提问于2015-10-14
得票数 0
回答已采纳
2
回答
抓取Facebook粉丝页面
、
我想cral一个facebook的粉丝页面,以获得所有的成员谁是该页面的球迷的详细信息。我在face book API中有任何可以帮助我的函数。或者有没有其他方法可以让我这么做?
浏览 0
提问于2009-12-16
得票数 0
回答已采纳
2
回答
每个线程有一个数据库连接?
、
、
、
、
我制作了一个网络
爬虫
,每个线程不断地插入页面和链接。我必须为每个线程建立一个数据库连接,还是与它们共享一个连接?
浏览 0
提问于2011-05-18
得票数 1
回答已采纳
1
回答
基于Hadoop MapReduce的Web
Java
爬虫
、
、
、
我想使用MapReduce架构实现一个基于Hadoop
框架
的
java
爬虫
,并在HBase中插入内容。我试着把这两个教程结合起来: 但是我不能理解这个概念。从页面中提取链接的逻辑放在哪里?
浏览 22
提问于2017-12-19
得票数 1
回答已采纳
1
回答
如何使用ASP核心运行
爬虫
、服务交互和生命周期问题
、
、
我用ASP Core3.1应用程序开发了一个网络
爬虫
。其根本原因是,尽管应用程序作为一个整体被设计为一个API (用于启动
爬虫
、停止它、获取一些爬行数据),但这些服务在后台运行的时间比API请求甚至会话长得多。我知道Singleton模式会导致问题,但是我没有更好的方法来运行这个
爬虫
。我应该期待哪些问题,是否有更合适的方法来设计这些服务?
浏览 3
提问于2020-03-03
得票数 0
回答已采纳
2
回答
在网站和独立应用程序中使用Django
框架
、
我计划为它写一个网络
爬虫
和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django
框架
让网络
爬虫
使用与网站相同的MySQL后端(而不是让网络
爬虫
本身成为“网站”)。
浏览 1
提问于2009-06-04
得票数 1
回答已采纳
2
回答
抓取图像、整个Web页面并缓存它们
我正在开始一个项目,想知道图像中的人物和图像所在的整个网页之间的关系。
浏览 0
提问于2010-06-16
得票数 0
2
回答
基于PHP的Web
爬虫
或基于
JAVA
的Web
爬虫
、
、
我对基于PHP的网络
爬虫
有些怀疑,它能像基于
java
线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在
java
中,线程可以一次又一次地执行,我不认为PHP有类似线程的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于PHP的
爬虫
还是基于
Java
的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
1
回答
Scrapy:如何从crawler获取处理过的流水线项目?
、
爬虫
是一个更大的
框架
的一部分,它需要
爬虫
返回一个解析的项目列表。 在Scrapy中,我实现了一个包含几个规范化步骤的管道。由于Scrapy是更大的
框架
的一部分-如果我可以在通过整个管道后将项目返回到
爬虫
和/或
框架
,那就太好了。有没有办法做到这一点?
浏览 0
提问于2013-12-05
得票数 0
1
回答
Nutch与Heritrix的比较
、
、
我想选择上面的其中之一,为特定的网站建立一个爬行
框架
。这不是互联网范围内的抓取。我不是建立一个搜索索引,而是有兴趣从网站上抓取特定的页面。 有没有人能详细介绍一下上述的利弊?谢谢Nayn
浏览 1
提问于2010-07-16
得票数 2
回答已采纳
1
回答
如何提取我的
爬虫
目前所站的网址?
、
、
我正在使用python中的scrapy
框架
制作一个web
爬虫
。其主要思想是,
爬虫
从页面中提取一些数据,如果数据符合某些条件,
爬虫
应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL?
浏览 5
提问于2016-11-27
得票数 0
回答已采纳
1
回答
用于抓取webservices服务的Nutch或其他
框架
、
、
、
、
我正在寻找一个
框架
,我可以用于以下情况:我有2个网络服务。我调用第一个具有json响应的服务。在json响应中,我有一些it,用于调用其他服务,然后合并服务响应并将其存储在db中。我找到的是Nutch,但它看起来像是一个主要处理html页面的网络
爬虫
。有没有什么
框架
可以让我在上面的场景中使用?我正在寻找一个容错的、可销售的
java
框架
。 谢谢!
浏览 4
提问于2015-10-29
得票数 0
2
回答
数据挖掘,用于收集网站的详细信息并放入CSV或SQL中
我不知道这是叫数据挖掘还是别的什么。我如何开始编写一个程序,它将抓取他们的页面,并将页面的选择性信息放入CSV格式,然后我可以将其导入到我的网站中?
浏览 9
提问于2011-03-26
得票数 0
回答已采纳
2
回答
以XML格式保存网页的工具
、
、
、
我想创建一个显示毒品信息的离线应用程序。我需要使用的信息已经在维基百科中提供了。但是在这个页面上,有那么多的子页面(1000+)需要保存,在我看来,手动完成这个任务是不可行的。我的需求最好免费 基于Windows或Linux的
浏览 0
提问于2015-01-06
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券