腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
5
回答
C#中任何好的开源网络爬行
框架
c#
、
screen-scraping
、
web-crawler
、
web-scraping
我已经决定在C#中构建
爬虫
。我对HttpWebRequest/HttpWebResponse类有很多不好的体验,众所周知,它们对于大型
爬虫
来说是高度错误和不稳定的。即使在
框架
4.0中,它们也是有缺陷的。 我是根据自己的亲身经历说的。如果他们知道有什么好的开源
爬虫
框架
,比如
java
有nutch和apache commons,它们是非常稳定和高度健壮的库,我想要这里的专家们的意见,他们已经编码
爬虫
程序。编辑:我必须抓取的一些网站
使用
非常复杂的<e
浏览 2
提问于2010-12-06
得票数 9
回答已采纳
2
回答
使用
Java
的web索引器
java
、
parallel-processing
、
web-crawler
、
distributed-computing
当用
Java
开发时,并行系统和分布式系统哪个更适合网站
爬虫
和web索引器?可用的
框架
有哪些?
浏览 3
提问于2010-08-01
得票数 2
回答已采纳
2
回答
最适合用于图像爬行的开源、可扩展
爬虫
language-agnostic
、
web-crawler
我们正处于一个项目的开始阶段,我们目前想知道哪个
爬虫
是我们最好的选择。基本上,我们要建立Hadoop和抓取网络上的图像。除了我们自己的索引之外,我们不会
使用
其他索引。哪种
爬虫
最适合抓取图像?哪种
爬虫
最适合分布式爬行系统,在这种系统中我们
使用
多台服务器一起进行爬行?目前看来,最好的option.Scrapy:还没有大规模
使用
(但不确定)。我不知道它是否有基本的东西,如URL规范化。我想
使用
它,因为它是一个python
框架
浏览 5
提问于2009-07-28
得票数 3
2
回答
滚动您自己的web
爬虫
来抓取一个有多个条目的特定网站。
php
、
web-crawler
什么样的语言能够处理编写自己的网页
爬虫
?但是如果我需要的话,我想有一个很好的理由去学习一门新的语言。
浏览 0
提问于2011-08-02
得票数 0
回答已采纳
2
回答
每个线程有一个数据库连接?
java
、
database
、
multithreading
、
postgresql
、
connection
我制作了一个网络
爬虫
,每个线程不断地插入页面和链接。我必须为每个线程建立一个数据库连接,还是与它们共享一个连接?
浏览 0
提问于2011-05-18
得票数 1
回答已采纳
1
回答
基于Hadoop MapReduce的Web
Java
爬虫
java
、
hadoop
、
mapreduce
、
web-crawler
我想
使用
MapReduce架构实现一个基于Hadoop
框架
的
java
爬虫
,并在HBase中插入内容。我试着把这两个教程结合起来: 但是我不能理解这个概念。从页面中提取链接的逻辑放在哪里?
浏览 22
提问于2017-12-19
得票数 1
回答已采纳
1
回答
twitter好友爬行器
twitter
、
web-crawler
是否有可能根据友谊信息为twitter编写一个
爬虫
? 我环顾四周,但至今没有发现任何有用的东西。谢谢莱拉
浏览 1
提问于2011-03-17
得票数 0
2
回答
在网站和独立应用程序中
使用
Django
框架
python
、
django
我计划为它写一个网络
爬虫
和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以
使用
Django
框架
让网络
爬虫
使用
与网站相同的MySQL后端(而不是让网络
爬虫
本身成为“网站”)。
浏览 1
提问于2009-06-04
得票数 1
回答已采纳
3
回答
有没有
java
script web
爬虫
框架
?
javascript
、
web-crawler
有没有JavaScript网络
爬虫
框架
?
浏览 0
提问于2011-04-06
得票数 13
1
回答
如何提取我的
爬虫
目前所站的网址?
python
、
scrapy
、
web-crawler
我正在
使用
python中的scrapy
框架
制作一个web
爬虫
。其主要思想是,
爬虫
从页面中提取一些数据,如果数据符合某些条件,
爬虫
应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL?
浏览 5
提问于2016-11-27
得票数 0
回答已采纳
1
回答
如何
使用
ASP核心运行
爬虫
、服务交互和生命周期问题
c#
、
asp.net-core
、
web-crawler
我用ASP Core3.1应用程序开发了一个网络
爬虫
。其根本原因是,尽管应用程序作为一个整体被设计为一个API (用于启动
爬虫
、停止它、获取一些爬行数据),但这些服务在后台运行的时间比API请求甚至会话长得多。我知道Singleton模式会导致问题,但是我没有更好的方法来运行这个
爬虫
。我应该期待哪些问题,是否有更合适的方法来设计这些服务?
浏览 3
提问于2020-03-03
得票数 0
回答已采纳
2
回答
抓取图像、整个Web页面并缓存它们
python
我正在开始一个项目,想知道图像中的人物和图像所在的整个网页之间的关系。
浏览 0
提问于2010-06-16
得票数 0
1
回答
用于抓取webservices服务的Nutch或其他
框架
web-services
、
mapreduce
、
web-scraping
、
nutch
、
hadoop-yarn
我正在寻找一个
框架
,我可以用于以下情况:我有2个网络服务。我调用第一个具有json响应的服务。在json响应中,我有一些it,用于调用其他服务,然后合并服务响应并将其存储在db中。我找到的是Nutch,但它看起来像是一个主要处理html页面的网络
爬虫
。有没有什么
框架
可以让我在上面的场景中
使用
?我正在寻找一个容错的、可销售的
java
框架
。 谢谢!
浏览 4
提问于2015-10-29
得票数 0
1
回答
获取用于制作web
爬虫
的页面的完整html源代码。
java
、
web-crawler
、
jsoup
我试图在
java
中制作一个web
爬虫
,它接受网页的URL,并导航到给定网页的源代码中存在的其他页面。问题是,我正在获得HTML的源代码,它包含各种标记,如
框架
和一些javascript文件名。现在,要导航到其他页面,我需要访问
框架
和javascript文件中提供的http链接。我应该如何在列表中得到这些链接。
浏览 0
提问于2015-10-14
得票数 0
回答已采纳
2
回答
数据挖掘,用于收集网站的详细信息并放入CSV或SQL中
data-mining
我不知道这是叫数据挖掘还是别的什么。我如何开始编写一个程序,它将抓取他们的页面,并将页面的选择性信息放入CSV格式,然后我可以将其导入到我的网站中?
浏览 9
提问于2011-03-26
得票数 0
回答已采纳
2
回答
抓取Facebook粉丝页面
facebook
、
web-crawler
我想cral一个facebook的粉丝页面,以获得所有的成员谁是该页面的球迷的详细信息。我在face book API中有任何可以帮助我的函数。或者有没有其他方法可以让我这么做?
浏览 0
提问于2009-12-16
得票数 0
回答已采纳
1
回答
如何对Google机器人和其他机器人隐藏某些DIV
html
、
seo
因此,我有一个网站,它要求用户在查看任何信息之前验证其年龄,如果您
使用
DIV,我会显示选项以选择18岁以上: <div class="contenido-edad
浏览 0
提问于2015-12-11
得票数 0
2
回答
以XML格式保存网页的工具
html
、
offline
、
document-converter
、
xml
我需要
使用
的信息已经在维基百科中提供了。但是在这个页面上,有那么多的子页面(1000+)需要保存,在我看来,手动完成这个任务是不可行的。还要注意,我应该将每种药物保存在XML格式的元素中(
使用
特定的模式)。现在我正在寻找一个工具来帮助这个任务。这样的工具是否存在?获取HTML页面(S)并创建XML文档。
浏览 0
提问于2015-01-06
得票数 4
回答已采纳
5
回答
在为web编程时,我是否应该切换到
Java
以外的语言?
java
我有一个类似
爬虫
的软件,它可以在读取和解析特定网页后填充表。我是用
Java
(
使用
Hibernate)编写的。我已经有了实体和其他逻辑。我的问题是,我是否应该
使用
Java
以外的语言编写的简单web
框架
,比如Django,或者我应该坚持
使用
Java
并重用我已经拥有的那些实体和逻辑?如果我在中
使用
另一种语言,我预计我将需要复制
Java
part中已有的一些逻辑,这意味着更有可能发生错误。我这么问的原因是,当我试图用<em
浏览 1
提问于2010-02-08
得票数 0
回答已采纳
2
回答
Drupal + Nutch + Solr
drupal
、
solr
、
nutch
显然,我们需要选择一个好的网络
爬虫
和全文搜索引擎。由于我们的团队有
使用
Drupal开发网站的良好经验,团队中的一名成员提出了这个解决方案:将Drupal的社交功能与Nutch作为网络
爬虫
,将Solr作为FTS搜索引擎。第三个问题:(根据团队成员的建议)如何
使用
Wicket等UI
Java
框架
对整个站点进行编码,并将其与Nutch和Solr集成,因为这三种技术都是基于
Java
的? 谢谢
浏览 2
提问于2010-11-15
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Java爬虫框架WebMagic的使用总结
Java实现网络爬虫 案例代码3:使用webmagic框架获取天气预报
Scrapy框架的使用之Scrapy通用爬虫
谈谈那个java框架使用最频繁
使用Kotlin Coroutines简单改造原有的爬虫框架
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券