腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
有一个流行的工具来抓取网络数据吗?
、
我正在做信息提取的工作,我需要一个工具从网页上抓取数据,windows中有流行的工具吗?
浏览 7
提问于2009-12-14
得票数 0
1
回答
如何为我的网站编制索引
、
我刚刚遇到了Elastic Search,我已经完成了安装和示例索引以及搜索。现在我想把这个用在我的网站上。为此,如何为我的网站创建索引?我是否需要将整个网页内容存储为索引??
浏览 0
提问于2011-06-07
得票数 1
回答已采纳
1
回答
爬行url \如何在node.
js
中获取动态链接
、
我正在使用
js
爬虫
来抓取网站,现在我遇到了CNN,的那一部分(基于某种原因动态生成的urls)。事情是
爬虫
,不要真正接触脚本-我应该如何解决它?除了我的node.
js
爬虫
之外,我还应该
编写
自己的代码吗?是否有先进的
爬虫
知道如何处理这种动态行为?
浏览 1
提问于2016-07-23
得票数 2
回答已采纳
5
回答
Googlebot是
用
哪种编程语言
编写
的(或任何其他高效的网络
爬虫
)?
、
有人知道谷歌机器人是
用
哪种编程语言
编写
的吗? 或者,更普遍的是,高效的网络
爬虫
是
用
哪种语言
编写
的?我见过很多Java语言,但在我看来,它不是最适合开发网络
爬虫
的语言,因为它产生了太多的开销(尝试使用Heritrix网络
爬虫
,它非常重)。
浏览 0
提问于2009-10-29
得票数 1
回答已采纳
1
回答
node.
js
与C#的网络爬行性能
、
、
、
、
我正在
编写
一个应用程序,它爬过长长的链接列表,下载页面,使用xpath查询搜索html元素,将检索到的一些信息存储在mysql数据库中。我使用csharp和java
编写
了我的大多数应用程序,
用
asp.net/c#
编写
了我的web应用程序。 我想问的是,从性能的角度来看,Node.
js
是否值得考虑?考虑到吞吐量是最重要的因素。Node.
js
更易于移植和跨平台是另一个原因,但性能对我来说更重要。
浏览 1
提问于2013-06-30
得票数 2
6
回答
使用node.
js
服务Backbone.
js
应用程序的内容,搜索搜索引擎优化
爬虫
、
、
、
正如您所知,Backbone.
js
有一个弱点--它不能为页面
爬虫
(比如googlebot )呈现的html提供服务,因为他们不运行JavaScript (尽管考虑到它的Google拥有自己的资源、V8引擎输入node.
js
。我才刚刚开始进入这股热潮,但似乎有可能有相同的Backbone.
js
应用程序存在于客户端,在服务器上与node.
js
手牵手。然后,node.
js
将能够提供从Backbone.
js
应用程序呈现到页面
爬虫
的html。这似乎是可行的,但我
浏览 4
提问于2012-09-16
得票数 19
2
回答
需要web爬网帮助
我想知道是否有人知道他们使用过的一个像样的健壮的开源网络
爬虫
?新手应该很容易安装和使用。 感谢您没有搜索网络
爬虫
和粘贴列表。
浏览 2
提问于2010-02-21
得票数 4
2
回答
如何打开需要node.
js
的web应用程序
、
、
、
我必须运行微
爬虫
,这是一个
爬虫
网络应用程序,与node.
js
运行。我不知道如何打开这个应用程序,我下载了node.
js
,当我在node.
js
命令行中
编写
install npm和install bower时,什么也没有发生。我也不知道如何在安装后启动web应用程序。
浏览 2
提问于2014-09-28
得票数 1
5
回答
如何将动态站点转换为可从CD演示的静态站点?
、
、
有没有人对
爬虫
有什么好的建议,可以处理像链接清理,flash,一些ajax,css等等?我知道机会很小,但我认为在我开始
编写
自己的工具之前,我应该在这里抛出这个问题。
浏览 3
提问于2008-09-22
得票数 9
回答已采纳
3
回答
爬虫
可以完全
用
javascript
编写
吗?
、
我想知道-
爬虫
可以完全
用
javascript
编写
吗?这样,只有当用户需要信息时才会调用
爬虫
程序,并且所有内容都是从用户的计算机上运行的。如果crawler是在服务器端
编写
的,是不是也有IP被阻塞的风险?
浏览 1
提问于2010-04-18
得票数 3
1
回答
如何检测收到的网络超时是由请求端点引起的,还是由中间节点(如http代理)引起的?
、
、
、
作为
编写
爬虫
程序(
用
Node.
js
编写
,但实际上不是重点)的一部分,我有时会收到超时和其他网络异常。某些异常(如http errorcode)可以正确地归因于目标请求端点。
浏览 5
提问于2013-06-29
得票数 0
回答已采纳
3
回答
为什么搜索引擎
爬虫
不运行javascript?
、
、
、
我想知道为什么
爬虫
不运行javascript来获得呈现的页面和索引。这背后有什么原因?或者这是搜索引擎未来可能会出现的一个缺失的特性?
浏览 4
提问于2013-10-10
得票数 17
回答已采纳
1
回答
网络
爬虫
会遇到什么危险?
我刚写完一个
爬虫
,一直在想为什么爬行某个网站会很糟糕。我知道现代浏览器的风险主要是由javascript造成的。因此,我的问题是,web
爬虫
(
用
PHP或Java
编写
)是否能够刮起可能会对
爬虫
造成损害的站点?
浏览 3
提问于2014-11-08
得票数 1
2
回答
如何在爬行时绕过robots.txt
、
谁能告诉我,如果有任何方法可以忽略或绕过robots.txt爬行。有没有办法修改脚本,让它忽略robots.txt,继续抓取?User-agent: *Disallow:
浏览 3
提问于2015-01-21
得票数 1
4
回答
有没有适合抓取的服务器端dom引擎?
、
、
、
我发现了一个项目,,它在服务器端嵌入了Firefox引擎,所以它可以很好地解析服务器端的JavaScript。但是,这个项目似乎已经死了。解析HTML和提取数据对于爬行网页是很有帮助的。
浏览 3
提问于2010-10-09
得票数 1
回答已采纳
1
回答
学习多线程Java
爬虫
的良好开端
、
、
我正在用Java开发一个网络
爬虫
。我正在寻找一个很好的项目开发这个
爬虫
的基础上。然而,实际上有超过几百个
用
Java
编写
的
爬虫
程序。我要找的是一个相当简单的
爬虫
,它有: 基于最新的Java构建和新的functionalityGood performanceImplemented好documentationNot的多线程documentationNot
浏览 1
提问于2012-04-16
得票数 0
回答已采纳
5
回答
有哪些好的基于Ruby的网络
爬虫
?
、
我正在考虑写我自己的,但我想知道是否有好的网络
爬虫
在那里是
用
Ruby
编写
的。 除了一个成熟的网络
爬虫
,任何可能有助于构建网络
爬虫
的gem都将是有用的。我知道这个问题的这一部分在几个地方被涉及到了,但是一个适用于构建网络
爬虫
的宝石列表也是一个很好的资源。
浏览 2
提问于2011-02-13
得票数 21
回答已采纳
3
回答
检索包括嵌入对象的网页
、
我想取一个网页,包括图像,flash动画和其他嵌入式对象。实现这一目标的直接方法是什么?
浏览 1
提问于2010-04-19
得票数 2
2
回答
用
Java
编写
的最好的开源Web
爬虫
工具是什么?
、
用
Java
编写
的最好的开源Web
爬虫
工具是什么?
浏览 0
提问于2011-12-12
得票数 13
回答已采纳
2
回答
是否可以
用
javascript
编写
web
爬虫
?
、
我想要下面的函数,并且我知道javascript中的客户端域限制,但是我不知道这个限制是否适用于我希望
爬虫
做的事情。我正在
编写
firefox应用程序,所以所有事情都必须在客户端完成。
浏览 3
提问于2011-03-02
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券