腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
抓取
图像、整个Web页面并缓存它们
python
我想
抓取
一些图像和他们的网页。我需要将
抓取
结果保存在本地磁盘中以供进一步分析。我想知道这个问题有没有开源的?
浏览 0
提问于2010-06-16
得票数 0
2
回答
有没有可以下载整个网站的网络
爬虫
?
dynamic
、
hyperlink
需要知道是否有一个
爬虫
/下载器,可以
抓取
和下载和整个网站的链接深度至少为4页。我正在尝试下载的站点有
java
script超链接,这些超链接只能由浏览器呈现,因此
爬虫
程序无法
抓取
这些超链接,除非
爬虫
程序自己呈现它们!
浏览 4
提问于2010-09-30
得票数 0
回答已采纳
1
回答
用于
爬虫
应用的数据库系统
database
、
web-crawler
我在一个基于
java
的
爬虫
上工作。我想在我的
爬虫
恢复功能,用户可以在任何时候暂停
爬虫
,在他想要的情况下,
爬虫
崩溃的情况下,他应该能够开始从
爬虫
停止的点上一次爬行。
浏览 2
提问于2012-01-06
得票数 1
回答已采纳
2
回答
浏览器限制会影响网页
爬虫
吗?
redirect
、
asp.net-mvc-4
、
web-crawler
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
1
回答
用
Java
开发自动web
爬虫
web-crawler
你好,我想
抓取
多个电子商务网站,并获得所有可用的产品被
抓取
和显示在我的网站。我已经使用
Java
开发了
爬虫
,但在这方面,我们必须通过提供URL和HTML标记来手动
抓取
网站,并通过连接URL和解析URL来
抓取
站点,并在相应的HTML标记中获取产品。如果我想爬行佳能相机,
爬虫
应该自动完成。 有可能使
爬虫
自动化吗?如果是,请帮助我做这件事。
浏览 1
提问于2014-01-20
得票数 1
4
回答
Java
-销毁正在执行某些操作的对象
java
、
multithreading
我看过
Java
中关于析构函数的帖子,了解到
Java
没有析构函数,但我很困惑,如果没有析构函数,我的应用程序需要做什么。 我的应用程序允许用户创建一系列的网络
爬虫
,这些
爬虫
保存在一个数组列表中。每个crawler都有一个进度面板gui,显示已爬行的页面等,并允许用户暂停该
爬虫
。但是,用户可能还想“终止”该
爬虫
程序。我需要做什么才能让用户按下"Terminate“,对于那个爬行器,它的
抓取
器,以及
抓取
器的DatabaseConnection,都被
浏览 4
提问于2011-07-08
得票数 0
回答已采纳
1
回答
使用javascript URL数组的网络
爬虫
?
javascript
、
java
、
arrays
我让用户输入他们想要
抓取
最新更新的URL列表。我对
Java
很熟悉,所以我试着用
Java
做一个网络
爬虫
,但我不太明白如何把这个数组从javascript转换成
Java
。为了能够
抓取
数组中的每个URL,最兼容的语言是什么?
浏览 3
提问于2016-01-17
得票数 0
1
回答
使用
java
抓取
纬编的IFrame内容
java
、
html
、
iframe
、
web-crawler
我想
抓取
网页的IFrame内容(动态内容);是否有人曾尝试过这种方法/是否有任何新的解决方案来
抓取
动态内容,如IFrame?
浏览 3
提问于2014-12-09
得票数 1
5
回答
C#中任何好的开源网络爬行框架
c#
、
screen-scraping
、
web-crawler
、
web-scraping
我已经决定在C#中构建
爬虫
。我对HttpWebRequest/HttpWebResponse类有很多不好的体验,众所周知,它们对于大型
爬虫
来说是高度错误和不稳定的。如果他们知道有什么好的开源
爬虫
框架,比如
java
有nutch和apache commons,它们是非常稳定和高度健壮的库,我想要这里的专家们的意见,他们已经编码
爬虫
程序。编辑:我必须
抓取
的一些网站使用非常复杂的
Java
Script呈现页面,现在这增加了我的网络
爬虫
的复杂性,因为我
浏览 2
提问于2010-12-06
得票数 9
回答已采纳
2
回答
使用javascript导入外部页面
javascript
、
greasemonkey
、
web-crawler
我想做一个
java
脚本
爬虫
,从php服务器获得一个分配,然后索引页面。但是我想
抓取
的网站是外部的,我不能用javascript访问它们,有没有人有其他赋值语言或javascript的解决方案。我想过在加载新站点时使用greasemonkey
抓取
页面。
浏览 1
提问于2012-03-06
得票数 0
2
回答
数据挖掘,用于收集网站的详细信息并放入CSV或SQL中
data-mining
我如何开始编写一个程序,它将
抓取
他们的页面,并将页面的选择性信息放入CSV格式,然后我可以将其导入到我的网站中? 至少,我可以在哪里学到这一点?谢谢。
浏览 9
提问于2011-03-26
得票数 0
回答已采纳
2
回答
使用Web Crawler爬行Web数据
java
、
web-crawler
我想使用一个网络
爬虫
和
抓取
一个特定的网站。该网站是一个学习管理系统,许多学生在这里上传他们的作业,项目演示文稿等。我的问题是,我可以使用网络
爬虫
下载已经上传到学习管理系统中的文件吗?
爬虫
能做到这点吗?我知道webeater (用
Java
编写的Crawler )
浏览 1
提问于2011-03-30
得票数 1
回答已采纳
2
回答
我需要为特定的用户代理编写一个网络
爬虫
php
、
web-crawler
我需要编写一个网络
爬虫
,并希望能够爬行使用一个已知的用户代理。例如,我希望我的
爬虫
程序充当iphone来
抓取
网站的移动站点,然后使用Mozilla PC代理再次
抓取
,等等。这样,我将能够
抓取
每一个“类型”的网站(移动和个人电脑)。然而,我也希望能够设置我的
爬虫
的用户代理,这样网站管理员也可以在他们的统计数据中看到访问整个网站的是一个
爬虫
,而不是真正的用户。所以我的问题是,你们知道如何在PHP中同时设置一个移动代理和一个
爬虫
代理吗?这有可能吗?
浏览 1
提问于2011-05-14
得票数 3
回答已采纳
1
回答
将Nutch web爬行功能集成到
Java
应用程序中
java
、
web-crawler
、
nutch
我会在我的
Java
应用程序中使用Apache从一个或多个网站
抓取
网页。基本上,为了处理页面内容(文本等),我需要为web
爬虫
找到的每个网页调用我的
Java
应用程序的方法。如何做到这一点?
浏览 7
提问于2016-06-01
得票数 2
回答已采纳
1
回答
使用X509爬行某些urls时的StormCrawler证书异常
java
、
web-crawler
、
apache-storm
、
x509certificate
、
stormcrawler
我一直在使用StormCrawler来
抓取
网站。作为https协议,我在StormCrawler中设置了默认的https协议。然而,当我
抓取
一些网站时,我收到以下例外情况:at
java
.security.cert.CertPathBuilder.build(CertPathBuilder.
java
:280) ~[?:1.8.0_131] at
浏览 1
提问于2018-03-21
得票数 2
回答已采纳
2
回答
用crawler4j请求发送cookies?
java
、
cookies
、
web-crawler
我需要
抓取
一些链接,这些链接依赖于GET请求中发送的cookie。因此,当我想用crawler4j
抓取
页面时,我需要发送一些cookie来获取正确的页面。或者,有没有
Java
爬虫
能够做到这一点? 感谢您的帮助。
浏览 3
提问于2011-12-16
得票数 3
回答已采纳
1
回答
从单个MongoDB队列获取信息的多个工作人员
python
、
mongodb
、
queue
、
mongodb-query
、
worker
我正在用Python构建一个web
爬虫
,使用MongoDB来存储一个队列,其中包含所有要爬行的URL。我将有几个独立的工人,将
抓取
URL。每当工作人员完成URL
抓取
时,它将在MongoDB集合"queue“中发出请求,以获得要爬行的新URL。我的问题是,既然会有多个
爬虫
,我如何确保两个
爬虫
器不会同时查询数据库并获得相同的URL来
抓取
? 非常感谢你的帮助
浏览 0
提问于2014-03-29
得票数 0
回答已采纳
2
回答
web爬行工具,支持在开始爬行之前与目标站点进行交互
web-crawler
、
nutch
我正在寻找一个
爬虫
,它能够处理与Ajax的页面,并能够在开始爬行网站之前与目标网站执行某些用户交互(例如,点击某些菜单项,填写一些表格等).I尝试webdriver/selenium (这是真正的网络
抓取
工具),现在我想知道是否有任何
爬虫
程序,支持模拟某些用户交互之前开始爬行?(用
Java
、Python或Ruby ...)如果是,我很感谢任何描述这一点的链接。
浏览 1
提问于2011-06-28
得票数 0
6
回答
爬虫
vs刮板
web-crawler
、
terminology
、
scraper
有人能在范围和功能方面区分
爬虫
和刮板吗?
浏览 0
提问于2010-07-09
得票数 71
回答已采纳
2
回答
Google为我的网站显示了错误的标题- robots.txt问题
wordpress
、
web-crawlers
、
robots.txt
我们直截了当地说吧。我已经建立了这个网站以及所有的东西,但是当我在google上输入"lissa mariage“时,它显示了这从罗马尼亚翻译过来的意思:"pages_rss_title”。User-agent: GoogleDisallow: /现在,我需要你们的帮助,帮助我创建一个合适的robots.txt,因为我知道如果你不知道自
浏览 0
提问于2015-12-17
得票数 4
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
爬虫抓取页面图片
爬虫抓取页面图片 update
爬虫常见的抓取策略
百度爬虫抓取规则
Python爬虫:抓取手机APP的数据
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券