腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
非常简单的
C++
网络
爬虫
/蜘蛛?
、
我试图在
C++
中做一个非常简单的网页
爬虫
/蜘蛛应用程序。我一直在使用谷歌搜索一个简单的,以了解这个概念。我发现了这个: 然而,这是复杂的理解对我来说,因为我开始学习
C++
大约一个月前。
浏览 15
提问于2010-11-25
得票数 22
回答已采纳
3
回答
C++
网络
爬虫
、
、
、
我正在尝试并尝试制作一个最小的
网络
爬虫
。我在很高的层次上理解了整个过程。那么进入下一层细节,程序如何“连接”到不同的网站来提取HTML?谢谢!
浏览 1
提问于2012-07-01
得票数 0
回答已采纳
1
回答
高性能
网络
蜘蛛的开发
、
、
、
我想开发一个WebSpider守护进程(PHP/C/
C++
)你知道关于如何开发高性能
网络
爬虫
的好参考资料吗?
浏览 0
提问于2011-10-17
得票数 0
1
回答
网页爬行技术的信息
、
我正在构建一个小型的
网络
爬虫
,我想知道是否有人对实际的实现有一些有趣的信息(只是爬行,没有搜索,没有排名,没有分类,只是爬行,亲吻:)。为了记录在案,我已经有了O‘’Reilly“蜘蛛黑客”和“无淀粉出版社”的“
网络
机器人、蜘蛛和屏幕刮刀”。这些书很好,但是它们倾向于保持简单,对于缩放、存储数据、并行的东西和其他更高级的主题不详细。当然,我可以检查现有的开源
爬虫
的代码,但是这会发生在另一个边缘(
C++
爬虫
看起来很复杂.)。我正在寻找一些有趣的信息。 欢迎任何帮助,谢谢。
浏览 5
提问于2009-05-18
得票数 2
5
回答
哪种语言最适合高效的
网络
爬虫
?
、
我需要写一个
网络
爬虫
,我需要哪种语言是性能最好的语言,比如内存和性能。 编辑:原名是“为速度和性能而优化的语言
c++
或C#”
浏览 7
提问于2010-09-21
得票数 0
2
回答
有效地搜索大量URL列表
、
、
、
我正在建立一个
网络
爬虫
,它必须爬行数百个网站。我的
爬虫
保存了一个已经爬行的urls列表。每当
爬虫
要爬行一个新页面时,它首先搜索已经爬行的url列表,如果已经列出了,则
爬虫
跳到下一个url,以此类推。
爬虫
目前是用Python编写的。但我将把它移植到
C++
或其他更好的语言中。
浏览 5
提问于2016-06-23
得票数 0
回答已采纳
1
回答
有一个流行的工具来抓取
网络
数据吗?
、
我正在做信息提取的工作,我需要一个工具从网页上抓取数据,windows中有流行的工具吗?
浏览 7
提问于2009-12-14
得票数 0
1
回答
如何用
C++
点击网站上的按钮
、
我正在用
C++
设计一个
网络
爬虫
,但是有一个网页问我:“你至少18岁吗?”当我第一次使用URLDownloadToFileW获取网页时,当然我必须单击“是”。在javascript中,我可以使用document.getElementsByTagName('button')[0].click();模拟按钮单击,那么是否还有其他方法来解决
C++
的此类问题?
浏览 1
提问于2016-10-01
得票数 0
2
回答
浏览器限制会影响网页
爬虫
吗?
、
、
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对
网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
5
回答
如何将动态站点转换为可从CD演示的静态站点?
、
、
有没有人对
爬虫
有什么好的建议,可以处理像链接清理,flash,一些ajax,css等等?我知道机会很小,但我认为在我开始编写自己的工具之前,我应该在这里抛出这个问题。
浏览 3
提问于2008-09-22
得票数 9
回答已采纳
1
回答
解析来自
C++
代码的URL
、
、
、
、
我正在
C++
中创建一个简单的
网络
爬虫
。目前,我已经设法从种子URL获取HTML代码,该URL保存在一个字符串或文本文件中。 如何在中找到并保存我想要继续爬行的URL?
浏览 1
提问于2014-02-16
得票数 0
回答已采纳
1
回答
什么工具或语言,或者我如何才能建立像谷歌新闻的网站
我必须建立一个网站,我需要爬行过滤,或者你可以说阅读50个网站管理员。然后阅读这些网站后,我需要过滤新闻e,例如与梅赛德斯奔驰相关的新闻,然后我需要显示在该网站上参考原始来源。目前,我知道PHP,可以在其中建立复杂的网站。但是我不知道如何阅读其他网站。我不知道如何继续,我的意思是,在尝试制作网站之前,我需要学习哪些东西。或者我可以直接潜入这个网站。
浏览 2
提问于2010-09-13
得票数 0
回答已采纳
3
回答
如何从另一个网站“抓取”内容
、
我的一个朋友问我这个问题,我无法回答。它的工作原理是这样的,你像something.com这样进入你的网站,然后我们的网站抓取该网站上的内容,比如图片,然后所有这些都上传到我们的网站上。然后,即使支持something.com的服务器宕机,人们也可以在我们的site.com/omething.com上查看该站点的精确副本。
浏览 2
提问于2010-08-01
得票数 0
回答已采纳
1
回答
搜索引擎,它根据非结构化数据创建有关主题的信息表。
、
、
、
我正在寻找一个web应用程序,它可以以与搜索引擎非常相似的方式从
网络
上收集数据,但它不会将结果作为标题和摘要的列表,而是将结果转储到一个表中,试图从其内部索引中的页面中提取元数据。(很久以前,谷歌有一个叫做Google Squared的
网络
应用程序。今天还有其他类似的工具吗?这是维基百科页面中的相关描述: Google从整个
网络
中提取结构化数据,并以类似电子表格的格式显示其结果。每个搜索查询返回一个搜索结果表,其中有自己的一组列--与搜索主题相关联的公共属性。
浏览 0
提问于2023-02-07
得票数 2
3
回答
谷歌机器人信息?
、
、
有没有人知道更多关于谷歌
网络
爬虫
(又称GoogleBot)的细节?我很好奇它是用什么写的(我自己做了几个
爬虫
,现在正准备做另一个),以及它是否能解析图像之类的东西。也许它们都是用C/
C++
编写的。提前谢谢你-
浏览 1
提问于2010-04-14
得票数 0
回答已采纳
3
回答
国产
网络
爬虫
的问题
、
我已经在
C++
中建立了一个
网络
爬虫
。我正在使用一个名为URLdownloadToFile()的API。 还有其他可以使用的API吗?
浏览 1
提问于2009-01-02
得票数 1
1
回答
爬取白页的可能解决方案
、
我正处于一个我必须编写的程序的开始阶段,该程序将从我拥有的大型数据库中提取用户,并将其与任何类似于Whitepages电话簿的内容进行比较。这样做的原因是为了用更新的相关联系信息更新存储在我的数据库中的任何旧联系信息。到目前为止,我只接触过Whitepages Pro,它提供了一个API,允许我对他们的数据库运行一些查询,并返回我认为是最新的信息。我可以访问用户的电话号码、姓名和地址,因此最初的想法是将旧的电话号码+姓名与更新的数据库进行比较,以更正旧的数据。我的问题是,对于我的问题,这看起来是一个好的解决方案吗?Whitepages似乎是我唯一可以使用的工具(它确实花费了300美元,但如果它
浏览 1
提问于2015-05-01
得票数 0
2
回答
爬虫
存储系统所需的建议
、
、
、
我计划用
c++
编写一个
网络
爬虫
,它每天爬行N个页面。主要的问题是我把存储系统搞糊涂了。所以我需要一个高效的分布式数据库来存储我抓取的数据。有没有人能给我推荐一个符合条件的db?
浏览 0
提问于2011-03-20
得票数 1
2
回答
在网站和独立应用程序中使用Django框架
、
我计划为它写一个
网络
爬虫
和一个基于
网络
的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让
网络
爬虫
使用与网站相同的MySQL后端(而不是让
网络
爬虫
本身成为“网站”)。
浏览 1
提问于2009-06-04
得票数 1
回答已采纳
5
回答
有哪些好的基于Ruby的
网络
爬虫
?
、
我正在考虑写我自己的,但我想知道是否有好的
网络
爬虫
在那里是用Ruby编写的。 除了一个成熟的
网络
爬虫
,任何可能有助于构建
网络
爬虫
的gem都将是有用的。我知道这个问题的这一部分在几个地方被涉及到了,但是一个适用于构建
网络
爬虫
的宝石列表也是一个很好的资源。
浏览 2
提问于2011-02-13
得票数 21
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
网络爬虫
网络爬虫简介
网络爬虫常用的几种技巧,三探爬虫,理解爬虫
什么是网络爬虫?
Golang 原生实现简单爬虫:了解网络爬虫原理
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券