网络爬虫 c++_网络爬虫_网络爬虫建模 - 腾讯云开发者社区

、

我试图在C++中做一个非常简单的网页爬虫/蜘蛛应用程序。我一直在使用谷歌搜索一个简单的，以了解这个概念。我发现了这个：然而，这是复杂的理解对我来说，因为我开始学习C++大约一个月前。

浏览 15提问于2010-11-25得票数 22

回答已采纳

3回答

C++网络爬虫

、、、

我正在尝试并尝试制作一个最小的网络爬虫。我在很高的层次上理解了整个过程。那么进入下一层细节，程序如何“连接”到不同的网站来提取HTML？谢谢!

浏览 1提问于2012-07-01得票数 0

回答已采纳

1回答

高性能网络蜘蛛的开发

、、、

我想开发一个WebSpider守护进程(PHP/C/C++)你知道关于如何开发高性能网络爬虫的好参考资料吗？

浏览 0提问于2011-10-17得票数 0

1回答

我正在构建一个小型的网络爬虫，我想知道是否有人对实际的实现有一些有趣的信息(只是爬行，没有搜索，没有排名，没有分类，只是爬行，亲吻:)。为了记录在案，我已经有了O‘’Reilly“蜘蛛黑客”和“无淀粉出版社”的“网络机器人、蜘蛛和屏幕刮刀”。这些书很好，但是它们倾向于保持简单，对于缩放、存储数据、并行的东西和其他更高级的主题不详细。当然，我可以检查现有的开源爬虫的代码，但是这会发生在另一个边缘(C++爬虫看起来很复杂.)。我正在寻找一些有趣的信息。欢迎任何帮助，谢谢。

浏览 5提问于2009-05-18得票数 2

5回答

哪种语言最适合高效的网络爬虫？

、

我需要写一个网络爬虫，我需要哪种语言是性能最好的语言，比如内存和性能。编辑：原名是“为速度和性能而优化的语言c++或C#”

浏览 7提问于2010-09-21得票数 0

2回答

有效地搜索大量URL列表

、、、

我正在建立一个网络爬虫，它必须爬行数百个网站。我的爬虫保存了一个已经爬行的urls列表。每当爬虫要爬行一个新页面时，它首先搜索已经爬行的url列表，如果已经列出了，则爬虫跳到下一个url，以此类推。爬虫目前是用Python编写的。但我将把它移植到C++或其他更好的语言中。

浏览 5提问于2016-06-23得票数 0

回答已采纳

1回答

有一个流行的工具来抓取网络数据吗？

、

我正在做信息提取的工作，我需要一个工具从网页上抓取数据，windows中有流行的工具吗？

浏览 7提问于2009-12-14得票数 0

1回答

如何用C++点击网站上的按钮

、

我正在用C++设计一个网络爬虫，但是有一个网页问我：“你至少18岁吗？”当我第一次使用URLDownloadToFileW获取网页时，当然我必须单击“是”。在javascript中，我可以使用document.getElementsByTagName('button')[0].click();模拟按钮单击，那么是否还有其他方法来解决C++的此类问题？

浏览 1提问于2016-10-01得票数 0

2回答

浏览器限制会影响网页爬虫吗？

、、

return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图，它也会限制对网络爬虫的访问吗

浏览 0提问于2013-02-21得票数 0

回答已采纳

5回答

如何将动态站点转换为可从CD演示的静态站点？

、、

有没有人对爬虫有什么好的建议，可以处理像链接清理，flash，一些ajax，css等等？我知道机会很小，但我认为在我开始编写自己的工具之前，我应该在这里抛出这个问题。

浏览 3提问于2008-09-22得票数 9

回答已采纳

1回答

解析来自C++代码的URL

、、、、

我正在C++中创建一个简单的网络爬虫。目前，我已经设法从种子URL获取HTML代码，该URL保存在一个字符串或文本文件中。如何在中找到并保存我想要继续爬行的URL？

浏览 1提问于2014-02-16得票数 0

回答已采纳

1回答

什么工具或语言，或者我如何才能建立像谷歌新闻的网站

我必须建立一个网站，我需要爬行过滤，或者你可以说阅读50个网站管理员。然后阅读这些网站后，我需要过滤新闻e，例如与梅赛德斯奔驰相关的新闻，然后我需要显示在该网站上参考原始来源。目前，我知道PHP，可以在其中建立复杂的网站。但是我不知道如何阅读其他网站。我不知道如何继续，我的意思是，在尝试制作网站之前，我需要学习哪些东西。或者我可以直接潜入这个网站。

浏览 2提问于2010-09-13得票数 0

回答已采纳

3回答

如何从另一个网站“抓取”内容

、

我的一个朋友问我这个问题，我无法回答。它的工作原理是这样的，你像something.com这样进入你的网站，然后我们的网站抓取该网站上的内容，比如图片，然后所有这些都上传到我们的网站上。然后，即使支持something.com的服务器宕机，人们也可以在我们的site.com/omething.com上查看该站点的精确副本。

浏览 2提问于2010-08-01得票数 0

回答已采纳

1回答

搜索引擎，它根据非结构化数据创建有关主题的信息表。

、、、

我正在寻找一个web应用程序，它可以以与搜索引擎非常相似的方式从网络上收集数据，但它不会将结果作为标题和摘要的列表，而是将结果转储到一个表中，试图从其内部索引中的页面中提取元数据。(很久以前，谷歌有一个叫做Google Squared的网络应用程序。今天还有其他类似的工具吗？这是维基百科页面中的相关描述: Google从整个网络中提取结构化数据，并以类似电子表格的格式显示其结果。每个搜索查询返回一个搜索结果表，其中有自己的一组列--与搜索主题相关联的公共属性。

浏览 0提问于2023-02-07得票数 2

3回答

谷歌机器人信息？

、、

有没有人知道更多关于谷歌网络爬虫(又称GoogleBot)的细节？我很好奇它是用什么写的(我自己做了几个爬虫，现在正准备做另一个)，以及它是否能解析图像之类的东西。也许它们都是用C/C++编写的。提前谢谢你-

浏览 1提问于2010-04-14得票数 0

回答已采纳

3回答

国产网络爬虫的问题

、

我已经在C++中建立了一个网络爬虫。我正在使用一个名为URLdownloadToFile()的API。还有其他可以使用的API吗？

浏览 1提问于2009-01-02得票数 1

1回答

爬取白页的可能解决方案

、

我正处于一个我必须编写的程序的开始阶段，该程序将从我拥有的大型数据库中提取用户，并将其与任何类似于Whitepages电话簿的内容进行比较。这样做的原因是为了用更新的相关联系信息更新存储在我的数据库中的任何旧联系信息。到目前为止，我只接触过Whitepages Pro，它提供了一个API，允许我对他们的数据库运行一些查询，并返回我认为是最新的信息。我可以访问用户的电话号码、姓名和地址，因此最初的想法是将旧的电话号码+姓名与更新的数据库进行比较，以更正旧的数据。我的问题是，对于我的问题，这看起来是一个好的解决方案吗？Whitepages似乎是我唯一可以使用的工具(它确实花费了300美元，但如果它

浏览 1提问于2015-05-01得票数 0

2回答