网络爬虫原理_js爬虫原理_网络爬虫 - 腾讯云开发者社区

、

网络爬虫会爬行网络并创建一个网络数据库，还是只会创建一个可搜索的网络索引？假设它创建了一个索引，那么谁来收集网页数据并将其存储在数据库中呢？

浏览 2提问于2010-08-17得票数 0

1回答

C# -列出域中的所有.aspx页面

、

我正在写一个控制台应用程序，列出一个域中的所有aspx页面，大约有50或60个页面，我对如何列出它们一无所知。我正在考虑在System.Web中使用HTTP类，但这是我第一次使用.aspx，并且对它们知之甚少。

浏览 0提问于2013-03-20得票数 0

回答已采纳

1回答

潜在语义分析在开发搜索引擎中的作用是什么？

、、、

我正在为我的最后一年项目开发一个以音乐为中心的搜索引擎，我一直在做一些关于潜在语义分析的研究，以及它在互联网上的工作原理。我很难理解LSI在整个搜索引擎系统中的确切位置。它应该在网络爬虫查找完网页后使用吗？

浏览 1提问于2012-02-21得票数 1

回答已采纳

2回答

浏览器限制会影响网页爬虫吗？

、、

return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图，它也会限制对网络爬虫的访问吗

浏览 0提问于2013-02-21得票数 0

回答已采纳

1回答

我正在寻找一个web应用程序，它可以以与搜索引擎非常相似的方式从网络上收集数据，但它不会将结果作为标题和摘要的列表，而是将结果转储到一个表中，试图从其内部索引中的页面中提取元数据。(很久以前，谷歌有一个叫做Google Squared的网络应用程序。今天还有其他类似的工具吗？这是维基百科页面中的相关描述: Google从整个网络中提取结构化数据，并以类似电子表格的格式显示其结果。每个搜索查询返回一个搜索结果表，其中有自己的一组列--与搜索主题相关联的公共属性。

浏览 0提问于2023-02-07得票数 2

1回答

爬取白页的可能解决方案

、

我正处于一个我必须编写的程序的开始阶段，该程序将从我拥有的大型数据库中提取用户，并将其与任何类似于Whitepages电话簿的内容进行比较。这样做的原因是为了用更新的相关联系信息更新存储在我的数据库中的任何旧联系信息。到目前为止，我只接触过Whitepages Pro，它提供了一个API，允许我对他们的数据库运行一些查询，并返回我认为是最新的信息。我可以访问用户的电话号码、姓名和地址，因此最初的想法是将旧的电话号码+姓名与更新的数据库进行比较，以更正旧的数据。我的问题是，对于我的问题，这看起来是一个好的解决方案吗？Whitepages似乎是我唯一可以使用的工具(它确实花费了300美元，但如果它

浏览 1提问于2015-05-01得票数 0

2回答

在网站和独立应用程序中使用Django框架

、

我计划为它写一个网络爬虫和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络爬虫使用与网站相同的MySQL后端(而不是让网络爬虫本身成为“网站”)。

浏览 1提问于2009-06-04得票数 1

回答已采纳

3回答

当我做SEO的时候，了解机器人是如何工作的对我有帮助吗？

我想学习SEO！了解机器人在进行SEO时是如何工作的有多大帮助？所以有人能回答这个问题吗？也许这是一个愚蠢的问题。谢谢!

浏览 3提问于2009-06-11得票数 1

回答已采纳

1回答

Facebook Linter / Open Graph截取URL路径

、、、、

我一直在网上和StackOverflow上寻找答案，但我没有找到完全适用于我的情况的案例。我使用Facebook Linter来调试FB抓取我的meta标签的方式。如果我在一个简单的About页面上使用它，它可以提取所有内容，特别是og:url元标记。当我抓取正常的内容页面时，问题就开始了。尽管我已经三次检查了我的标记格式是否正确，但FB Linter将URI从URL中删除，因此它报告og:url标记只有域名electionstats.com/！页面上实际存在的og:url标记如下所示：我怀疑这是FB缓存页面的问题，因为在我的About页面上，我进行了快速代码更改，更

浏览 3提问于2011-10-10得票数 0

回答已采纳

5回答