python爬虫百科 - 腾讯云开发者社区

我正在创建一个简单的应用程序，在这个应用程序中，我必须遵循页面的链接，因此on...thus构建了一个非常基本的web爬虫原型。当我测试它时，我遇到了robot.txt，它对任何试图爬行他们的站点的外部爬虫都有点击限制。例如，如果一个网站的robot.txt的命中限制不超过每秒1次(与wikipedia.org一样)，那么如果我以每秒1页的速度爬行维基百科的几个页面，那么我如何估算它在爬行时会被点击多少次呢？问题：，如果我通过python的urllib下载整个页面，它的点击量是多少？

浏览 3提问于2014-12-30得票数 0

回答已采纳

1回答

网站已启动并运行，但解析它会导致HTTP错误503

、、、

我想用urllib2库抓取一个网页，并根据我的需要提取一些信息。我可以自由地浏览站点(从一个链接转到另一个链接，等等)，但是当我试图解析它时，我得到了一个错误我在网上搜索了一下，发现这个错误发生在“网站的服务器当时不可用”的时候。服务器是否可能采取了某种措施来阻止对网页的解析

浏览 2提问于2013-06-30得票数 1

回答已采纳

1回答

智能答疑引擎的AIML

、、、、

我是一名网页开发人员，有一个使用Python2.7构建网页爬虫的网站，并为维基百科建立了索引.所以我想用python构建一个应答引擎，它使用一个字符串变量(它是一个包含整个维基百科的巨大变量)作为信息来源，并使用AI来回答.我可以在AIML中编写这种应答代理程序吗？如果是，请提供教程的链接，其中告诉我如何做到这一点？

浏览 2提问于2013-04-14得票数 6

1回答

网络爬虫-检查<a>标签与href是否在安莉标签使用美丽汤？

、、、

我正在用Python构建一个网络爬虫，使用漂亮的汤来抓取维基百科。问题是维基百科有很多垃圾链接，我不想看。它们的独特之处在于，它们总是出现在<li>标记中，具有某些类属性("nv-talk"、"nv-view"等)，但是我的爬虫依赖于查看<a>标记，因此我无法访问包含它的<li>标记的属性。

浏览 2提问于2014-04-13得票数 1

回答已采纳

2回答

colab研究google:我应该如何将jupyter笔记本的输出写入到我的google驱动器中

、、

我正在为维基百科编写一个爬虫，希望将填充的结果写在csv中。有没有什么办法可以将我的程序生成的输出直接存储到Google电子表格中？

浏览 0提问于2018-03-17得票数 0

4回答

//在<a>标记中意味着什么？

我正在写一个网络爬虫，我从维基百科开始测试它。然而，我注意到维基百科的许多链接都是以//开头的，所以从wikipedia.org到en.wikipedia.org的链接是指向//en.wikipedia.org的链接。这在实践中究竟意味着什么？

浏览 2提问于2013-10-12得票数 3

回答已采纳

2回答

如何从维基百科中提取统计数据？

、

我想提取一份维基百科上所有死亡者的名单，并比较他们死亡时的年龄。维基百科上的所有死人都填写了以下字段：| birth_date = {{birth date|mf=yes|1847|02|11}}| death_date ={{death date and age|mf=yes|1931|10|18|1847|02|11}} 我就得做个爬虫了？

浏览 0提问于2011-07-24得票数 1

回答已采纳

2回答

与window.location.href的安全问题

、、、

在阅读了维基百科一篇关于网址重定向的文章后，我想知道window.location.href="page.php"是否是网页重定向的最佳选择。维基百科的文章指出有什么需要我担心的吗？

浏览 8提问于2012-10-06得票数 2

回答已采纳

1回答

维基百科爬虫的口音

、

我试图用维基百科的python包从维基百科抓取"Muro de Berlín“，但是它不理解口音并且返回一个随机的页面。

浏览 2提问于2016-12-11得票数 0

3回答

将选择的维基百科文章复制到自己的维基中？

、、、

有没有办法将维基百科上的某些文章(大约10000篇)批量复制到我自己的mediawiki站点上？编辑:如何在不覆盖类似命名的文章/页面的情况下执行此操作？此外，我也不打算使用非法手段(爬虫等)

浏览 0提问于2009-05-26得票数 0

回答已采纳

3回答

从维基百科挖掘群体

、

我是否应该使用爬虫来获取页面，并使用BeautifulSoup搜索这些页面？或者，有没有其他选择可以从维基百科上获得同样的东西？

浏览 1提问于2010-03-29得票数 3

回答已采纳

1回答

在维基百科文章之间寻找最危险的路径

、、、

我正在编写一个python爬虫，以找到维基百科文章之间的路径。我有一篇开始文章和一篇目标文章，我试图在它们之间找到一条捷径。

浏览 2提问于2014-11-05得票数 0

回答已采纳

1回答

从维基百科转储中提取特定文章及其谈话页面

、

我是一个全新的网络爬虫。我有下面的维基百科转储链接。我有一份文章标题的清单。它们都是用英语写的。我需要从给定的转储下载这些文章和他们的谈话页面。请让我知道从哪里开始。

浏览 3提问于2020-08-02得票数 0

4回答

废弃维基百科，使用集群管理此数据[已关闭]

、、、、

改进这个问题我是一个Python开发人员，目前正在进行一个与NLP和NLTK相关的项目。在这个项目中，将需要大量的数据来进行事件分析。因此，我给出了两个问题我在哪里寻找如此大量的数据。我的首选是维基百科，但我不知道如何访问它的数据？我需要抓取维基百科吗？我应该如何组织所有这些数据，以便获得更好的搜索结果？K-means聚类会有用吗？

浏览 74提问于2015-11-04得票数 -1

1回答

当建立一个搜索引擎网站爬虫，它应该开始爬行整个互联网？

、

我试图建立一个搜索引擎，其中一个主要组成部分是一个网络爬虫，我被困在一点，在开始的时候，爬虫将开始爬行。它需要一个网页来爬行。第一个网页应该是什么？

浏览 8提问于2021-12-08得票数 1

1回答

不同的GloVe模型有什么不同？

、、

或者说维基百科2014 + Gigaword 5比“普通爬虫”更有代表性？谢谢!

浏览 0提问于2018-02-18得票数 1

回答已采纳

1回答

Nutch爬网在解析一个页面后停止

、

当使用nutch爬行时，它只解析一个页面，并且不向前移动。有谁能帮帮忙。下面是nutch的输出。[Naveen@01hw5189 apache-nutch-1.7]$ bin/nutch crawl urls -dir crawlwiki -depth 10 -topN 10crawl started in: crawlwikithreads = 10solrUrl=nu

浏览 1提问于2013-09-12得票数 2

点击加载更多