问使用一个搜索字符串搜索4个网站目录
EN

Stack Overflow用户

提问于 2011-09-28 08:37:05

回答 1查看 513关注 0票数 1

我经常光顾许多图书馆。布鲁克林公共图书馆、皇后区公共图书馆、纽约公共图书馆和纽约州立大学图书馆。当我想要一本书时，我必须到所有4个在线目录中去搜索它。相反，我想编写一个程序，它将图书、作者、ISBN或其他关键字作为字符串，然后返回4个搜索结果，就像我手动访问每个目录站点一样。我认为这将被认为是一个网络爬虫。我很擅长遵循编程教程，当我知道我在找什么的时候，我会用谷歌搜索一些东西。我真的不知道从哪里开始，希望能得到一些建议。在进阶时谢谢。

algorithm

web-crawler

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-09-28 23:31:48

以下是一些基于python的脚本和示例，展示了如何自动抓取/抓取每个在线目录。这可以在任何语言中完成，但在我看来python是最简单的。

Simple Web Crawler (Python recipe)

Scrapy

或者，在没有预先编写的脚本的情况下，您可以使用urllib2获取网页源代码，然后使用类似BeautifulSoup的内容解析该源代码。使用解析后的源代码，执行一些关键字检查，并显示结果。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/7577145

复制

相似问题

问使用一个搜索字符串搜索4个网站目录
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用一个搜索字符串搜索4个网站目录EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用一个搜索字符串搜索4个网站目录
EN