首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用一个搜索字符串搜索4个网站目录

使用一个搜索字符串搜索4个网站目录
EN

Stack Overflow用户
提问于 2011-09-28 08:37:05
回答 1查看 513关注 0票数 1

我经常光顾许多图书馆。布鲁克林公共图书馆、皇后区公共图书馆、纽约公共图书馆和纽约州立大学图书馆。当我想要一本书时,我必须到所有4个在线目录中去搜索它。相反,我想编写一个程序,它将图书、作者、ISBN或其他关键字作为字符串,然后返回4个搜索结果,就像我手动访问每个目录站点一样。我认为这将被认为是一个网络爬虫。我很擅长遵循编程教程,当我知道我在找什么的时候,我会用谷歌搜索一些东西。我真的不知道从哪里开始,希望能得到一些建议。在进阶时谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-09-28 23:31:48

以下是一些基于python的脚本和示例,展示了如何自动抓取/抓取每个在线目录。这可以在任何语言中完成,但在我看来python是最简单的。

Simple Web Crawler (Python recipe)

Scrapy

或者,在没有预先编写的脚本的情况下,您可以使用urllib2获取网页源代码,然后使用类似BeautifulSoup的内容解析该源代码。使用解析后的源代码,执行一些关键字检查,并显示结果。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7577145

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档