我经常光顾许多图书馆。布鲁克林公共图书馆、皇后区公共图书馆、纽约公共图书馆和纽约州立大学图书馆。当我想要一本书时,我必须到所有4个在线目录中去搜索它。相反,我想编写一个程序,它将图书、作者、ISBN或其他关键字作为字符串,然后返回4个搜索结果,就像我手动访问每个目录站点一样。我认为这将被认为是一个网络爬虫。我很擅长遵循编程教程,当我知道我在找什么的时候,我会用谷歌搜索一些东西。我真的不知道从哪里开始,希望能得到一些建议。在进阶时谢谢。
发布于 2011-09-28 23:31:48
以下是一些基于python的脚本和示例,展示了如何自动抓取/抓取每个在线目录。这可以在任何语言中完成,但在我看来python是最简单的。
Simple Web Crawler (Python recipe)
Scrapy
或者,在没有预先编写的脚本的情况下,您可以使用urllib2获取网页源代码,然后使用类似BeautifulSoup的内容解析该源代码。使用解析后的源代码,执行一些关键字检查,并显示结果。
https://stackoverflow.com/questions/7577145
复制相似问题