您好,我正在编码一个搜索Dirs和文件的工具。
已经这样做了,该工具搜索目录,但需要帮助,使其搜索网站上的文件。
你知道它在python中是怎么回事吗?
发布于 2009-02-06 14:00:58
此工具是否正在扫描您自己的网站(运行该工具的网站)或外部网站的目录?
发布于 2009-02-06 14:10:02
只有当您有权浏览站点上的目录并且不存在默认页面时,才能执行此操作。
发布于 2009-02-06 14:17:46
您无法在网站上获取目录列表。
老生常谈地说,HTTP没有目录的概念。
实际上,WebDAV提供了目录列表谓词,因此如果启用了WebDAV,则可以使用该谓词。
否则,您可以做的最接近的事情类似于递归wget所做的事情:获取一个页面,解析HTML,查找超链接(xpath中的a/@href
),过滤掉没有指向当前页面下的URL的超链接,递归到剩余的URL。
您可以根据您的用例进行进一步的过滤,例如删除URL的查询部分(第一个?
之后的任何内容)。
当服务器启用了目录列表功能时,这将为您提供一些有用的信息。这也给你一些有用的东西,如果网站没有目录列表,但以合理的方式组织。
https://stackoverflow.com/questions/520362
复制相似问题