文章/答案/技术大牛

发布

问从代码中获取所有href
EN

Stack Overflow用户

提问于 2011-12-20 16:23:00

回答 1查看 4.7K关注 0票数 1

我在做一个网络爬虫。为了在页面中查找链接，我使用了selenium中的xpath

driver = webdriver.Firefox()
driver.get(side)
Listlinker = driver.find_elements_by_xpath("//a")

这样做效果很好。然而，测试爬虫时，我发现并不是所有的链接都在a标签下。href有时也用在area或div标记中。

现在我被困在

driver = webdriver.Firefox()
driver.get(side)
Listlinkera = driver.find_elements_by_xpath("//a")
Listlinkerdiv = driver.find_elements_by_xpath("//div")
Listlinkerarea = driver.find_elements_by_xpath("//area")

这真的把爬虫放在了网络爬虫中。

我尝试过xpath "//@href"，但它不起作用。我还尝试了几种方法来高效地获取所有的href url，都使用了漂亮的soup和lxml，但到目前为止，都没有用。很抱歉，我没有任何代码来展示我用漂亮的soup和lxml所做的工作，但是由于这些被证明是无用的，我删除了它们，我知道这不是最聪明的做法。我现在已经开始保存这些不成功的尝试，为了我自己，如果我想再试一次，并想知道第一次出了什么问题

在这方面我能得到的任何帮助都将不胜感激。

lxml

python

selenium

web-crawler

beautifulsoup

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-12-20 16:35:35

试试这个：

ListlinkerHref = driver.find_elements_by_xpath("//*[@href]")

票数 6

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8572540

复制

相似问题

问从代码中获取所有href
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从代码中获取所有hrefEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从代码中获取所有href
EN