首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从代码中获取所有href

从代码中获取所有href
EN

Stack Overflow用户
提问于 2011-12-20 16:23:00
回答 1查看 4.7K关注 0票数 1

我在做一个网络爬虫。为了在页面中查找链接,我使用了selenium中的xpath

代码语言:javascript
运行
复制
driver = webdriver.Firefox()
driver.get(side)
Listlinker = driver.find_elements_by_xpath("//a")

这样做效果很好。然而,测试爬虫时,我发现并不是所有的链接都在a标签下。href有时也用在area或div标记中。

现在我被困在

代码语言:javascript
运行
复制
driver = webdriver.Firefox()
driver.get(side)
Listlinkera = driver.find_elements_by_xpath("//a")
Listlinkerdiv = driver.find_elements_by_xpath("//div")
Listlinkerarea = driver.find_elements_by_xpath("//area")

这真的把爬虫放在了网络爬虫中。

我尝试过xpath "//@href",但它不起作用。我还尝试了几种方法来高效地获取所有的href url,都使用了漂亮的soup和lxml,但到目前为止,都没有用。很抱歉,我没有任何代码来展示我用漂亮的soup和lxml所做的工作,但是由于这些被证明是无用的,我删除了它们,我知道这不是最聪明的做法。我现在已经开始保存这些不成功的尝试,为了我自己,如果我想再试一次,并想知道第一次出了什么问题

在这方面我能得到的任何帮助都将不胜感激。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-12-20 16:35:35

试试这个:

代码语言:javascript
运行
复制
ListlinkerHref = driver.find_elements_by_xpath("//*[@href]")
票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8572540

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档