我在做一个网络爬虫。为了在页面中查找链接,我使用了selenium中的xpath
driver = webdriver.Firefox()
driver.get(side)
Listlinker = driver.find_elements_by_xpath("//a")
这样做效果很好。然而,测试爬虫时,我发现并不是所有的链接都在a标签下。href有时也用在area或div标记中。
现在我被困在
driver = webdriver.Firefox()
driver.get(side)
Listlinkera = driver.find_elements_by_xpath("//a")
Listlinkerdiv = driver.find_elements_by_xpath("//div")
Listlinkerarea = driver.find_elements_by_xpath("//area")
这真的把爬虫放在了网络爬虫中。
我尝试过xpath "//@href"
,但它不起作用。我还尝试了几种方法来高效地获取所有的href url,都使用了漂亮的soup和lxml,但到目前为止,都没有用。很抱歉,我没有任何代码来展示我用漂亮的soup和lxml所做的工作,但是由于这些被证明是无用的,我删除了它们,我知道这不是最聪明的做法。我现在已经开始保存这些不成功的尝试,为了我自己,如果我想再试一次,并想知道第一次出了什么问题
在这方面我能得到的任何帮助都将不胜感激。
发布于 2011-12-20 16:35:35
试试这个:
ListlinkerHref = driver.find_elements_by_xpath("//*[@href]")
https://stackoverflow.com/questions/8572540
复制相似问题