如何使用lxml抓取表格和href链接？

文章/答案/技术大牛

发布

1回答

、、、

在Python3中，我让这个程序使用lxml从站点提取一个表，然后创建一个数据帧(基于Syed Sadat Nazrul的- https://towardsdatascience.com/web-scraping-html-tables-with-python-c9baba21059)： import requestsimport pandas as pd response的表，它在表中没有名称：

浏览 14提问于2019-01-11得票数 0

回答已采纳

2回答

如何使用lxml，XPath和Python从网页中提取链接？

、、、、

我得到了这个xpath查询：它提取所有带有标题属性的链接-并在中给出href。但是，我似乎不能在lxml中使用它。from lxml import etree parsedPage = etree.HTML(page) # Create parse tree from valid page.# Xpath query

浏览 0提问于2010-01-18得票数 5

回答已采纳

1回答

Python lxml打印每个表行

、、

当我在'cn‘中输入一些东西时，脚本会在网站上进行查询，并给我一个有多行的表格 from lxml import htmlfrom lxml.etree，但我需要打印所有其他表格行//tr[3]/td[2]/a/text() //tr[4]/td[2]/a/text() //tr[...]/td[2]/a&#x

浏览 7提问于2020-12-29得票数 2

2回答

快速查找链接: regex与lxml

、、、、

我正在尝试建立一个快速的网络爬虫，因此，我需要一个有效的方法来定位页面上的所有链接。像lxml这样的快速XML/HTML解析器与使用正则表达式匹配的解析器之间的性能比较如何？

浏览 1提问于2013-06-05得票数 1

2回答

BeautifulSoup:在网页内

、、、、

我可以使用BS提取所有的链接，但我不能使用它在网页中导航。有没有办法给出主URL，并从网页中的链接中提取所有信息？

浏览 1提问于2014-03-24得票数 0

4回答

Python lxml/beautiful用于查找网页上的所有链接

、

我正在编写一个脚本来阅读网页，并建立一个符合一定标准的链接数据库。现在我被lxml卡住了，并且理解如何从html中抓取所有的<a href>……content = result.read()print lxml.html.find_rel_links(html,'href'

浏览 1提问于2011-05-26得票数 9

回答已采纳

1回答

使用BeautifulSoup抓取时出现问题

、、

我正在尝试使用BeautifulSoup抓取url torrents获取该页面上的所有="fontSize12px torrentnameCell"><a title="Torrent magnet link" href'

浏览 16提问于2011-07-03得票数 0

1回答

使用lxml和XPath抓取href标题

、、、

from lxml import html url'//*[@id="rt-mainbody"]/div/div/div[2]/div[4]/address/a') 我正试着从公司目录上的900多个不同的页面中抓取电子邮件上面的XPath是下面代码

浏览 6提问于2016-03-09得票数 1

回答已采纳

1回答

Python :如果满足特定条件，如何使用不同的抓取页面重复“bs4”循环？

、、

我正在尝试创建一个for循环，一旦它到达抓取的页面中的最后一个search_result属性，它将重复该循环，但会使用新抓取的网页的数据。在for循环到达最后一个属性后，它将在网页上查找链接，并对新抓取的网页重复该循环。soup = BeautifulS

浏览 7提问于2019-08-16得票数 1

回答已采纳

1回答

用Beautifulsoup抓取视频描述

、、、

我试着在youtube上抓取视频描述中的链接，但列表总是返回空。我已经尝试从我抓取的位置更改标记，但输出和错误消息都没有更改。下面是我使用的代码： from bs4 import BeautifulSoup soup = BeautifulSoup(source, 'lxml</

浏览 12提问于2021-09-08得票数 0

回答已采纳

2回答

如何在使用“requests”时获得具有绝对链接路径的原始html

、、、

当使用requests库向https://stackoverflow.com发出请求时printv=c78bd457575a"> <link rel="image_src" href="https://cdn.sstatic.net/Sites/stackoverflow/Im

浏览 10提问于2020-12-24得票数 4

回答已采纳

2回答

将数据从Tripadvisor导入Google电子表格或Excel

、、、

是否可以获取此数据的列表：阿姆斯特丹所有餐馆的名单。如果可能的话，还有详细的地址等等。非常感谢！

浏览 1提问于2020-09-17得票数 0

1回答

下载HTML时未出现URL如何刮除？Javascript在这里可能是个问题

、、、、

我可以得到标题和其他网址。但是它们中的一些不在HTML上，无法使用请求和lxml进行抓取。我不想使用selenium/bs4 4/美观so，因为代码将在Heroku服务器上运行，因此会使一切变得更加困难。尽管存在这个问题，有谁知道如何刮掉URL吗

浏览 4提问于2022-03-11得票数 1

回答已采纳

1回答

如何在不导入整个模块的情况下处理lxml错误？

、、、

它抓取页面的内容，提取链接并抓取它们。它使用lxml.html来处理链接，并使用我正在尝试为它在运行时可能遇到的每个错误创建自定义响应。我目前正在处理Unicode、SSL、重定向、连接和ContentDecode错误。我经常碰到lxml.etree.XMLSyntaxError和lxml.etree.XMLParseError。我尝试

浏览 7提问于2017-05-21得票数 0

1回答

如何使用bs4在python中刮取多个页面

、、

我有一个查询，因为我一直在刮一个网站"“，因为我无法从表中给定的链接中抓取电子邮件id。虽然需要从给定表格中的链接中刮取姓名、电子邮件和董事。请任何人，解决我的问题，因为我是一个新手，使用python与美丽的汤和要求的网页刮。/company-list").textfrom bs4 import BeautifulSoup soup = BeautifulSoup(link,'lxml

浏览 2提问于2020-05-03得票数 0

回答已采纳

1回答

使用python从同一网页中的多个链接中提取数据

、、、

我是蟒蛇和网络抓取的新手。response = requests.get(url) soup = BeautifulSoup(response.content, 'lxml

浏览 1提问于2018-01-19得票数 0

1回答

我试图用BeautifulSoup从维基百科上抓取参考链接，但一直没有得到任何结果

、

我正在尝试从wiki页面中抓取参考链接，但是我一直没有得到任何输出。from bs4 import BeautifulSoupsoup=BeautifulSoup(webs.content,'lxml') links=soup.f

浏览 0提问于2020-07-04得票数 0

1回答

如何使用beautifulSoup对堆栈溢出问题进行web抓取标记？

、

for link in soup.find_all('a', {'class': 'post-tag'}): # href = link.get('href') for在从堆栈溢出站点提取数据时，我们在抓取问题的标签时遇到了问题。我们可以抓取标签，但它们不会显示在问题中。

浏览 0提问于2018-03-17得票数 0

1回答

使用bs4和requests抓取起始页面

、、、

我正在尝试从中抓取搜索结果，我已经使用bs4和requests抓取了所有准备好的结果。我在能够抓取结果后遇到了一个问题。我无法进入搜索结果的下一页。使用web浏览开发人员工具找不到链接。当我检查这个元素时，这就是它所显示的，<a href="javascript:;" class="numbers_st" onclick="mysubmit(10); return false;" id:

浏览 0提问于2017-07-06得票数 0

1回答

从雅虎财经抓取python中的数据

、

我可以抓取表格格式，但不能抓取非表格格式。我将同样的原则应用于在同一页中抓取信息，但没有结果。p=AAPL中抓取import numpy as npimport lxml table = tree.xpath('/&#

浏览 4提问于2019-11-19得票数 0

回答已采纳

点击加载更多