腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
lxml
抓取
表格
和
href
链接
?
、
、
、
在Python3中,我让这个程序
使用
lxml
从站点提取一个表,然后创建一个数据帧(基于Syed Sadat Nazrul的- https://towardsdatascience.com/web-scraping-html-tables-with-python-c9baba21059): import requestsimport pandas as pd response的表,它在表中没有名称:
浏览 14
提问于2019-01-11
得票数 0
回答已采纳
2
回答
如何
使用
lxml
,XPath
和
Python从网页中提取
链接
?
、
、
、
、
我得到了这个xpath查询:它提取所有带有标题属性的
链接
-并在中给出
href
。但是,我似乎不能在
lxml
中
使用
它。from
lxml
import etree parsedPage = etree.HTML(page) # Create parse tree from valid page.# Xpath query
浏览 0
提问于2010-01-18
得票数 5
回答已采纳
1
回答
Python
lxml
打印每个表行
、
、
当我在'cn‘中输入一些东西时,脚本会在网站上进行查询,并给我一个有多行的
表格
from
lxml
import htmlfrom
lxml
.etree,但我需要打印所有其他
表格
行//tr[3]/td[2]/a/text() //tr[4]/td[2]/a/text() //tr[...]/td[2]/a
浏览 7
提问于2020-12-29
得票数 2
2
回答
快速查找
链接
: regex与
lxml
、
、
、
、
我正在尝试建立一个快速的网络爬虫,因此,我需要一个有效的方法来定位页面上的所有
链接
。像
lxml
这样的快速XML/HTML解析器与
使用
正则表达式匹配的解析器之间的性能比较
如何
?
浏览 1
提问于2013-06-05
得票数 1
2
回答
BeautifulSoup:在网页内
、
、
、
、
我可以
使用
BS提取所有的
链接
,但我不能
使用
它在网页中导航。有没有办法给出主URL,并从网页中的
链接
中提取所有信息?
浏览 1
提问于2014-03-24
得票数 0
4
回答
Python
lxml
/beautiful用于查找网页上的所有
链接
、
我正在编写一个脚本来阅读网页,并建立一个符合一定标准的
链接
数据库。现在我被
lxml
卡住了,并且理解
如何
从html中
抓取
所有的<a
href
>……content = result.read()print
lxml
.html.find_rel_links(html,'
href
'
浏览 1
提问于2011-05-26
得票数 9
回答已采纳
1
回答
使用
BeautifulSoup
抓取
时出现问题
、
、
我正在尝试
使用
BeautifulSoup
抓取
url torrents获取该页面上的所有="fontSize12px torrentnameCell"><a title="Torrent magnet link"
href
'
浏览 16
提问于2011-07-03
得票数 0
1
回答
使用
lxml
和
XPath
抓取
href
标题
、
、
、
from
lxml
import html url'//*[@id="rt-mainbody"]/div/div/div[2]/div[4]/address/a') 我正试着从公司目录上的900多个不同的页面中
抓取
电子邮件上面的XPath是下面代码
浏览 6
提问于2016-03-09
得票数 1
回答已采纳
1
回答
Python :如果满足特定条件,
如何
使用
不同的
抓取
页面重复“bs4”循环?
、
、
我正在尝试创建一个for循环,一旦它到达
抓取
的页面中的最后一个search_result属性,它将重复该循环,但会
使用
新
抓取
的网页的数据。在for循环到达最后一个属性后,它将在网页上查找
链接
,并对新
抓取
的网页重复该循环。soup = BeautifulS
浏览 7
提问于2019-08-16
得票数 1
回答已采纳
1
回答
用Beautifulsoup
抓取
视频描述
、
、
、
我试着在youtube上
抓取
视频描述中的
链接
,但列表总是返回空。 我已经尝试从我
抓取
的位置更改标记,但输出
和
错误消息都没有更改。下面是我
使用
的代码: from bs4 import BeautifulSoup soup = BeautifulSoup(source, '
lxml</
浏览 12
提问于2021-09-08
得票数 0
回答已采纳
2
回答
如何
在
使用
“requests”时获得具有绝对
链接
路径的原始html
、
、
、
当
使用
requests库向https://stackoverflow.com发出请求时printv=c78bd457575a"> <link rel="image_src"
href
="https://cdn.sstatic.net/Sites/stackoverflow/Im
浏览 10
提问于2020-12-24
得票数 4
回答已采纳
2
回答
将数据从Tripadvisor导入Google电子
表格
或Excel
、
、
、
是否可以获取此数据的列表:阿姆斯特丹所有餐馆的名单。如果可能的话,还有详细的地址等等。非常感谢!
浏览 1
提问于2020-09-17
得票数 0
1
回答
下载HTML时未出现URL
如何
刮除?Javascript在这里可能是个问题
、
、
、
、
我可以得到标题
和
其他网址。但是它们中的一些不在HTML上,无法
使用
请求和
lxml
进行
抓取
。我不想
使用
selenium/bs4 4/美观so,因为代码将在Heroku服务器上运行,因此会使一切变得更加困难。尽管存在这个问题,有谁知道
如何
刮掉URL吗
浏览 4
提问于2022-03-11
得票数 1
回答已采纳
1
回答
如何
在不导入整个模块的情况下处理
lxml
错误?
、
、
、
它
抓取
页面的内容,提取
链接
并
抓取
它们。它
使用
lxml
.html来处理
链接
,并
使用
我正在尝试为它在运行时可能遇到的每个错误创建自定义响应。我目前正在处理Unicode、SSL、重定向、连接
和
ContentDecode错误。我经常碰到
lxml
.etree.XMLSyntaxError
和
lxml
.etree.XMLParseError。我尝试
浏览 7
提问于2017-05-21
得票数 0
1
回答
如何
使用
bs4在python中刮取多个页面
、
、
我有一个查询,因为我一直在刮一个网站"“,因为我无法从表中给定的
链接
中
抓取
电子邮件id。虽然需要从给定
表格
中的
链接
中刮取姓名、电子邮件
和
董事。请任何人,解决我的问题,因为我是一个新手,
使用
python与美丽的汤和要求的网页刮。/company-list").textfrom bs4 import BeautifulSoup soup = BeautifulSoup(link,'
lxml
浏览 2
提问于2020-05-03
得票数 0
回答已采纳
1
回答
使用
python从同一网页中的多个
链接
中提取数据
、
、
、
我是蟒蛇
和
网络
抓取
的新手。response = requests.get(url) soup = BeautifulSoup(response.content, '
lxml
浏览 1
提问于2018-01-19
得票数 0
1
回答
我试图用BeautifulSoup从维基百科上
抓取
参考
链接
,但一直没有得到任何结果
、
我正在尝试从wiki页面中
抓取
参考
链接
,但是我一直没有得到任何输出。from bs4 import BeautifulSoupsoup=BeautifulSoup(webs.content,'
lxml
') links=soup.f
浏览 0
提问于2020-07-04
得票数 0
1
回答
如何
使用
beautifulSoup对堆栈溢出问题进行web
抓取
标记?
、
for link in soup.find_all('a', {'class': 'post-tag'}): #
href
= link.get('
href
') for在从堆栈溢出站点提取数据时,我们在
抓取
问题的标签时遇到了问题。我们可以
抓取
标签,但它们不会显示在问题中。
浏览 0
提问于2018-03-17
得票数 0
1
回答
使用
bs4
和
requests
抓取
起始页面
、
、
、
我正在尝试从中
抓取
搜索结果,我已经
使用
bs4
和
requests
抓取
了所有准备好的结果。我在能够
抓取
结果后遇到了一个问题。我无法进入搜索结果的下一页。
使用
web浏览开发人员工具找不到
链接
。当我检查这个元素时,这就是它所显示的,<a
href
="javascript:;" class="numbers_st" onclick="mysubmit(10); return false;" id:
浏览 0
提问于2017-07-06
得票数 0
1
回答
从雅虎财经
抓取
python中的数据
、
我可以
抓取
表格
格式,但不能
抓取
非
表格
格式。我将同样的原则应用于在同一页中
抓取
信息,但没有结果。p=AAPL中
抓取
import numpy as npimport
lxml
table = tree.xpath('/
浏览 4
提问于2019-11-19
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券