腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
HTML
不能
捕获
文件
中
的
所有
BeautifulSoup
python
、
html
、
beautifulsoup
因此,我在Python中使用
BeautifulSoup
(bs4),并尝试从网页中提取信息。作为参考,我正在查看
的
网页是一个高级搜索引擎,我想要
的
相应
HTML
是: <p class="viewing"> 1</strong值11,204
的
Xpath。我使用
的
是lxml解析器,堆栈上
的
大多数答案都表明这是一个解析问题,所以我查看了
ht
浏览 7
提问于2020-04-11
得票数 0
4
回答
Python -正则表达式-查找除标签之外
的
所有
单词
python
、
regex
如何使用RE模块查找除标签
中
的
单词之外
的
所有
单词?它会打印<>标记
中
的
所有
内容,但是如何让它找到除了那些标记
中
的
所有
单词呢?我尝试在[]
中
的
patte
浏览 3
提问于2012-10-29
得票数 0
回答已采纳
1
回答
使用
BeautifulSoup
解析
html
文件
python
、
beautifulsoup
、
html-parsing
我有这个
html
文件
: <head></head> Text1 <a href="XYCL7Q.
html
对于Text3,我没有问题,但是我
不能
捕获
文本1-2;通过这样做: from bs4 import
BeautifulSoup
浏览 2
提问于2014-12-06
得票数 0
2
回答
用
BeautifulSoup
解析一小段
HTML
代码
python
、
beautifulsoup
我正在尝试解析特定网站上
的
一些数据,我已经找到了我需要
的
数据的确切位置,但当我在chrome
中
检查它时,我看到了我需要
的
数据,时间,当我在chrome上检查时,它是这样
的
:然而,当我在python
中
定位到这个特定
的
文本时,时间无处可见(我怀疑它是隐藏
的
)(见附件
中
的
第二
浏览 1
提问于2019-04-03
得票数 0
1
回答
BeautifulSoup
(bs4),
html
5lib,HTMLParseError:格式错误
的
开始标记,位于第1行,第11列
python
、
bs4
、
html5lib
我需要将源代码从网站复制到本地存储
的
html
文件
中
,因为直接从url解析并
不能
捕获
所有
页面元素。我希望在源代码中提取一个表
中
的
位置元素,用于地理编码。我
的
程序遍历几个页面的搜索结果,将每个页面的源代码写入本地存储
的
一个
html
文件
。address元素大约只占每页材料
的
三分之一,所以去掉额外
的
元素以减小
文件
大小会
浏览 15
提问于2017-07-01
得票数 0
回答已采纳
1
回答
遍历索引目录
的
服务器URL并读取
文件
python
、
http
、
directory
、
iterator
在http服务器上存在url为http://somehost/maindir/recent/
的
目录。并且这个“最近”目录包含例如50个zip子目录。我可以用以下命令读取一个zip
文件
zfile = "http://somehost/maindir/recent/1.zip" with RemoteZip(zfile) as zip:data = zip.read(zip_info.filename) 但是我没有任何想法去遍历"
浏览 22
提问于2020-08-19
得票数 1
回答已采纳
2
回答
如何用Python将这种
html
表格转换成excel?
python
、
html
、
excel
、
pandas
在编写基于python
的
脚本时,我遇到了一个奇怪
的
html
_table,它类似于: <tr> </tr> 我知道我可以使用MS Excel将其转换为普通
的
.xls或.xl
浏览 135
提问于2020-11-04
得票数 0
2
回答
Regex-处理null (当表达式之间没有字符)
python
、
regex
我
的
短信看起来是:我想捕捉
所有
的超链接,下面是我写
的
正则表达式-['</a></div>abcd<i><a href=">World Bank
浏览 1
提问于2015-10-26
得票数 1
回答已采纳
1
回答
美汤在源
文件
中找到标签
的
位置?
python
、
html
、
beautifulsoup
我正在使用
BeautifulSoup
从
HTML
文件
中提取信息。我希望能够
捕获
信息
的
位置,即在
HTML
文件
中
的
标签,BS标签对象
的
偏移量。 有没有办法做到这一点?我目前使用
的
是lxml解析器,因为它是默认
的
。
浏览 22
提问于2018-03-03
得票数 0
回答已采纳
1
回答
如何使用Regex从
HTML
源代码中提取JSON
python
、
html
、
json
、
regex
、
parsing
Python脚本import jsonimport re soup =
BeautifulSoup
(r.content,'
html
.parser') URL: 我试图使用Reg
浏览 2
提问于2021-08-30
得票数 0
回答已采纳
1
回答
如何解析pyspark
中
的
html
文件
并使用
Beautifulsoup
?
html
、
apache-spark
、
beautifulsoup
、
pyspark
、
hdfs
我遇到了一个非常困难
的
情况:我需要解析
中
的
一堆
html
文件
,但是我仍然希望使用
BeautifulSoup
来解析
html
文件
。目前
的
困境是: 如果我将这些
html
文件
保存在HDFS
中
,并使用pyspark读取
html
文件
,则只能以 RDD
的
形式读取它们,但
不能
将RDD作为
BeautifulSoup<
浏览 0
提问于2017-10-23
得票数 2
2
回答
使用
BeautifulSoup
从多个XML列表中提取文本数据
python
、
xml
、
beautifulsoup
我正在解析一个大小为150 on
的
xml
文件
。因为美丽
的
汤是众所周知
的
,所以我捡了起来。由于根标记不在这里,所以我根据每个元素
的
主标记将其拆分,因为它是相同
的
,并转换为列表(同样是其中
的
两千个)。情况如下:from bs4 import
BeautifulSoup
btree =
BeautifulSoup
2000次,而不是
浏览 1
提问于2017-08-26
得票数 1
回答已采纳
1
回答
如何使用
BeautifulSoup
清除隐藏
的
数据元素
python
、
beautifulsoup
Level2StockQuotes.com提供了免费
的
实时顶级引用,我想用
BeautifulSoup
用python
捕获
这些引用。问题是,即使我可以在浏览器检查器中看到实际
的
数据值,我也
不能
将这些值抓取到python
中
。
BeautifulSoup
返回每个数据元素为空
的
所有
数据行。Pandas为每个数据元素返回一个带有NaN
的
数据帧。equities/market_statistics/book
浏览 0
提问于2019-08-13
得票数 0
2
回答
我尝试使用以下代码从url
中
抓取数据,它将显示一条错误消息:
python
、
web-scraping
from urllib2 import urlopenfrom array import array import csvurl = ['http://cura.free.fr/gauq/902gdA1.
html
', 'http://cura.free.fr/gauq/902gdA1y.
html
', 'http:&
浏览 2
提问于2017-04-13
得票数 0
回答已采纳
1
回答
使用
BeautifulSoup
来利用URL及其相关页面,并将结果存储在csv
中
?
pandas
、
csv
、
web-scraping
、
beautifulsoup
、
pagination
我希望在icao_publications.csv
中
填充
所有
页面上
的
所有
记录,并
捕获
所有
页面。数据集应该大约为10,000行或其总计约10,000行。我想在csv
文件
中
得到这10,000行左右
的
数据。import requests, csv url = 'https://www.icao.int/publicatio
浏览 1
提问于2022-01-12
得票数 0
回答已采纳
3
回答
美汤不会返回网页上
的
所有
文本
python
、
web-scraping
、
beautifulsoup
尝试通过when抓取站点,但
Beautifulsoup
不能
返回仅查看网页时可见
的
所有
文本。/en/resorts-and-destinations" soup =
BeautifulSoup
(response.text, '
html
5lib')f.close() 例如,以下文本在网页上可见,但不会由
Beautifulsoup<
浏览 51
提问于2020-09-18
得票数 1
1
回答
解析电子邮件
中
的
“发送”行
python
、
regex
、
email
、
beautifulsoup
我有一个包含大约150封电子邮件
的
文件
夹,全部保存为
HTML
文件
(Firefox扩展名),我需要捕捉“发送”行
中
总是能找到
的
年份;如下图所示。 我试过使用RegEx,但失败了;它根本没有打印任何结果,表明我
的
RegEx不工作。我尝试使用来自get_payload()模块
的
email和message_from_string()命令,但是由于它是一个
HTML
,所以失败了。然后我尝试使用
BeautifulSoup
<
浏览 2
提问于2017-01-24
得票数 1
回答已采纳
2
回答
如何通过Python
中
的
“美丽汤”找到类和类名中有空格
的
文本?
python-3.x
、
web-scraping
、
beautifulsoup
例如,我在<div>中有一个类,还有一个类有空格。
浏览 3
提问于2016-11-15
得票数 2
回答已采纳
1
回答
BeautifulSoup
将单引号替换为双引号
python
、
beautifulsoup
在Python
的
BeautifulSoup
4
中
,如果我执行以下命令:print soup澄清: 我使用urllib2获取以下页面的
html
:http://www.download3000.com/,然后使用
BeautifulSoup
4仅提取
浏览 1
提问于2013-07-22
得票数 4
6
回答
python中正则表达式
的
问题
python
、
html
、
regex
好
的
,我正在使用一个正则表达式来搜索站点中
的
所有
标题信息。regex = re.compile(r'''当我在python reg ex
中
运行它
的
时候。测试人员,它工作得很好。然而,当我把它放到我
的
python代码
中
时,它只打印<a href="dog.com"> 这是我
的</
浏览 0
提问于2008-09-18
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
简单几行代码提取html文件中全部指定标签内的文本
佛系技术方案——HTML5和zip在文件下载中的应用
Excel快速提取文件夹中的所有文件名,小白也能轻松统计
如何快速提取一个excel文件中的所有工作表名称
Windows2003不能访问samba及Linux不能挂载共享文件夹中NTLMv2的作用
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券