腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
用DOM
方式
解析
HTML
php
、
dom
、
xpath
我们有一个包含静态信息
的
古老(内部)网站。我们要用更好
的
东西来代替它,所以我需要获取所有的信息。我过去经常通过regex实现这一点,但最近我偶然发现一些文章指出使用regex
解析
来自
的
信息是。所以我决定学习一些新
的
技巧,重新开始,用DOM
的
方式
来做。我需要
的
HTML
部分如下所示: <tr> &l
浏览 3
提问于2013-02-28
得票数 3
回答已采纳
2
回答
内建
方式
来
解析
任何原始
的
HTML
c#
、
.net
、
html
、
.net-2.0
、
html-parsing
我开始编写一个应用程序,它应该从任何指定
的
HTML
页面中检索元标记内容。由于我使用
的
是.NET 2.0,所以我不能使用LINQ或其他现代
的
东西。因此,我尝试使用XmlDocument类。不幸
的
是,它不能处理无效
的
XML文档,这是大多数
HTML
文档。我最好避免使用HtmlAgilityPack
的
另一个原因是,它对于
浏览 1
提问于2012-02-04
得票数 0
2
回答
HTML
: iPhone
解析
标准
方式
或示例:
iphone
我正在使用NSURLConnection访问网页,并在我
的
iPhone客户端应用程序中以编程
方式
下载了一个超文本标记语言数据。我想从超文本标记语言中
解析
和挑选一些描述数据,tags..It太脏了,我
的
数据也随处可见。我想问你,在iPhone开发中,有没有一种标准或简单
的
方法来
解析
超文本标记语言数据。附言:我知道XML
解析
。
浏览 1
提问于2009-09-10
得票数 1
1
回答
漂亮汤删除标签错误
python
、
html
、
regex
、
beautifulsoup
因此,我正在抓取一些内容,并试图用python中
的
漂亮汤删除
html
标记,但保留内容。问题是,很明显,我正在抓取
的
一些页面中有
html
错误。例如:当发生这种情况时,get_text()将删除我想要
的
大部分文本。我试着用regex来做这件事,结果还是遇到了同样
的
问题: description = re.sub(&quo
浏览 3
提问于2015-03-12
得票数 0
回答已采纳
1
回答
如何在java中用
HTML
获取元素
的
XPath?
java
、
html
、
xml
、
xpath
、
xhtml
(例如,我想为一个XPath元素检索<a> ) 我尝试了不同
的
解决方案,但在正确
解析
html
时经常遇到问题。是否有一个像这样
的
运行中
的
html
清洁器?--这是我目前发现
的
唯一
的
功能清洁器,但它是一个在线工具。有了它,我就可以轻松地
解析
HTML
并进入XPath。我喜欢与jOOX交互
的
方式
,只要我能够正确地以编程
方式
解析
html<
浏览 2
提问于2018-10-12
得票数 0
回答已采纳
1
回答
BeautifulSoup:如何忽略虚假
的
结束标记
python
、
html
、
python-3.x
、
beautifulsoup
我读过很多关于BeautifulSoup
的
好东西,这就是为什么我现在正试图用它来刮一组格式错误
的
HTML
的
网站。不幸
的
是,BeautifulSoup
的
一个特性就是目前
的
展示障碍: 当BeautifulSoup遇到一个从未打开
的
结束标记(在我
的
例子中是</p>)时,它决定结束文档。而且,在本例中,find方法似乎没有搜索(自诱导
的
) </
html
>标记后面的
浏览 1
提问于2015-12-19
得票数 7
回答已采纳
1
回答
解析
为php
的
Html
文件与
解析
*.php文件
的
方式
不同
php
、
.htaccess
我添加了这个添加到我
的
.htaccess中,因为我需要一些
html
文件
的
行为
方式
类似于php文件。奇怪
的
是,当我加载这些文件时,"json_decode“和"json_encode”会产生一个“未定义
的
函数”-error。当我在一个普通
的
php文件中使用它们时,一切正常。看起来像是使用了一个更老版本
的
php来
解
浏览 0
提问于2013-06-28
得票数 0
回答已采纳
1
回答
用java将
HTML
文件打印到打印机
java
、
html
、
printing
、
fileoutputstream
我需要以编程
方式
将
html
打印到打印机。我不想打印
html
标签,我想在打印之前
解析
html
标签。新建文档writer2 =HtmlWriter.getInstance( HtmlWriter,new FileOutputStream("itext.
html
")); 我知道需要以
浏览 1
提问于2009-09-16
得票数 5
4
回答
Excel可以将单元格解释为
HTML
吗?
html
、
excel
、
aspose
、
aspose-cells
我正在使用Aspose.Cells以编程
方式
构建一个Excel文档。这很好用。不过,其中一个单元格是一块原始
的
HTML
。我想知道是否有可能告诉Excel (以任何
方式
,包括GUI -您不需要了解Aspose API)将单元格
解析
并显示为
HTML
。现在,它只显示为文本格式
的
原始
HTML
、标签和所有内容。我知道Excel能够将
HTML
粘贴到其中,但它看起来只是自己
解析
它,然后Excel为您处理它,并且它不存储
HT
浏览 1
提问于2009-12-04
得票数 26
回答已采纳
1
回答
PythonBeautiful外地get_text()没有获得所有文本
python
、
html
、
python-2.7
、
beautifulsoup
、
urllib2
我正在尝试使用get_text()方法从
html
标记中获取所有文本。我使用Python2.7和Beautiful外地4.4.0。它在大多数情况下都有效。但是,这种方法有时只能从标签中获取第一段。jk=0f5592c8191a21af"soup = BeautifulSoup(site, "
html
.parser")然而,利用上面的代码,我只能得到“请注意,这是一个为期一年
的
合同任务。候选人不能开始一项任务,直到背景检查和药物测试完成
浏览 5
提问于2015-09-19
得票数 4
回答已采纳
1
回答
BeautifulSoup (bs4):如何忽略格式错误
的
HTML
中
的
结束标记
python
、
html
、
parsing
、
beautifulsoup
我正在使用优美汤(bs4)来废弃
HTML
页面。它有list <ul>,它有<li>,它包含一些有趣
的
链接(href)。<ul></ul> 问题:当我使用find_all()提取所有的<ul>时,我不会得到它,因为格式错误
的
结束</p>没有打开<p>。浏览器会忽略这一点,并呈现ok,但是BS4会破坏
解析
。是否有人试
浏览 3
提问于2016-04-11
得票数 3
3
回答
解析
Java中
的
meta标签
java
、
html
、
xml
、
parsing
我有一个
HTML
文档集合,需要
解析
部分中标记
的
内容。这些是我唯一感兴趣
的
HTML
标记,也就是说,我不需要
解析
部分中
的
任何内容。有没有人建议我可以用一种可以处理格式错误
的
HTML
的
方式</em
浏览 0
提问于2008-11-18
得票数 2
回答已采纳
1
回答
在BeautifulSoup 4中将标签内容提取为文本(相当于QUOTE_TAGS)
python
、
web-scraping
、
beautifulsoup
HTML
3有一个很好
的
特性,那就是它不会试图将<textarea>标签
的
内容解释为BeautifulSoup --它会将其引用为文本。通过修改QUOTE_TAGS属性,可以将此行为应用于其他标记。下面的展示了它是如何有用
的
。 在BeautifulSoup 4中,没有QUOTE_TAGS属性,我认为如果不自己创建
html
.parser子类,就无法获得相同
的
功能。我是不是遗漏了什么?您将如何使用BS4解决上面链接
的
问题?
浏览 1
提问于2013-05-01
得票数 1
1
回答
Objective-C事件驱动
的
HTML
解析
html
、
ios
、
objective-c
、
cocoa-touch
、
parsing
我需要能够以事件驱动
的
方式
解析
HTML
代码片段。例如,如果
解析
器发现一个
HTML
标签,它应该通知我,并将
HTML
标签、值、属性等传递给委托。我不能使用NSXMLParser,因为我有杂乱
的
超文本标记语言。有没有一个有用
的
库来解决这个问题呢?我想要做
的
是
解析
HTML
,创建一个NSAttributedArray并在UITextView中显示它。
浏览 0
提问于2014-04-03
得票数 0
1
回答
网页抓取为
html
网页,但需要重复在很多链接?
javascript
、
html
、
css
、
node.js
、
web-scraping
我编写了以下代码,用于为一个URL
解析
HTML
的
某些部分。我
的
意思是
解析
页面const URL= ''
浏览 1
提问于2022-07-07
得票数 1
回答已采纳
1
回答
格式良好
的
html
5加载速度比糟糕
的
要快吗?
html
、
browser
、
xhtml
html
5不像xml那么严格,所以即使这个糟糕
的
文件也会被w3c
html
5 验证。<title>crappy
html
5</title><h1>crappy
html
5</h1><ol class=navigato
浏览 0
提问于2018-11-02
得票数 0
回答已采纳
2
回答
从格式错误
的
HTML
中获取列表数据
python
、
beautifulsoup
我试图从列表数据格式错误
的
<UL>中获取数据。最重要
的
是我获取链接(如果有的话)和文本。不幸
的
是,BeutifulSoup试图修复格式错误
的
HTML
并造成比需要更多
的
损害:
html
= '<UL><LI>Blah><LI><A>Blah</A><LI><A>Blah2&l
浏览 3
提问于2014-07-28
得票数 2
回答已采纳
2
回答
为什么setHTML(“<table><tr>.</tr></table>”);然后返回“<getHTML><tbody><tr>.</tr></tbody></table>”(Gwt)?
gwt
我不明白Gwt setHTML & getHTML是如何工作
的
。这似乎不一致。myInlineHtml.getHTML());显然,当我们为myInlineHtml设置
html
为什么会发生这种情况,因为当您想获得
Html
值时,如果您认为它
的
值与我
浏览 2
提问于2014-04-06
得票数 0
回答已采纳
1
回答
分析
html
页面时丢失
的
信息
python
、
beautifulsoup
、
web-crawler
、
html-parser
当我
解析
这个页面时,我发现一些信息丢失了,我使用soup.prettify()打印
html
文档,并且
html
文档与我使用urllib2.openurl()获得
的
文档不同,所以丢失了一些信息。hotelUrlTag in subHotelUrlTags:我尝试使用HtmlParser来做同样
的
事情
浏览 1
提问于2013-05-07
得票数 0
回答已采纳
1
回答
验证错误(如“杂散
的
开始标记
html
"),我似乎无法在header.php上动摇。
php
、
html
、
html-parsing
、
w3c-validation
DOCTYPE
html
>↩<?--><
html
class="no-js" <?php language_attributes(); ?>>
浏览 4
提问于2017-04-06
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python对XML和HTML的解析
送给人类的 HTML 解析库
Python爬虫解析html:lxml的HtmlElement对象获取和设置inner html
python渐进-html和json解析
python爬虫初探:HTML解析器
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券