在Python中使用SAX解析器的标记之间的文本

文章/答案/技术大牛

发布

1回答

XML解析:获取标记内的数据

、、

我接到了一个解析XML文件的任务。<name> I want `` complete `` text in this ``element`` </name></Cards> 我尝试过使用SAX解析器和DOM解析器。基本上，我希望包括标签在内的<name>标签

浏览 2提问于2011-12-21得票数 0

回答已采纳

2回答

、、、、

我想使用SAX打印XML文件中特定标记之间的文本。但是，一些文本输出由空格或换行符组成。有没有办法只挑出实际的字符串？我做错了什么？参见下面的代码提取和XML文档。(我在Python 2和Python 3上都得到了相同的效果。) #!/usr/bin/env python3 import xml.sa

浏览 24提问于2021-10-29得票数 0

回答已采纳

2回答

XML解析java.lang.OutOfMemoryError：[内存耗尽]

、

} e.printStackTrace();} 但我得到的错误如下

浏览 1提问于2013-01-11得票数 1

回答已采纳

1回答

Android XML解析技术选择

、

在android中有像DOM，SAX和XmlPull解析这样的方法。如何决定在特定情况下必须使用哪种解析？请建议在特定情况下哪一个更合适

浏览 0提问于2013-01-21得票数 1

回答已采纳

4回答

从格式不佳的大型XML文件的特定元素中提取文本

、

我有一个大型(~50 XML )文件，其中包含格式不佳的XML，描述<item> </item>标记之间的文档和属性，我希望从所有英文文档中提取文本。Python的标准XML解析实用程序(dom、sax、expat)被错误的格式限制了，更多的宽恕库(sgmllib、BeautifulSoup)解析整个文件，耗时太长。</document> </i

浏览 6提问于2009-11-10得票数 1

回答已采纳

2回答

只读XML中的根元素

、、

在许多基于REST的API调用中，我们都有一个名为nextURL的参数，我们可以使用它来查询下一个URL。这通常在根元素中(也可能是下一个元素)。一般来说，你们是如何阅读这篇文章的？如果您使用的是标准的XML解析器，它将读取并加载整个XML，然后您可以通过getElementsByTag读取nextURL。有没有更好的办法呢？读取整个xml当然是浪费时间/内存。<

浏览 0提问于2011-02-06得票数 2

回答已采纳

1回答

显示时在XHTML中隐藏某些自定义标记文本

、

所以我有这个XHTML文档，它包含某些自定义标记。这是我不想移除的东西。但也不要创建文件的副本。我面临的问题是这个标签之间的文本被显示在网页上。我不想展示它们。有办法吗？可能是评论还是隐藏？Credit Agreement"><concept>one | two | three | four</concept></classification></classifications>

浏览 0提问于2014-12-12得票数 0

回答已采纳

2回答

我正在处理维基百科上发现的。特别是使用文件- enwiki-latest-pages-articles-multistream.xml.bz2.这大约是46 is未压缩。我目前正在使用Java中的STAX解析器(xerces)，每秒能够提取15K页面元素。然而，瓶颈似乎是解析器，我尝试过aalto xml，但它并没有起到什么作用。因为我要解析Storm spout中的每个页面元素，所以这是一个瓶颈。然而，我认为我可以简单地在<

浏览 0提问于2014-10-19得票数 0

2回答

解析大型(~100 of ) kml (xml)文件，耗时小时，没有任何实际解析的迹象

、、、、

正如您可能已经注意到的，我在Placemark数组上有一个计数器(each_with_index)，在这个多小时的时间里，没有一个i值是命令行的put。我知道我可以在Google Earth (Google这里)中打开KML文件，并将数据保存在更小、更易于管理的kml文件中，但是事情的设置方式，这将是一个非常手动的、不专业的过程。</Polygon> <&

浏览 7提问于2013-09-05得票数 4

回答已采纳

1回答

为什么SaxParser会随机失败？

、、、

我在Android应用程序中使用SAX解析器一次读取几个提要。脚本的执行方式如下所示。Feed_XMLHandler.sitesList; 这是和，我基本上都是从网上下载的。即使当点击文章打开时，几乎所有的文本都会显示出来，所以这一切都很好。源提要在这里。我控制不了传送。这里是，进展不是很顺利。这是最糟糕的一个。如你所见

浏览 0提问于2010-12-25得票数 0

回答已采纳

2回答

对于与元素类型"img“关联的属性"src”，需要打开引号。

、、、

当试图显示以图像路径文件名作为变量的用户表时，我会收到此错误。我在一个单独的项目中以完全相同的方式实现了这一点，它工作得很好，但是现在我得到了这个奇怪的错误。org.xml.sax.SAXParseException: Open quote is expected for attribute "src" associated withExce

浏览 0提问于2018-04-12得票数 1

回答已采纳

7回答

python处理无限的XML

、

我正在开发一个应用程序，我的工作就是为该应用程序开发一个样例Python接口。应用程序可以提供基于XML的文档，我可以通过HTTP get方法获取文档，但问题是基于XML的文档是无穷无尽的，这意味着将没有end元素。我知道文档应该由SAX处理，但是如何处理这个没完没了的问题呢？

浏览 0提问于2010-07-20得票数 5

4回答

XML解析- ElementTree vs SAX和DOM

、、、、

Python有几种解析XML的方法。我也理解DOM解析器。它将XML读入内存，并将其转换为可以用Python访问的对象。(希望到目前为止我是正确的。)从Python</em

浏览 7提问于2008-10-10得票数 82

回答已采纳

1回答

SAX解析器输出中缺少CDATA指令

、、

我使用以下代码读取XML文件，并使用SAX解析器将其写入XML输出文件。但是，输出文件缺少CDATA指令。CDATA部分的内容是正确的，但是开始<![CDATA[和结束]]>不在输出文件中！from xml.sax import make_parser import sys class XMLWriter

浏览 0提问于2010-12-07得票数 0

2回答

如何在Python中解析xml时忽略不匹配的标签

、、、

我想用Python解析一个XML文件。我不需要分层标记结构--我只需要一个简单的基于SAX或Expat的解析器。有没有办法让解析器忽略这些错误？我试过了，但这也没有帮助。有解决方案吗？SAX/Expat都可以。

浏览 40提问于2015-12-18得票数 0

1回答

解析包含字符引用的xml

、

尝试分析的XML im在CDATA中包含控制字符0x2。这导致CDATA看起来像这样：现在，如果我试图解析它，我得到一个错误消息: org.xml.sax.SAXParseException原始的xml看起来像这样： <?xml version="1.1" encoding="UTF-16"?><CELL><!

浏览 0提问于2010-04-14得票数 1

1回答

如何指定要由Java Sax解析器解析的XML文件的一部分？

、、、、

我有XML文件要由java sax解析器解析。我希望解析器只解析开始和结束标记( <Models>和</Models>)之间的内容，而不是整个文件。如何指定由java Sax解析器解析的XML文件的一部分？我的xml文件如下： some tagsmy content to be parsed <LifeLine...<&

浏览 22提问于2019-09-23得票数 0

4回答

获取两个标记之间的内容，然后返回完整字符串。

如何在每两个标记(<tagname></tagname>)之间获得一些文本，在更改了这两个标记的文本之后，需要完整的字符串以及changes.think，这是java字符串内容。改变前的 "Lorem ipsum dolor <tagname>text to be changed 1</tagname> amet，consectetur adipisici

浏览 3提问于2012-10-02得票数 1

回答已采纳

2回答

并发SAX处理大的、简单的XML文件？

、、、、

我有几个巨大的XML文件(10 of 40 Of)，它们的结构非常简单:只有一个根节点包含多个行节点。我正在使用Python中的SAX解析它们，但是我必须对每一行进行额外的处理，这意味着40 an的文件需要整整一天的时间才能完成。为了加快速度，我想同时使用我所有的核心。不幸的是，SAX解析器似乎无法处理“格式错误”的XML块，当

浏览 6提问于2014-04-22得票数 0

回答已采纳

4回答

目前最先进的纯python* XML解析器是什么？*

、、、

考虑到我想要编写可以在Google App Engine和jython内部运行的python代码，C扩展不是一个选择。Amara是一个很好的库，但由于它的C扩展，我不能在这两个平台上使用它。

浏览 2提问于2009-06-09得票数 6

回答已采纳

点击加载更多

XML解析:获取标记内的数据