问全流XML解析器
EN

Stack Overflow用户

提问于 2018-10-25 20:20:17

回答 1查看 3K关注 0票数 4

我正在尝试使用requests、lxml和base64io来使用Exchange。此服务在SOAP XML HTTP响应中返回base64编码的文件。文件内容包含在单个XML元素的一行中。GetAttachment只是一个例子，但问题更普遍。

我想直接将解码的文件内容流式传输到磁盘，而不在任何时候将附件的全部内容存储在内存中，因为一个附件可能有几个100MB。

我尝试过这样的东西：

r = requests.post('https://example.com/EWS/Exchange.asmx', data=..., stream=True)
with open('foo.txt', 'wb') as f:
    for action, elem in lxml.etree.iterparse(GzipFile(fileobj=r.raw)):
    if elem.tag == 't:Content':
        b64_encoder = Base64IO(BytesIO(elem.text))
        f.write(b64_encoder.read())

但是lxml仍然以elem.text的形式存储附件的副本。有没有什么方法可以创建一个完全流式的XML解析器，它还可以直接从输入流中流式传输元素的内容？

python

xml

soap

python-requests

lxml

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-10-29 21:04:39

在这种情况下，不要使用iterparse。iterparse()方法只能发出元素的开始和结束事件，因此当找到结束标记时，元素中的所有文本都会被提供给您。

相反，请使用SAX parser interface。这是XML解析库的通用标准，用于将解析的数据传递给内容处理程序。以块的形式向ContentHandler.characters() callback传递字符数据(假设实现XML库实际上利用了这种可能性)。这是一个来自Python的低级API，并且ElementTree标准库已经捆绑了Expat解析器来驱动它。

因此流程就变成了：

将传入的请求流包装在GzipFile中以便于解压缩。或者，更好的方法是设置response.raw.decode_content = True，并根据服务器设置的内容编码将解压缩留给请求库。
将GzipFile实例或原始流传递给使用xml.sax.make_parser()创建的解析器的.parse() method。然后，解析器继续以块的形式从流中读取数据。通过使用XML语言，您首先可以启用诸如命名空间处理之类的功能(这样可以确保在make_parser()决定更改用于每个namespace).
The内容处理程序的短前缀时，代码不会中断。使用make_parser()数据块调用characters()方法；检查元素启动事件是否正确，以便知道何时需要base64数据。您可以一次在chunks of (a multiple of) 4 characters中解码该base64数据，并将其写入文件。我不会在这里使用base64io，只需自己进行分块即可。

简单的内容处理程序可以是：

from xml.sax import handler
from base64 import b64decode

class AttachmentContentHandler(handler.ContentHandler):
    types_ns = 'http://schemas.microsoft.com/exchange/services/2006/types'

    def __init__(self, filename):
        self.filename = filename

    def startDocument(self):
        self._buffer = None
        self._file = None

    def startElementNS(self, name, *args):
        if name == (self.types_ns, 'Content'):
            # we can expect base64 data next
            self._file = open(self.filename, 'wb')
            self._buffer = []

    def endElementNS(self, name, *args):
        if name == (self.types_ns, 'Content'):
            # all attachment data received, close the file
            try:
                if self._buffer:
                    raise ValueError("Incomplete Base64 data")
            finally:
                self._file.close()
                self._file = self._buffer = None

    def characters(self, data):
        if self._buffer is None:
            return
        self._buffer.append(data)
        self._decode_buffer()

    def _decode_buffer(self):
        remainder = ''
        for data in self._buffer:
            available = len(remainder) + len(data)
            overflow = available % 4
            if remainder:
                data = (remainder + data)
                remainder = ''
            if overflow:
                remainder, data = data[-overflow:], data[:-overflow]
            if data:
                self._file.write(b64decode(data))
        self._buffer = [remainder] if remainder else []

你可以这样使用它：

import requests
from xml.sax import make_parser, handler

parser = make_parser()
parser.setFeature(handler.feature_namespaces, True)
parser.setContentHandler(AttachmentContentHandler('foo.txt'))

r = requests.post('https://example.com/EWS/Exchange.asmx', data=..., stream=True)
r.raw.decode_content = True  # if content-encoding is used, decompress as we read
parser.parse(r.raw)

这将解析最大64KB (默认IncrementalParser buffer size)的块，因此附件数据最多解码为48KB的原始数据块。

我可能会扩展内容处理程序以获取目标目录，然后查找<t:Name>元素来提取文件名，然后使用该元素将数据提取到找到的每个附件的正确文件名。您还需要验证您实际上是在处理一个GetAttachmentResponse文档，并处理错误响应。

票数 8

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52989143

复制

相似问题

问全流XML解析器
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问全流XML解析器EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问全流XML解析器
EN