我正在尝试解析一个非常大的XML文件,并做小写和删除标点符号。问题是,当我尝试使用大文件的cET parse function解析此文件时,有时会遇到格式错误的标记或字符,这会引发syntax error
SyntaxError: not well-formed (invalid token): line 639337, column 4
注意:我几乎不可能读取该文件,因此我看不到问题所在。
如何跳过或修复此问题?
from xml.etree import cElementTree as cET
for event, elem in cET.iterparse(xmlFile, event
秒杀云服务器1核1G 3年有没有带硬盘的?带的话硬盘是多大的?
标题:腾讯云新春采购节——多买多优惠,续费升级礼包领不停!
地址:https://cloud.tencent.com/act/season?utm_source=portal&utm_medium=banner&utm_campaign=season&utm_term=0308
浏览器信息
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/604.5.6 (KHTML, like Gecko) Version/11.0.3 Safari/