问使用C#，我如何关闭格式错误的XML标记？
EN

Stack Overflow用户

提问于 2012-04-06 03:15:29

回答 4查看 2.4K关注 0票数 3

背景

我继承了大量XML文件，这些文件始终包含一个带有两个开始的标记，而不是一个开始和一个结束。我需要遍历所有这些文件并更正格式错误的XML。

下面是一个不好的XML的简化示例，它是每个文件中完全相同的标记：

<meals>
    <breakfast>
         Eggs and Toast
    </breakfast>
    <lunch>
         Salad and soup
    <lunch>
    <supper>
         Roast beef and potatoes
    </supper>
</meals>

注意，<lunch>标记没有闭包。这在所有文件中都是一致的。

问题

使用C#的regex来解决这个问题是最好的吗?如果是这样的话，我该怎么做呢？

我已经知道如何迭代文件系统并将文档读入XML或string对象，因此您不需要回答这一部分。

谢谢!

xml

regex

云点播特惠1元起

提供制作上传、存储、转码、媒体处理、媒体 AI、加速分发播放、版权保护等一体化的高品质媒体服务

回答 4

Stack Overflow用户

回答已采纳

发布于 2012-04-06 03:58:06

我认为，如果情况真的像你所描述的那样简单，那么正则表达式就有点过分了(例如，它总是相同的标签，而它们总是只有一个)。如果XML文件相对较小(千字节，而不是兆字节)，那么可以将整个文件加载到内存中，使用字符串操作插入缺少的斜杠，然后就到此为止。这将比尝试使用正则表达式更有效(更快)。如果您的文件非常大，您可以将其修改为逐行读取文件，直到它找到第一个<lunch>标记，然后查找下一个标记并进行相应的修改。下面是一些代码，供您开始使用：

var xml = File.ReadAllText( @"C:\Path\To\NaughtyXml.xml" );

var firstLunchIdx = xml.IndexOf( "<lunch>" );
var secondLunchIdx = xml.IndexOf( "<lunch>", firstLunchIdx+1 );

var correctedXml = xml.Substring( 0, secondLunchIdx + 1 ) + "/" +
xml.Substring( secondLunchIdx + 1 );

File.WriteAllText( @"C:\Path\To\CorrectedXml.xml", correctedXml );

票数 2

Stack Overflow用户

发布于 2012-04-06 03:57:43

如果损坏的XML相对简单，如您在问题中所示，那么您可以使用一些简单的逻辑和基本的正则表达式。

    public static void Main(string[] args)
    {
        string broken = @"
<meals>
    <breakfast>
         Eggs and Toast
    </breakfast>
    <lunch>
         Salad and soup
    <lunch>
    <supper>
         Roast beef and potatoes
    </supper>
</meals>";

        var pattern1 = "(?<open><(?<tag>[a-z]+)>)([^<]+?)(\\k<open>)";
        var re1 = new Regex(pattern1, RegexOptions.Singleline);

        String work = broken;
        Match match = null;
        do
        {
            match = re1.Match(work);
            if (match.Success)
            {
                Console.WriteLine("Match at position {0}.", match.Index);
                var tag = match.Groups["tag"].ToString();

                Console.WriteLine("tag: {0}", tag.ToString());

                work = work.Substring(0, match.Index) +
                    match.Value.Substring(0, match.Value.Length - tag.Length -1) +
                    "/" +
                    work.Substring(match.Index + match.Value.Length - tag.Length -1);

                Console.WriteLine("fixed: {0}", work);
            }
        } while (match.Success);
    }