我正在尝试拆分字符串(使用'|‘或',’分隔的字符串)。我使用fn:tokenize来实现这一点。考虑下面的示例文本,其中我有4列文本,其中在第3列中,我获得了与拆分模式相同的值。
fn:tokenize("column1|column2|||column4", "|")
上面代码的结果是给出了5个值,其中2个为空:
column1
column2
column4我还尝试向column3值添加引号,这也没有给出预期的结果。
发布于 2017-05-17 18:15:53
在MarkLogic 9中,您可以定义自己的自定义记号赋予器。
发布于 2017-05-18 04:17:20
除了通过正则表达式对fn:tokenize进行拆分,从而需要对|进行转义之外,这似乎是一种可怕的数据格式。抛开Michael Kay指出的问题,并期望||将始终指示以|开头的新字段,并且永远不会有空列,您可以应用一个简单的技巧,将管道符号替换为另一个字符,然后再转换回来。不过,这需要您找到数据集中不允许的Unicode范围内的某些字符。
for $token in fn:tokenize(fn:replace("column1|||||column4", "\|\|", "|_"), "\|")
return fn:replace($token, "_", "|")结果:
column1
|
|
column4如果我所做的假设不适用于您的用例,您将不得不确定另一组类似的严格假设,以便能够解析您的内容。
https://stackoverflow.com/questions/43998248
复制相似问题