我试图拆分逗号分隔成对字符串,但无法解决如何满足包容性逗号。
这是我的测试案例-
private void stringSplit() {
String value = "{aaa=1111,bbb=2222,ccc=3333}";
String regEx = "[^,]+=[^,]+";
String separator = "=";
final Pattern pattern = Pattern.compile(regEx);
final Matcher matcher = pattern.matcher(value);
while (matcher.find()) {
final String group = matcher.group();
final String key = group.substring(0, group.indexOf(separator));
final String val =
group.substring(
group.indexOf( separator ) + separator.length(),
group.length());
System.out.println("key [" + key + "], val [" + val + "]");
}
}这是我的结果-
key [{aaa], val [1111]
key [bbb], val [2222]
key [ccc], val [3333}]目前为止一切都很好..。
但数值中可能有逗号,即
"{aaa=11,11,bbb=2222,ccc=333,3}";我想要的结果是-
key [{aaa], val [11,11]
key [bbb], val [2222]
key [ccc], val [333,3}]你们中的任何一个正则表达式大师能帮我一下吗。
谢谢!
编辑
以下是@bmorris591的进一步评论。
好的,我有一个最后的查询-这是这个疯狂的正则表达式(+一点java代码)需要处理的明确列表。
这是我的密码-
private void stringSplit() {
String value = "{1=\"1, one\", 22=\"+t,w,o\", 333=\"three, \"3\", -33,,333,\", 4444=\"four. '4-4, (44), -44\"}, 555=\"\", \"666\"=6666, \"777\"=\"7777\"}";
String regex = "[^\\{,]+=([[\\w]\\(\\)\\-\\+\\.\"'\\s,]+)[,}]";
String separator = "=";
final Pattern pattern = Pattern.compile(regex);
final Matcher matcher = pattern.matcher(value);
while (matcher.find()) {
final String group = matcher.group();
showKeyAndValue(group, separator);
}
}
private void showKeyAndValue(final String group, final String keyValueSeparator) {
System.out.println("group [" + group + "]");
final String key = removeQuotesFromString(group.substring(0,
group.indexOf(keyValueSeparator)));
final String val = removeQuotesFromString(group.substring(
group.indexOf(keyValueSeparator)
+ keyValueSeparator.length(), group.length()));
System.out.println("key [" + key + "], val [" + val + "]");
}
private String removeQuotesFromString(final String str) {
String returnString = str.trim();
if (returnString.startsWith("\"")) {
returnString = returnString.substring(
returnString.indexOf("\"") + 1, returnString
.lastIndexOf("\""));
}
return returnString;
}下面是结果-
group [1="1, one",]
key [1], val [1, one]
group [ 22="+t,w,o",]
key [22], val [+t,w,o]
group [ 333="three, "3", -33,,333,",]
key [333], val [three, "3", -33,,333,]
group [ 4444="four. '4-4, (44), -44"}]
key [4444], val [four. '4-4, (44), -44]
group [ 555="",]
key [555], val []
group [ "666"=6666,]
key [666], val [6666,]
group [ "777"="7777"}]
key [777], val [7777]除键666外,所有结果都是正确的。如您所见,后面有一个逗号。现在我可以去掉它(对于一个值,而不是用引号(基本上是一个数字)封装的值),但是我想知道这是否可以在regex中实现,因为这将是一个“更干净”的解决方案.
如果你能想到任何事情的话,非常,非常感谢。
发布于 2013-03-19 17:01:42
您可以使用负前瞻性的魔力,在逗号上拆分字符串,而不是在后面使用数字。
public static void main(String[] args) {
final String s = "{aaa=11,11,bbb=2222,ccc=333,3}";
final String[] ss = s.substring(1, s.length() -1).split(",(?!\\d)");
for(final String str : ss) {
System.out.println(str);
}
}输出
aaa=11,11
bbb=2222
ccc=333,3您可以很容易地将其扩展为直接抽取key=value对。
public static void main(String[] args) {
final String s = "{aaa=11,11,bbb=2222,ccc=333,3}";
final Pattern p = Pattern.compile("([A-Za-z]++)=([\\d,]+)(?!\\d)[,}]");
final Matcher matcher = p.matcher(s);
while (matcher.find()) {
System.out.println(matcher.group(1));
System.out.println(matcher.group(2));
System.out.println("DONE");
}
}输出
aaa
11,11
DONE
bbb
2222
DONE
ccc
333,3
DONE编辑
根据“任择议定书”的评论:
这对的值部分是字母数字(包括,+-*/=()__),而且值总是被封装在引号中,,+-*/=()也可能有多次出现。
我已修改了这一用语:
public static void main(String[] args) {
final String s = "{1=\"1, one\", 22=\"+t,w,o\", 333=\"three, 3, -33,,333\", 4444=\"four. 4-4, (44), -44\"}";
System.out.println("String is: " + s);
final Pattern p = Pattern.compile("([^{=,\\s]++)=\"([^\"]++)\"");
final Matcher matcher = p.matcher(s);
while (matcher.find()) {
System.out.println(matcher.group(1));
System.out.println(matcher.group(2));
System.out.println("DONE");
}输出:
String is: {1="1, one", 22="+t,w,o", 333="three, 3, -33,,333", 4444="four. 4-4, (44), -44"}
1
1, one
DONE
22
+t,w,o
DONE
333
three, 3, -33,,333
DONE
4444
four. 4-4, (44), -44
DONE该模式现在将匹配任何不是=,{或空白的东西,后面跟着一个=,然后是任何不包含封装在"中的"的模式。这个有用吗?
发布于 2013-03-21 10:50:55
bmorris591
感谢您的回复。
不好意思,但是回顾我原来的帖子有点太简单了。
这对的值部分是字母数字(包括",+-*/=()"),而且值总是封装在引号中,也可能有多次出现",+-*/=()“.
即
"{1=\"1 one\", 22=\"two\", 333=\"three 3\"}"
"{1=\"1, one\", 22=\"+t,w,o\", 333=\"three, 3, -33,,333\", 4444=\"four. 4-4, (44), -44\"}"由于这个问题的复杂性,我认为最简单的解决方案是在构造对字符串之前用一些标记字符替换所有逗号,然后执行正则表达式,然后将逗号重新应用到值.
谢谢你对我最初帖子的答复,因为这是对我最初问题的一个解决办法。
https://stackoverflow.com/questions/15505769
复制相似问题