我从Exchange服务器获得了这个日志
EXHUB-10,08CCC3F50C35F2D2;2010-05-20T01:53:32.128Z;2010-05-20T01:53:33.097Z,12.10.53.144,12.10.53.200,
829888,norma@ccc.gov.my,521647,1,,"NEAC分组-工作组会议-提高劳动力的技能和加强职业和技术培训-2010年5月24日星期一下午2:30“,lee.cheesung@gmail.com,<>,00A:
我用这个正则表达式来匹配和分组这个模式;
(\d{4}-\d{2}-\d{2})(?:\w\s+)(\d+:\d+:\d+.\d+)(?:\w+\d.*),(.*?)、(“.*”),(.*?),.*?
基本上,日志中的信息用逗号分隔。不幸的是,对于“email subject”字段,如果用户输入逗号,日志将以双引号出现,如上面的示例-- "Monday May 24, 2010"格式中的逗号。
.....521647,1,"NEAC小组会议-提高劳动力技能和加强职业和技术培训-2010年5月24日星期一下午2:30“,lee.keesung@gmail.com,.
在特定的组(第19组)没有双引号的情况下,我怎样才能把整个主题和逗号结合起来呢?
发布于 2010-12-06 04:03:15
你提到:
--基本上,如果逗号是字段的一部分,则日志中的信息由comma...also分隔--字段将被双引用。
这使得它成为一个文件。解析CSV文件是一个解决问题,您不需要重新发明车轮。使用语言库提供的CSV解析器。
如果您正在使用Perl,请查看模块。
发布于 2010-12-06 03:59:42
您给出的行似乎是CSV格式的。为什么不使用CSV解析器解析它,例如:
发布于 2010-12-07 09:31:40
对于java,请使用:
http://commons.apache.org/sandbox/csv/
https://stackoverflow.com/questions/4363052
复制相似问题