如何使用regex或任何实用工具类将包含中文、日语或英语的字符串拆分为单词?
示例1:
2013年根據從年的一項研究,由一群來自美國俄亥俄州立大學的研
产出1:
2013年根據從年的一項研究,由一群來自美國俄亥俄州立大學的研
示例2:
根据美国一家研究小组2013年的一项研究,
产出2:
根据,到,2013年,研究,由,a,研究,小组,从,美国,到
可以肯定的是,输入字符串不会将英语与日语混为一谈--这两个字符串都将以单独的字符串形式出现;但是是的,英文字符串也应该由以下代码分割:
words = input.split("[ ./()\\[\\]=,<>;\"']+");
如果这在Java中是不可能的,请建议是否只能用空格字符分隔非英语输入字符串。
发布于 2016-05-05 14:05:17
我认为你对中文(也可能是日语,但我不太清楚)的问题是,断句这个词是有语境的。有时两个字符将是两个单独的词,有时相同的两个字符将是一个单词。
因此,我认为您需要解析文本才能做到这一点。
发布于 2016-05-08 03:34:08
示例1:
2013年根據從年的一項研究,由一群來自美國俄亥俄州立大學的研
产出1:
2013年根據從年的一項研究,由一群來自美國俄亥俄州立大學的研
这是不正确的中文。正确的输出应该是:
2013年根據從年的一項研究,由一群來自美國俄亥俄州立大學的研
你需要一个中文单词库才能做到这一点。
https://stackoverflow.com/questions/37052540
复制相似问题