String line = "Hello! this is a line. It can't be hard to split into \"words\", can it?";
String[] words = line.split("\\W+");
for (String word : words) System.out.println(word);

给出

Hello
this
is
a
line
It
can
t
be
hard
to
split
into
words
can
it

票数 14

Stack Overflow用户

发布于 2011-09-12 16:16:13

好吧，看到你想算作can't这两个词，试试

split("\\b\\w+?\\b")

http://www.regular-expressions.info/wordboundaries.html

票数 0

Stack Overflow用户

发布于 2011-09-12 16:18:32

尝试：

line.split("[\\.,\\s!;?:\"]+");
or         "[\\.,\\s!;?:\"']+"

这是以下字符之一的或匹配：., !;?:"' (请注意，其中有一个空格，但没有/或)+使几个字符一起被计为一个字符。

这应该会给你一个足够的准确性。更精确的正则表达式需要更多关于需要解析的文本类型的信息，因为‘也可以是一个单词分隔符。大多数情况下，大多数标点符号分隔符都在空格周围，因此在[\\s]+上进行匹配也是非常接近的。(但对简短的引语给出了错误的计数，比如:她说：“不”。)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/7384791

复制

相似问题

问在java中，通过标点符号和空格等将字符串拆分为正则表达式
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在java中，通过标点符号和空格等将字符串拆分为正则表达式EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在java中，通过标点符号和空格等将字符串拆分为正则表达式
EN