首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >将包含汉语、日语或英语的字符串拆分成单词

将包含汉语、日语或英语的字符串拆分成单词
EN

Stack Overflow用户
提问于 2016-05-05 13:56:34
回答 2查看 1.4K关注 0票数 1

如何使用regex或任何实用工具类将包含中文、日语或英语的字符串拆分为单词?

示例1:

2013年根據從年的一項研究,由一群來自美國俄亥俄州立大學的研

产出1:

2013年根據從年的一項研究,由一群來自美國俄亥俄州立大學的研

示例2:

根据美国一家研究小组2013年的一项研究,

产出2:

根据,到,2013年,研究,由,a,研究,小组,从,美国,到

可以肯定的是,输入字符串不会将英语与日语混为一谈--这两个字符串都将以单独的字符串形式出现;但是是的,英文字符串也应该由以下代码分割:

代码语言:javascript
运行
复制
words = input.split("[ ./()\\[\\]=,<>;\"']+");

如果这在Java中是不可能的,请建议是否只能用空格字符分隔非英语输入字符串。

EN

回答 2

Stack Overflow用户

发布于 2016-05-05 14:05:17

我认为你对中文(也可能是日语,但我不太清楚)的问题是,断句这个词是有语境的。有时两个字符将是两个单独的词,有时相同的两个字符将是一个单词。

因此,我认为您需要解析文本才能做到这一点。

票数 3
EN

Stack Overflow用户

发布于 2016-05-08 03:34:08

示例1:

2013年根據從年的一項研究,由一群來自美國俄亥俄州立大學的研

产出1:

2013年根據從年的一項研究,由一群來自美國俄亥俄州立大學的研

这是不正确的中文。正确的输出应该是:

2013年根據從年的一項研究,由一群來自美國俄亥俄州立大學的研

你需要一个中文单词库才能做到这一点。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37052540

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档