文章/答案/技术大牛

发布

社区首页 >问答首页 >分别捕获标点符号的日语语句正则表达式

问分别捕获标点符号的日语语句正则表达式
EN

Stack Overflow用户

提问于 2013-10-17 21:34:39

回答 2查看 268关注 0票数 2

我试图使用regex将日语文本块分割成单独的句子。目前，我主要是在球状上进行实验，但到目前为止，我已经做了以下的工作。

regex：/(.*?(。|？|！))/

样本文本

強面のため周囲の人から敬遠されている主人公が、クラスメイトと共通の話題を持とうとVRMMORPG“アナザーワールド”のベータテストに申し込んだ.ところが当選したのは彼一人。しかたなくひとりでゲーム内の仮想世界“イストピア”に“ケイオス”と名乗って乗り込んだが、そこはゲームでありながら五感すべてを体感でき、現実と間違えるほどのリアルな世界だった。サポートAIのテミスの協力を得つつ、クエストをこなしていったが、実はそこは本物の異世界“イストピア”であり、ケイオスのこなしたクエストによって、多くの人が影響を受けて……というお話。その戯言、聞き飽きたわ！あれ、ここにあった筆入れはどこにやったの？

得到的结果是正确的，但也是分别匹配标点符号的。

如何改进我的正则表达式，使标点符号不能单独匹配？

ruby

regex

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-10-17 21:37:32

使用(.*?[。？！])似乎可以做到这一点，请检查球状

Match 1
1.  強面のため周囲の人から敬遠されている主人公が、クラスメイトと共通の話題を持とうとVRMMORPG「アナザーワールド」のベータテストに申し込んだ。
Match 2
1.  ところが当選したのは彼一人。
Match 3
1.  しかたなくひとりでゲーム内の仮想世界「イストピア」に「ケイオス」と名乗って乗り込んだが、そこはゲームでありながら五感すべてを体感でき、現実と間違えるほどのリアルな世界だった。
Match 4
1.  サポートAIのテミスの協力を得つつ、クエストをこなしていったが、実はそこは本物の異世界「イストピア」であり、ケイオスのこなしたクエストによって、多くの人が影響を受けて……というお話。
Match 5
1.  その戯言、聞き飽きたわ！
Match 6
1.  あれ、ここにあった筆入れはどこにやったの？

票数 3

Stack Overflow用户

发布于 2013-10-17 21:40:16

那这个呢？

str.scan /[\p{Han}\p{Katakana}\p{Hiragana}\p{Hangul}[[:punct:]]]+/
=> ["強面のため周囲の人から敬遠されている主人公が、クラスメイトと共通の話題を持とうと",
 "「アナザ",
 "ワ",
 "ルド」のベ",
 "タテストに申し込んだ。ところが当選したのは彼一人。しかたなくひとりでゲ",
 "ム内の仮想世界「イストピア」に「ケイオス」と名乗って乗り込んだが、そこはゲ",
 "ムでありながら五感すべてを体感でき、現実と間違えるほどのリアルな世界だった。サポ",
 "ト",
 "のテミスの協力を得つつ、クエストをこなしていったが、実はそこは本物の異世界「イストピア」であり、ケイオス    のこなしたクエストによって、多くの人が影響を受けて……というお話。その戯言、聞き飽きたわ！あれ、ここにあった筆入れはどこにやったの？"]

http://rubular.com/r/8CtYuV8AAl

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/19437751

复制

相似问题

问分别捕获标点符号的日语语句正则表达式
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分别捕获标点符号的日语语句正则表达式EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分别捕获标点符号的日语语句正则表达式
EN