首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何将一个被标记的日本字符串分割成原子部分?

如何将一个被标记的日本字符串分割成原子部分?
EN

Stack Overflow用户
提问于 2015-12-04 12:24:12
回答 1查看 205关注 0票数 1

假设我有一个字符串,如下所示。

代码语言:javascript
运行
复制
string input = "合{あい}気{き}道{どう}生{う}まれる昨日{きのう}から揚{あ}げそば";

我想得到的是一个数组,如下所示。

代码语言:javascript
运行
复制
string[] output = {"合{あい}", "気{き}", "道{どう}", 
                   "生{う}", "まれる", "昨日{きのう}", 
                   "から", "揚{あ}", "げそば"};

查找原子部件的伪规则:

  • 一个或多个kanji字符,后面是{,后面是一个或多个hiragana字符,后面是}
  • 一个或多个不包含在{}之间的平假名字符。

我对regex不熟悉。我也不知道如何区分康吉和平假名。你能帮我在C#里解决这个问题吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-12-04 12:35:56

您可以使用以下正则表达式:

代码语言:javascript
运行
复制
[一-龯]+{\p{IsHiragana}+}|\p{IsHiragana}+(?![^{}]*})

regex演示

它包含两个备选方案:

  • [一-龯]+{\p{IsHiragana}+} -匹配1或更多的汉字([一-龯]+,从https://gist.github.com/terrancesnyder/1345094借来的),后面跟着{...}或.
  • \p{IsHiragana}+(?![^{}]*}) -1或更多的Hiragana,后面没有{}以外的字符,然后是}
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34088366

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档