文章/答案/技术大牛

发布

icu4j BreakIterator在Linux上返回错误的中文单词边界

icu4j是一个开源的国际化组件库，用于处理文本和语言相关的任务。BreakIterator是icu4j库中的一个类，用于在文本中找到单词、句子和其他边界。

在Linux上，如果icu4j的BreakIterator返回错误的中文单词边界，可能是由于以下原因导致的：

版本不兼容：请确保您使用的icu4j库版本与您的Linux系统兼容。建议使用最新版本的icu4j库，以确保修复了已知的问题和改进。
配置问题：检查您的Linux系统的语言和区域设置是否正确配置。icu4j的BreakIterator可能会受到这些设置的影响，从而导致错误的边界返回。

解决这个问题的方法可能包括：

更新icu4j库：访问icu4j的官方网站（https://unicode-org.github.io/icu/）下载最新版本的icu4j库，并将其集成到您的项目中。
检查语言和区域设置：确保您的Linux系统的语言和区域设置正确配置。可以通过修改系统环境变量或使用特定的命令来进行设置。
自定义边界规则：如果icu4j的BreakIterator无法正确处理中文单词边界，您可以尝试自定义边界规则。icu4j库提供了一些API和方法，可以让您定义自己的边界规则。

腾讯云相关产品和产品介绍链接地址：

腾讯云提供了一系列云计算相关的产品和服务，以下是一些与文本处理和语言相关的产品和服务：

腾讯云智能语音合成（Tencent Cloud Text to Speech）：提供了多种语言的文本转语音合成服务，可用于将文本转换为自然流畅的语音输出。产品介绍链接：https://cloud.tencent.com/product/tts
腾讯云智能机器翻译（Tencent Cloud Machine Translation）：提供了多种语言之间的自动翻译服务，可用于实时翻译文本内容。产品介绍链接：https://cloud.tencent.com/product/tmt

请注意，以上提到的腾讯云产品仅作为示例，您可以根据具体需求选择适合的产品和服务。

icu4j BreakIterator在Linux上返回错误的中文单词边界

、、

我的应用程序需要能够检测字符串中的单词数量。为此，我使用了ICU4J库，特别是BreakIterator。此代码需要适用于英语、中文、日语和德语。我发现中文在Windows上似乎可以正常工作，但在linux上就不行了。在linux上，它不会发现断字符。我刚接触ICU4J，所以这可能是我的代码？在</em

浏览 34提问于2017-08-29得票数 0

回答已采纳

4回答

如何将不使用空格的泰语句子拆分成单词？

、、、

如何从泰语句子中拆分单词？英语我们可以用空格来拆分单词。例如: split，I go to school = ['I', 'go', 'to' ,'school']通过只查找空格进行拆分。有没有能识别泰语单词边界和拆分的程序或库？

浏览 9提问于2012-12-12得票数 14

0回答

BreakIterator无法正确处理中文文本

、、

我使用BreakIterator.getWordInstance将中文文本拆分成单词。下面是我的例子import java.util.Locale; public static" + source.substring(start, end)); }我的示例文本取自0: I2: l

浏览 6提问于2017-06-13得票数 3

回答已采纳

5回答

Java简单句法分析器

、、

有没有什么简单的方法可以在纯Java中创建句子解析器，而不需要添加任何库和jars。首先非常感谢大家:)

浏览 0提问于2010-01-21得票数 3

1回答

重症监护室BreakIterator的文档不正确？

、

我在使用ICU break迭代器时遇到了麻烦。在中，他们建议使用以下代码遍历所有边界： UErrorCode status = U_ZERO_ERROR; delete bi

浏览 2提问于2012-06-01得票数 1

回答已采纳

3回答

从UTF8获取语言

、

我有几个utf8字符串，需要根据使用的字符找出语言。在德语、荷兰语和英语等使用拉丁字母的语言之间进行学习并不重要。出现的语言是阿拉伯语、朝鲜语、汉语、日语，即具有确定字符集的语言。

浏览 3提问于2014-09-25得票数 0

2回答

用于中日字符的正则表达式单词匹配

、

我知道检测字符串是否为中文字符的模式，但这不是我需要的。我需要检查是否在字符串中找到这些字符。

浏览 2提问于2018-07-04得票数 3

3回答

如何将InputStreamReader与StringBuffer相结合？

import java.io.*; { { a = read.re

浏览 7提问于2011-01-20得票数 0

2回答

创建可重用的Java函数

、、、

我使用Java语言方便的BreakIterator类返回文本块的第一部分，在最接近170个字符的句子边界处剪切，然后返回从该边界开始的文本块的第二部分。这是我到目前为止所知道的： BreakIterator

浏览 1提问于2013-09-17得票数 0

5回答

检查一个字符串中的所有单词是否都存在于另一个字符串中

如何检查字符串#2中的所有单词是否都存在于字符串#1中？它应该是不区分大小写的，我希望在单词比较期间排除所有标点符号和特殊字符。谢谢。

浏览 0提问于2010-12-25得票数 0

回答已采纳

4回答

如何在Java中正确计算字符串的长度？

、、、、

在考虑到语言/地区、规范化和字素集群等因素的情况下，在Java语言中实际返回Unicode标准()指定的结果的建议方法是什么？

浏览 0提问于2011-07-26得票数 22

回答已采纳

3回答

具有非单词字符的单词边界

*#\ba #b #c #具体来说，为什么第一个字符串不匹配包含到最后一个#的所有内容？由于单词边界(B)是一个零宽度匹配，可以匹配一个单词字符(\w)和一个非单词字符(\W)，或者一个单词字符与字符串的开始或结束之间的匹配，所以我不确定以非单词字符结束表达式会如何影响匹配。

浏览 0提问于2019-05-05得票数 1

回答已采纳

1回答

为什么边界这个词不匹配？

、

我有以下文件，我希望从中匹配一组特定的文件The one.zipLinux.Mirror.zipLinuxWindows2.zipLinuxWindows4.zipTS_1.xls我使用的正则表达式是；我尝试使用，但是它不匹配任何模

浏览 0提问于2013-05-17得票数 0

回答已采纳

3回答

在Android上构建的SQLite是否为FTS启用了ICU标记？

、、、、

正如标题所说:我们可以使用...USING fts3(tokenizer icu th_TH, ...)吗？如果可以，有没有人知道支持哪些语言环境，以及它是否因平台版本而异？

浏览 0提问于2011-08-16得票数 7

回答已采纳

3回答

一个PHP库/类用来统计各种语言中的单词？

、、、

在不久的将来，我将需要实现跨语言的字数统计，或者如果不可能的话，实现跨语言的字符数统计。我所说的字符计数是指包含在给定文本中的“可能在一个单词中”的字符的计数，具有上述相同

浏览 1提问于2010-05-29得票数 11

回答已采纳

5回答

从EditText获取当前光标位置的消息

、、

我希望在长按压下得到光标下的单词。 menu.add("Copy");编辑文本有一些文本，例如“一些文本，一些更多的文本当用户单击“更多”时，光标将位于单词"more“中的某个位置。当用户长时间按下单词时，我希望得到“更多”和光标下面的其他单词</

浏览 2提问于2013-08-14得票数 7

回答已采纳

2回答

如何设置Tomcat的编码类型？

、、

实际上我不确定这是tomcat引起的问题，我不得不处理一些中文单词(用UTF-8编码).When我用"Run on server“在eclipse上调试程序，当我将它导出到war包并在tomcat上运行时，它会返回预期的result.But，然后所有的中文单词都会显示在GBK中，并且无法阅读。

浏览 2提问于2016-06-06得票数 0

1回答

Java的BreakIterator的C#等效项

、、

我正在做一个从java到c#的转换项目，有没有BreakIterator版的c#版？我一直在尝试IEnumerator，但在下面找不到iterator.SetText()的用法，有没有人能为下面的几行建议等效的C#代码：ArrayList<String> resultList = new ArrayList<String>(); BreakIterator iterator = <

浏览 5提问于2017-05-29得票数 4

4回答

Javascript Auto建议

、、、、

是否有供自动建议/完成下列情况使用的库？谢谢抱歉没能解释得更多。在上面的问题中，我不想要“包含”搜索，而是在单词边界上的前缀搜索。所以"est“不应该返回”西维吉尼亚“，但是"wes”或"vir“应该返回。提出的解决方案我修改了Mike 的trie实现来解决

浏览 3提问于2011-12-12得票数 1

回答已采纳

2回答

是否有一种正则表达式来检测一个字符是否可以是一个单词的一部分？

、

这个问题的“棘手”部分是，我所说的字母不只是26个字符。它还应该包括任何字母，包括重音字符和希伯来语的别名，etc.etc。我想把文字分成几个字。字母像拉丁字母，希伯来语的别名，阿拉伯are，是分开的空间。所以我想我应该用任何不是字母的东西来区分文本。简而言之，我想检测一个

浏览 8提问于2012-10-08得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

icu4j BreakIterator在Linux上返回错误的中文单词边界

相关·内容

icu4j BreakIterator在Linux上返回错误的中文单词边界

如何将不使用空格的泰语句子拆分成单词？

BreakIterator无法正确处理中文文本

Java简单句法分析器

重症监护室BreakIterator的文档不正确？

从UTF8获取语言

用于中日字符的正则表达式单词匹配

如何将InputStreamReader与StringBuffer相结合？

创建可重用的Java函数

检查一个字符串中的所有单词是否都存在于另一个字符串中

如何在Java中正确计算字符串的长度？

具有非单词字符的单词边界

为什么边界这个词不匹配？

在Android上构建的SQLite是否为FTS启用了ICU标记？

一个PHP库/类用来统计各种语言中的单词？

从EditText获取当前光标位置的消息

如何设置Tomcat的编码类型？

Java的BreakIterator的C#等效项

Javascript Auto建议

是否有一种正则表达式来检测一个字符是否可以是一个单词的一部分？

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐