首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从多字节字符串中剥离重复字符的PHP方法?

从多字节字符串中剥离重复字符的PHP方法?
EN

Stack Overflow用户
提问于 2011-03-24 09:18:45
回答 3查看 1.4K关注 0票数 5

啊哈。有人知道如何创建一个相当于PHP count_chars($string,3)命令的多字节字符的函数吗?

使得它将返回每个唯一字符只有一个实例的列表。如果那是英语,我们有

"aaabggxxyxzxxgggghq xcccxxxzxxyx“

它将返回"abgh qxyz“(请注意,空格已计算在内)。

(在这种情况下,顺序并不重要,可以是任何内容)。

如果是日文汉字(不确定浏览器是否都支持它):

漢漢漢字漢字私私字私字漢字私漢字漢字私

它将只返回使用的3个汉字:

漢字私

它需要在任何UTF-8编码的字符串上工作。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-03-24 12:24:11

嘿,戴夫,你永远看不到这一天的到来。

代码语言:javascript
运行
复制
php > $kanji = '漢漢漢字漢字私私字私字漢字私漢字漢字私';
php > $not_kanji = 'aaabcccbbc';
php > $pattern = '/(.)\1+/u';
php > echo preg_replace($pattern, '$1', $kanji);
漢字漢字私字私字漢字私漢字漢字私
php > echo preg_replace($pattern, '$1', $not_kanji);
abcbc

什么,你以为我又要用mb_substr了?

在正则表达式中,它查找任何一个字符,然后查找该字符的一个或多个实例。然后将匹配的区域替换为匹配的一个字符。

u modifier在PCRE中打开UTF-8模式,在该模式下,它处理UTF-8序列而不是8位字符。只要正在处理的字符串已经是UTF-8,并且PCRE是使用Unicode支持进行编译的,那么这对您来说应该没问题。

嘿,你猜怎么了!

代码语言:javascript
运行
复制
$not_kanji = 'aaabbbbcdddbbbbccgggcdddeeedddaaaffff';
$l = mb_strlen($not_kanji);
$unique = array();
for($i = 0; $i < $l; $i++) {
    $char = mb_substr($not_kanji, $i, 1);
    if(!array_key_exists($char, $unique))
        $unique[$char] = 0;
    $unique[$char]++;
}
echo join('', array_keys($unique));

这使用了与随机代码相同的通用技巧。我们获取字符串的长度,然后使用mb_substr一次提取一个字符。然后,我们将该字符用作数组中的键。我们利用了PHP的位置数组:键按照定义的顺序排序。一旦我们检查完字符串并识别出所有字符,我们就可以抓取关键字并按照它们在字符串中出现的相同顺序将它们连接在一起。您还可以从该技术中获得每个字符的字符数。

如果有像mb_str_split这样的东西与str_split一起使用,这将会容易得多。

(这里没有汉字示例,我遇到了复制/粘贴错误。)

在这里,试试这个的大小:

代码语言:javascript
运行
复制
function mb_count_chars_kinda($input) {
    $l = mb_strlen($input);
    $unique = array();
    for($i = 0; $i < $l; $i++) {
        $char = mb_substr($input, $i, 1);
        if(!array_key_exists($char, $unique))
            $unique[$char] = 0;
        $unique[$char]++;
    }
    return $unique;
}

function mb_string_chars_diff($one, $two) {
    $left = array_keys(mb_count_chars_kinda($one));
    $right = array_keys(mb_count_chars_kinda($two));
    return array_diff($left, $right);
}

print_r(mb_string_chars_diff('aabbccddeeffgg', 'abcde'));
/* => 
Array
(
    [5] => f
    [6] => g
)
*/

你会想要调用它两次,第二次,左边的字符串在右边,右边的字符串在左边。输出将是不同的-- array_diff只给出左边的东西,右边没有的东西,所以你必须做两次才能得到整个故事。

票数 4
EN

Stack Overflow用户

发布于 2011-03-24 09:29:43

请尝试检查iconv_strlen PHP标准库函数。不能说是东方编码,但它适用于欧洲和东欧的语言。在任何情况下,它都提供了一些自由!

票数 0
EN

Stack Overflow用户

发布于 2013-08-11 08:33:08

代码语言:javascript
运行
复制
$name = "My string";
$name_array = str_split($name);
$name_array_uniqued = array_unique($name_array);
print_r($name_array_uniqued);

容易多了。User str_split将短语转换为一个数组,每个字符都是一个元素。然后使用array_unique删除重复项。非常简单。没什么复杂的。我喜欢这样。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5413655

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档