问在Python中生成随机UTF-8字符串
EN

Stack Overflow用户

提问于 2009-09-25 13:29:54

回答 8查看 22.8K关注 0票数 27

我想测试一下代码的Unicode处理。有没有什么东西可以放在random.choice()中，以便从整个Unicode范围中选择，最好不是外部模块？谷歌和StackOverflow似乎都没有答案。

编辑:这看起来比预期的要复杂，所以我将重新表述这个问题-以下代码是否足以生成所有有效的non-control characters in Unicode

unicode_glyphs = ''.join(
    unichr(char)
    for char in xrange(1114112) # 0x10ffff + 1
    if unicodedata.category(unichr(char))[0] in ('LMNPSZ')
    )

python

unicode

utf-8

random

回答 8

Stack Overflow用户

回答已采纳

发布于 2009-09-25 13:47:13

有一个你可以使用的UTF-8 stress test from Markus Kuhn。

另请参见Really Good, Bad UTF-8 example test data。

票数 10

Stack Overflow用户

发布于 2014-02-10 07:34:34

在这里，人们可能主要根据问题标题找到自己的方法，所以这里有一种生成包含各种Unicode字符的随机字符串的方法。要包含更多(或更少)可能的字符，只需使用所需的代码点范围扩展该部分示例。

import random

def get_random_unicode(length):

    try:
        get_char = unichr
    except NameError:
        get_char = chr

    # Update this to include code point ranges to be sampled
    include_ranges = [
        ( 0x0021, 0x0021 ),
        ( 0x0023, 0x0026 ),
        ( 0x0028, 0x007E ),
        ( 0x00A1, 0x00AC ),
        ( 0x00AE, 0x00FF ),
        ( 0x0100, 0x017F ),
        ( 0x0180, 0x024F ),
        ( 0x2C60, 0x2C7F ),
        ( 0x16A0, 0x16F0 ),
        ( 0x0370, 0x0377 ),
        ( 0x037A, 0x037E ),
        ( 0x0384, 0x038A ),
        ( 0x038C, 0x038C ),
    ]

    alphabet = [
        get_char(code_point) for current_range in include_ranges
            for code_point in range(current_range[0], current_range[1] + 1)
    ]
    return ''.join(random.choice(alphabet) for i in range(length))

if __name__ == '__main__':
    print('A random string: ' + get_random_unicode(10))

票数 21

Stack Overflow用户

发布于 2009-09-25 14:20:35

下面是一个示例函数，它可能会创建一个随机的格式良好的UTF-8序列，如Unicode 5.0.0的Table 3-7所定义：

#!/usr/bin/env python3.1

# From Table 3–7 of the Unicode Standard 5.0.0

import random

def byte_range(first, last):
    return list(range(first, last+1))

first_values = byte_range(0x00, 0x7F) + byte_range(0xC2, 0xF4)
trailing_values = byte_range(0x80, 0xBF)

def random_utf8_seq():
    first = random.choice(first_values)
    if first <= 0x7F:
        return bytes([first])
    elif first <= 0xDF:
        return bytes([first, random.choice(trailing_values)])
    elif first == 0xE0:
        return bytes([first, random.choice(byte_range(0xA0, 0xBF)), random.choice(trailing_values)])
    elif first == 0xED:
        return bytes([first, random.choice(byte_range(0x80, 0x9F)), random.choice(trailing_values)])
    elif first <= 0xEF:
        return bytes([first, random.choice(trailing_values), random.choice(trailing_values)])
    elif first == 0xF0:
        return bytes([first, random.choice(byte_range(0x90, 0xBF)), random.choice(trailing_values), random.choice(trailing_values)])
    elif first <= 0xF3:
        return bytes([first, random.choice(trailing_values), random.choice(trailing_values), random.choice(trailing_values)])
    elif first == 0xF4:
        return bytes([first, random.choice(byte_range(0x80, 0x8F)), random.choice(trailing_values), random.choice(trailing_values)])

print("".join(str(random_utf8_seq(), "utf8") for i in range(10)))

由于Unicode标准的广泛性，我无法对其进行彻底的测试。还要注意，字符不是均匀分布的(但序列中的每个字节都是均匀分布的)。

票数 8

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/1477294

复制

相似问题

问在Python中生成随机UTF-8字符串
EN

回答 8

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Python中生成随机UTF-8字符串EN

回答 8

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Python中生成随机UTF-8字符串
EN