问Python 3:修剪多字节字符串
EN

Stack Overflow用户

提问于 2018-07-27 05:30:21

回答 1查看 128关注 0票数 0

我需要修剪一个多字节字符串，以便剩余的字符仍然可以在原始编码中读取(没有尾随的字节标记)。

示例-以下字符串长度为105个字符。然而，它是194字节长。当将这个字符串导入到一个字符限制为150的红移数据库列中时，我得到一个溢出错误。

>>str="Негосударственное образовательное учреждение высшего профессионального образования Институт Уник-70264832"
>>> len(str)
105
>>> len(bytes(str, 'utf-8'))
194

如何安全地减少整个多字节字符的字符串，使我最终得到150个字节以下的最长的完整字符串？

我知道以下方法适用于Python2，但我需要一个适用于Python3的解决方案。

def slice_multibyte(string, length):
    #Loop while string is still longer than required length
    while len(str(string.decode('utf-8'))) > length:
        #Trim off one full utf-8 character (may be multibyte)
        string = string.decode("utf-8")[:len(string.decode("utf-8"))-1].encode("utf-8")
    return string

python-3.x

trim

multibyte

string

回答 1

Stack Overflow用户

发布于 2018-07-27 07:29:44

在进一步思考这个问题之后，我想出了这个解决方案：

def trim_multibyte(string, length):
    while len(bytes(string, 'utf-8')) > length:
        string=string[:-1]
    return string

我的方法是，只要字符串的字节版本的长度超过指定的限制，就将字符串的末尾去掉一个字符。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51547780

复制

相似问题

问Python 3:修剪多字节字符串
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python 3:修剪多字节字符串EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python 3:修剪多字节字符串
EN