首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python处理中文标点符号

中文文本中可能出现的标点符号来源比较复杂,通过匹配等手段对他们处理的时候需要格外小心,防止遗漏。以下为在下处理中文标点的时候采用的两种方法: 中文标点集合 比较常见标点有这些: 1 !?...调用zhon包的zhon.hanzi.punctuation函数即可得到这些中文标点。 如果想用英文的标点,则可调用string包的string.punctuation函数可得到: 1 !"...@[\\]^_`{|}~ 因此,比如需要将所有标点符号去除,可以进行以下操作: 1 2 3 4 >>> import re >>> from zhon.hanzo import punctuation...如果想去除重复的符号而只保留一个,那么可以用\1指明:比如 1 >>> re.sub(ur"([{}])+".format(punctuation), "\1", line.decode("utf-8")) 你也可以手工指定这些标点符号...punctuation) line = re.sub(re_punctuation, "", line) return line.strip() 清洗完毕后,有时候我们希望按照多个标点符号来分割

8.8K40
您找到你想要的搜索结果了吗?
是的
没有找到

基于PaddlePaddle训练中文标点符号模型

中文标点符号模型 本想是基于PaddleSpeech开发的中文标点符号模型,默认使用的预训练模型为ernie-3.0-medium-zh。...该模型可以用于语音识别结果添加标点符号,使用案例PPASR。...如果想自定义数据集,可以参考这个数据集的格式进行制作,注意在制作标点符号列表punc_vocab时,不需要加上空格,项目默认会加上空格的。...7.6. [2022-09-14 19:20:49.433919 INFO ] export_model:main:43 - 模型导出成功,保存在:models/pun_models 给文本添加标点符号...使用导出的预测模型为文本添加标点符号,通过text参数指定中文文本,实现添加标点符号,这可以应用在语音识别结果上面,具体可以参考PPASR语音识别项目。

1.3K20

Python中的zhon入门

")# 去除文本中的中文标点符号text = "这是一段包含标点符号的文本,我们需要去除它们。"...当处理中文文本数据时,常常需要对文本进行清洗,去除中文标点符号。...通过去除中文文本中的标点符号,可以让文本更加干净整洁,方便后续的处理和分析。虽然​​zhon​​​库在处理中文文本中的标点符号方面提供了很多便利的功能,但它也存在一些缺点。...它主要关注的是中文标点符号,在其他文本处理方面的支持相对有限。仅支持中文标点符号:​​zhon​​库仅提供了对中文文本中的标点符号的处理,没有涵盖其他常见的文本处理需求,如词性标注、句法分析等。...以下是一些常见的类似库:jieba:​​jieba​​是一个广泛使用的中文分词库,它提供了基于词典的分词算法,可以有效地切分中文句子。它也支持标点符号的处理,可以通过调整分词模式,忽略或保留标点符号

36730
领券