学习
实践
活动
专区
工具
TVP
写文章
  • 广告
    关闭

    【玩转 GPU】有奖征文

    精美礼品等你拿!

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python处理中文标点符号

    中文文本中可能出现的标点符号来源比较复杂,通过匹配等手段对他们处理的时候需要格外小心,防止遗漏。以下为在下处理中文标点的时候采用的两种方法: 中文标点集合 比较常见标点有这些: 1 !? @[\\]^_`{|}~ 因此,比如需要将所有标点符号去除,可以进行以下操作: 1 2 3 4 >>> import re >>> from zhon.hanzo import punctuation 如果想去除重复的符号而只保留一个,那么可以用\1指明:比如 1 >>> re.sub(ur"([{}])+".format(punctuation), "\1", line.decode("utf-8")) 你也可以手工指定这些标点符号 punctuation) line = re.sub(re_punctuation, "", line) return line.strip() 清洗完毕后,有时候我们希望按照多个标点符号来分割

    7.8K40

    基于PaddlePaddle训练中文标点符号模型

    中文标点符号模型 本想是基于PaddleSpeech开发的中文标点符号模型,默认使用的预训练模型为ernie-3.0-medium-zh。 该模型可以用于语音识别结果添加标点符号,使用案例PPASR。 如果想自定义数据集,可以参考这个数据集的格式进行制作,注意在制作标点符号列表punc_vocab时,不需要加上空格,项目默认会加上空格的。 7.6. [2022-09-14 19:20:49.433919 INFO ] export_model:main:43 - 模型导出成功,保存在:models/pun_models 给文本添加标点符号 使用导出的预测模型为文本添加标点符号,通过text参数指定中文文本,实现添加标点符号,这可以应用在语音识别结果上面,具体可以参考PPASR语音识别项目。

    44620

    中文字符与中文标点符号判断

    字符集介绍 CJK中文字符和中文标点判断 主要内容: Java Character类介绍; Unicode 简介及 UnicodeBlock 与 UnicodeScript区别和联系 如何判断汉字及中文标点符号 做中文信息处理,经常会遇到如何判断一个字是否是中文,或者是否是中文的标点符号等。 Character.UnicodeScript.HAN) { return true; } return false; } 类似的,扩展开去还可以判别中文标点符号 因为中文的标点符号主要存在于以下5个UnicodeBlock中, U2000-General Punctuation (百分号,千分号,单引号,双引号等) U3000-CJK Symbols and Punctuation 冒号,分号等等) UFE30-CJK Compatibility Forms (主要是给竖写方式使用的括号,以及间断线﹉,波浪线﹌等) UFE10-Vertical Forms (主要是一些竖着写的标点符号

    1.8K10

    具有自动插入标点符号的端到端ASR系统(CS CL)

    从历史上看,人们对于在文本和语音到文本的转换中自动插入标点符号非常关注。 然而,人们似乎对将自动插入标点符号纳入新兴的基于神经网络的端到端语音识别系统没有什么兴趣,部分原因是缺乏带有标点符号文本的英语语音语料库。 在这项研究中,我们提出了一种方法,使用此 http URL 路径可以为 TEDLIUM 数据集生成带标点符号的文本。我们还提出了一个端到端的 ASR 系统,该系统可同时从语音信号输出单词和标点符号。 将字符串编辑距离和误时隙率结合到DLev-SER中,当假设文本与参考不完全一致时,我们支持标点符号误差率的测量。与之前的方法相比,我们的模型可以将误时隙率从 0.497 降低到 0.341。 原文作者:Yushi Guan 原文地址:https://arxiv.org/abs/2012.02012 具有自动插入标点符号的端到端ASR系统(CS CL).pdf

    89130

    扫码关注腾讯云开发者

    领取腾讯云代金券