首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Python处理中文标点符号

中文文本中可能出现的标点符号来源比较复杂,通过匹配等手段对他们处理的时候需要格外小心,防止遗漏。以下为在下处理中文标点的时候采用的两种方法: 中文标点集合 比较常见标点有这些: 1 !?...调用zhon包的zhon.hanzi.punctuation函数即可得到这些中文标点。 如果想用英文的标点,则可调用string包的string.punctuation函数可得到: 1 !"...@[\\]^_`{|}~ 因此,比如需要将所有标点符号去除,可以进行以下操作: 1 2 3 4 >>> import re >>> from zhon.hanzo import punctuation...punctuation) line = re.sub(re_punctuation, "", line) return line.strip() 清洗完毕后,有时候我们希望按照多个标点符号来分割...比如只要遇到中文英文的逗号和句号等符号就分割,可以直接用translate把这些符号翻译为统一的分隔符,再split: 1 2 3 strip_chars = '?"。.

8.8K40

基于PaddlePaddle训练中文标点符号模型

中文标点符号模型 本想是基于PaddleSpeech开发的中文标点符号模型,默认使用的预训练模型为ernie-3.0-medium-zh。...该模型可以用于语音识别结果添加标点符号,使用案例PPASR。...如果想自定义数据集,可以参考这个数据集的格式进行制作,注意在制作标点符号列表punc_vocab时,不需要加上空格,项目默认会加上空格的。...7.6. [2022-09-14 19:20:49.433919 INFO ] export_model:main:43 - 模型导出成功,保存在:models/pun_models 给文本添加标点符号...使用导出的预测模型为文本添加标点符号,通过text参数指定中文文本,实现添加标点符号,这可以应用在语音识别结果上面,具体可以参考PPASR语音识别项目。

1.3K20

Windows如何切换英文中文

,Win10添加越南语就诸多限制,参考https://cloud.tencent.com/developer/article/1838322 针对Server2012R2/2016/2019,如何给英文镜像购买的机器切换英文界面到中文界面还是挺简单的...language → 输入Chinese选第一个点Next → 点Install → 等待进度条结束后注销当前会话重新登录即可看到效果 上图界面,2012R2可能需要你垂直滚动条下拉找大写字母C,找到简体中文后选中点...Open → 再点Add → 再选中文把它从第二位Move Up到第一位 → 注销当前会话重新登录即可看到中文界面 上图界面,2012R2可能需要你垂直滚动条下拉找大写字母C,找到简体中文后选中点Open...→ 再点Add → 再选中文把它从第二位Move Up到第一位 → 注销当前会话重新登录即可看到中文界面 添加描述 添加描述 继续回到2016/2019/win10的UI Style 图片....png 进度条结束后,界面如下图,会提示你下次登录就可以看到中文界面了

1.8K40

中文域名怎么用?选择中文域名好还是英文域名?

在实际生活里,大多数人见到的都是英文域名,中文域名还是很少见的。不过中文域名和英文域名的作用是一样的,都相当于门牌号码。正常情况下只要在地址栏里输入密码就能够直接访问。...中文域名解析的不是直接的中文域名而是域名下面的一连串英文加数字的域名,只要在地址栏里输入自己中文域名就会出现在下方,这时候你可以选择复制然后再去管理平台解析域名。...然后把解析出来的域名和中文域名绑定,你就可以正常访问网页了。 选择中文域名好还是英文域名?...这主要看个人喜好吧,我个人觉得英文域名好一些,因为看了中文域名怎么用的内容之后就知道中文域名并不普及,所以很多浏览器都打不开,如果想要访问中文域名就需要多一步解析的过程,对于新手小白来说还是挺麻烦的。...总之,现在大家都知道中文域名怎么用了,所以是选择中文域名还是英文域名看个人选择。只希望中文域名能够普及起来,这样很多浏览器就可以直接使用了。

26.9K20
领券