Python提取中文字符

Python提取中文字符,包含数字

import re
m = re.findall('[\u4e00-\u9fa5]+', content)

print(m)
def translate(str):
    line = str.strip()  # 处理前进行相关的处理,包括转换成Unicode等
    pattern = re.compile('[^\u4e00-\u9fa50-9]')  # 中文的编码范围是:\u4e00到\u9fa5
    zh = " ".join(pattern.split(line)).strip()
    # zh = ",".join(zh.split())
    outStr = zh  # 经过相关处理后得到中文的文本
    return outStr

print(translate(content))

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Petrichor的专栏

Dataset 列表:机器学习研究

In computer vision, face images have been used extensively to develop face recog...

86710
来自专栏Petrichor的专栏

主机:各线介绍 & 问题速查表

  在独立组装过八九台主机,遇坑无数后,我写下了《如何自己组装电脑(从配件到整机)来省下一大笔钱》以及《组装台式机遇坑总结》这两篇技术博客。

12110
来自专栏Petrichor的专栏

显示器 设置选项 解析

12110
来自专栏Petrichor的专栏

个人理解:import scipy语句 为什么不能导入 scipy.misc.imsave 模块

1.4K30
来自专栏Petrichor的专栏

Adblock:简单强大的广告过滤沙盒

  之前在使用浏览器时,经常会为太多弹窗广告所困。后来师兄教我说可以用一个叫做 AddBlock 的沙盒来过滤掉广告,遂自己上网查阅了相关资料。后来发现一个特别...

23220
来自专栏Petrichor的专栏

忘记密码时,如何查看之前Chrome浏览器保存的密码

81420
来自专栏Petrichor的专栏

requirements.txt 介绍 & 快捷生成

  requirements.txt 文件 里面记录了当前程序的所有依赖包及其精确版本号。

16010
来自专栏Petrichor的专栏

像素、分辨率 区别 & 介绍

举个例子,比如一张图片由100×100个像点组成,那么这张图片的像素数就是1万。但是,如果这张图片边长为1英寸,那么其分辨率就是100点/英寸,也就是100dp...

23020
来自专栏Petrichor的专栏

命名法 的 简洁归纳表

11340
来自专栏Petrichor的专栏

系统快捷键

12520

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励