python数据处理-正则表达式&mysql

昨儿上午到公司,小峰峰说程哥,mysql有没有正则表达式的函数,将字段中的英文占字段长度比例超过百分之60的提取出来.mysql中正则表达式常用语where条件中,进行条件过滤,后来一想还是用python正则模块re进行处理.

一.源数据

二.处理逻辑

nid是记录一条记录的唯一标志,将源数据中要处理的字段查询出来,文本字段替换空白字符,计算长度,正则提取出英文,计算英文字符串的长度,通过两个长度相除,>=0.6的则大部分是英文,长度相等的是纯英文标题,新处理后的数据也添加上nid字段,写入一个新表,通过新表和数据源表关联查找数据

三.代码

四.数据处理后 测试了1000条 筛选出了辣么少.....

五.代码下载

https://github.com/chengcxy/Data_ETL/blob/master/handle_taobao.py

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171220G0827300?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券