前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一日一技:让emoji表情变消失

一日一技:让emoji表情变消失

作者头像
青南
发布2019-03-19 16:03:48
1.7K0
发布2019-03-19 16:03:48
举报
文章被收录于专栏:未闻Code

当我们从微博或者推特上爬下数据以后,里面可能包含了emoji表情。这种表情本书就跟汉字一样是普通的字符,并不是图片。

如果你需要把数据存入MySQL中,这些emoji表情可能会导致插入失败,即时你已经把编码设置为 utf8mb4也不行。

此时,就需要使用正则表达式从字符串中移除emoji表情。

大部分的emoji表情对应的Unicode码分布在如下4个范围内:

  1. "\U0001F600-\U0001F64F" "\U0001F300-\U0001F5FF"
  2. "\U0001F680-\U0001F6FF"
  3. "\U0001F1E0-\U0001F1FF"

因此可以使用Python正则表达式的 sub方法把emoji去掉。

  1. import re text = '不要说话?,你知道我在想什么?' clear_text=re.sub('["\U0001F600-\U0001F64F\U0001F300-\U0001F5FF\U0001F680-\U0001F6FF\U0001F1E0-\U0001F1FF"]', '', text) print(clear_text)

运行效果如图所示

不过需要注意的是,上面这个范围并不完全,例如:? 这个表情就无法被过

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未闻Code 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 MySQL
腾讯云数据库 MySQL(TencentDB for MySQL)为用户提供安全可靠,性能卓越、易于维护的企业级云数据库服务。其具备6大企业级特性,包括企业级定制内核、企业级高可用、企业级高可靠、企业级安全、企业级扩展以及企业级智能运维。通过使用腾讯云数据库 MySQL,可实现分钟级别的数据库部署、弹性扩展以及全自动化的运维管理,不仅经济实惠,而且稳定可靠,易于运维。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档