当我们从微博或者推特上爬下数据以后,里面可能包含了emoji表情。这种表情本书就跟汉字一样是普通的字符,并不是图片。
如果你需要把数据存入MySQL中,这些emoji表情可能会导致插入失败,即时你已经把编码设置为 utf8mb4
也不行。
此时,就需要使用正则表达式从字符串中移除emoji表情。
大部分的emoji表情对应的Unicode码分布在如下4个范围内:
因此可以使用Python正则表达式的 sub
方法把emoji去掉。
运行效果如图所示
不过需要注意的是,上面这个范围并不完全,例如:? 这个表情就无法被过