我的研究兴趣是情感分析中表情在文本中的作用。我想从我的数据集中提取所有的表情符号。到目前为止,我所做的工作如下:
import re
from emoji import UNICODE_EMOJI
emoji_1 = re.compile('[\\u203C-\\u3299\\U0001F000-\\U0001F644]')
emoji_list= list(filter(emoji_1.match, df['Tweet text']))
emo_found= ' '.join(emoji for emoji in emoji_list)
def get_emoji_set(text):
return {letter for letter in text if letter in UNICODE_EMOJI['en'] }
c = get_emoji_set(emo_found)
Print(c)
但它并没有提取所有的图像。到目前为止,我只使用上面的代码获得了以下表情:
{'',''}
但是,这些只是数据集中存在的部分表情符号。在我的数据集中还存在以下表情符号,但没有得到结果:
.,,,++更多的表情符号
为什么我的代码没有从我的数据集中提取所有的表情符号,还有我在emoji_1中定义的表情符号吗?我还需要使用regex编译更多的范围吗?
我试过以下答案,但它没有返回任何东西。我得到了一个空栏。
发布于 2021-10-01 09:11:47
类似于德莫吉库的东西可能会有所帮助。
使用Unicode Consortium的emoji代码库中的数据,准确地从大量文本中找到或删除emojis。
https://stackoverflow.com/questions/69403257
复制相似问题