文章/答案/技术大牛

发布

问从dataframe提取表情符号
EN

Stack Overflow用户

提问于 2021-10-01 09:02:04

回答 1查看 181关注 0票数 0

我的研究兴趣是情感分析中表情在文本中的作用。我想从我的数据集中提取所有的表情符号。到目前为止，我所做的工作如下：

 import re 
 from emoji import UNICODE_EMOJI


 emoji_1 = re.compile('[\\u203C-\\u3299\\U0001F000-\\U0001F644]')

 emoji_list= list(filter(emoji_1.match, df['Tweet text']))

 emo_found= ' '.join(emoji for emoji in emoji_list)

  

 def get_emoji_set(text):
     return {letter for letter in text if letter in UNICODE_EMOJI['en'] }

 c = get_emoji_set(emo_found)

  Print(c)

但它并没有提取所有的图像。到目前为止，我只使用上面的代码获得了以下表情：

{''，''}

但是，这些只是数据集中存在的部分表情符号。在我的数据集中还存在以下表情符号，但没有得到结果：

.，，，++更多的表情符号

为什么我的代码没有从我的数据集中提取所有的表情符号，还有我在emoji_1中定义的表情符号吗？我还需要使用regex编译更多的范围吗？

我试过以下答案，但它没有返回任何东西。我得到了一个空栏。

从系列文本中提取表情符号

python

nlp

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-10-01 09:11:47

类似于德莫吉库的东西可能会有所帮助。

使用Unicode Consortium的emoji代码库中的数据，准确地从大量文本中找到或删除emojis。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69403257

复制

相似问题

问从dataframe提取表情符号
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从dataframe提取表情符号EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从dataframe提取表情符号
EN