我使用来提取特定搜索结果的tweet(这给了我大约10万条tweet)。问题是Twint输出带有表情符号标题的推文内容,而不是其特定的unicode。这是一个例子:
@LulapeloBrasil presidente minha eterna gratidão a tudo que senhor fez, faz e fará ao nosso povo. Seguiremos lutando pelos nossos ideais! <Emoji: Heavy red heart> <Emoji: Flexed biceps (dark skin tone)> #
我有一些推特数据,我把文本分成了那些快乐的表情符号和悲伤的表情符号,优雅而简洁,就像这样:
happy_set = [":)",":-)","=)",":D",":-D","=D"]
sad_set = [":(",":-(","=("]
happy = [tweet.split() for tweet in data for face in happy_set if face in tweet]
sad = [tweet.split() for t