人工智能(AI)在各个领域都展现了巨大的能力,特别是在人机交互(HCI)、具身智能以及虚拟数字人的设计和动画方面。因此,实践者和用户越来越关注AI理解并表达情感的能力。至今,有两种主要类型的AI模型参与到了人情感分析中:生成模型和多模态大语言模型(MLMs)。为了评估这两种模型的情感能力,本研究引入了MEMO-Bench,这是一个包括7,145张肖像的综合基准,每张肖像代表一种不同的情感,由12个文本到图像(T2I)模型生成。 不同于以前的工作,MEMO-Bench为评估T2I模型和MLMs在情感分析的背景下提供了框架。此外,采用了一种渐进评估方法,从粗粒度指标到细粒度指标,以提供更详细和全面的MLMs情感分析能力的评估。实验结果显示,现有的T2I模型在生成积极情感方面比生成消极情感更有效。 同时,尽管MLMs在区分和识别人类情感方面展示了一定的有效性,但它们在人类 Level 的准确性方面仍存在一定的差距,特别是在细粒度情感分析方面。MEMO-Bench将公开发布,以支持这一领域的进一步研究。
目前,人工智能(AI)在多个领域的能力已经达到了与人类相当的水平,甚至有些领域超过了人类,这表明它具有一定程度的理性思维。然而,理性思维的存在并不等同于完全的“智能”,因为AI是否真正体验情感这个问题仍未得到解决。在实际应用中,如人机交互(HCI)和具身智能,以及沉浸式媒体设计(如虚拟数字人)中,用户情感在塑造AI决策过程中起着关键作用。不幸的是,大多数现有交互系统主要依赖文本界面[47],而不是利用多模态信息(如视觉和听觉线索),有效地捕捉和理解情感变化。这种局限性极大地限制了这些系统的情感理解能力。多模态大型语言模型(MLLMs)的出现为情感 Aware 交互带来了新的可能性,使AI能够可能理解人类情感。然而,这种能力的范围仍然 largely unexplored。现有研究[37]主要关注评估MLLMs识别和分类情感的能力,往往忽视了它们在更细粒度理解情感方面的能力。此外,情感理解的需求不仅限于MLLMs,还包括文本到图像(T2I)模型,这些模型越来越用于生成传达特定情感状态的角色肖像。因此,评估AI的情绪分析能力应包括MLLMs和T2I模型,因为两者都是推动情感 Aware AI系统发展的关键。
在本文中,作者介绍了一个名为MEMO-Bench的多情绪分析基准,旨在评估T2I模型和MLLM的情感分析能力。MEMO-Bench包括7,145个由AI生成的肖像图像(AGPIs),代表六种不同的情绪状态。
具体而言,针对每种情绪,作者使用100个 Prompt ,供T2I模型进行肖像生成。生成后,作者会手动审查AGPIs,评估图像与 Prompt 中的预期情感表达之间的对齐,从而评估T2I模型的情感生成能力。对于MLLM的评估,作者采用一种从粗糙到细粒度的情绪评估方法。
首先,将MLLM任务分类为AGPIs的情绪。然后,将正确分类的肖像呈现给MLLM,并让其以更细粒度的 Level 评估其情感强度。实验结果表明,现有的T2I模型具有一定的情感生成能力,但在负面情感生成方面仍有限。而MLLM在粗糙情绪分类方面表现相对良好,但完全无法准确理解细粒度的人类情感程度。这些发现突显了当前AI完全理解人类情感的能力的局限性,为开发更先进的情感感知AI系统提供了有价值的洞察。本文的主要贡献如下:
情感计算(Affective computing),也称为情感人工智能(Emotion AI)[31, 41],是人工智能(AI)领域的一个关键分支,它专注于使机器能够识别、解释和模拟人类情感。随着诸如虚拟数字人、大型语言模型(LLMs)和具身智能等技术的出现,将人类情感融入AI已成为一个具有重要意义的研究领域。情感计算可以广泛地分为两个相互关联的任务:情感生成(AG)[46]和情感理解(AU)[83],这两者对于AI系统的持续发展至关重要[70]。情感生成指的是AI能够创建传达特定或情境适当的情感内容的能力,这可能基于人类输入或情境线索。相比之下,情感理解涉及AI准确解释多种模态数据中存在的情感。传统上,情感分析和情感计算依赖于预训练的语言模型[19, 40],这些模型通过人工标注的数据集进行训练[2, 33, 56];然而,由于模型架构和数据集大小的限制,这些模型通常具有有限的一般化能力。相反,LLMs引入了一种情感计算的新范式,利用大量数据集和先进的模型架构来提高性能。尽管LLMs在情感相关任务方面取得了进步,但AI是否真正能够实现情感 Aware 仍然是一个开放且关键的研究领域。
随着人工智能,尤其是语言模型(LLMs)对人类生活的影响不断加深,学者们越来越关注对这些模型的性能进行量化。这导致了一系列可靠的基准测试,可以指导未来的研究和模型开发。近年来,已经建立了许多基准测试,以评估不同领域的LLM的能力。突出的例子包括C-Eval [30],AGI-Eval [84],MMLU [29],以及CMMLU [36],这些测试评估了LLM在各种学术和实际学科中的能力。此外,在计算机视觉领域,已经开发了诸如Q-Bench [77, 80] 和A-Bench [79]等基准测试,以评估LLM感知数字媒体质量的能力。尽管已经设计了基准测试 [37, 52]来评估LLM的情感感知能力,但大多数现有框架仍然依赖于粗糙的情感理解评估,无法考虑情感理解的精细层次。此外,现有工作主要关注LLM的情感理解能力,往往忽视了生成模型的情感能力。为了解决这一差距,本文提出的MEMO-Bench旨在通过考虑三个关键方面,即生成模型的情感生成能力、这些模型生成的内容质量以及MLLM的情感理解能力,提供更全面的评估。这种全面的方法提供了对AI情感分析能力的更集成和全面的评估。
参考先前的研究[37],作者选择了六个基本情绪来构建MEMO-Bench数据集:快乐(HAP),悲伤(SAD),愤怒(ANG),惊讶(SUR),担忧(WOR)和中性(NEU)。对于每个情绪,作者设计了100个独特的 Prompt 来生成能够传达相应情绪的AGPIs。为了更清楚地展示所选 Prompt ,图3中的大多数 Prompt 主要由与情绪相关的词语和短语组成,其中包括直接使用特定情绪术语,如“快乐”和“悲伤”。这突显了在生成根据更细微、上下文驱动的 Prompt 的情绪表达内容时,T2I模型所面临的额外挑战。
为了全面评估现有T2I模型的情感生成能力,并为评估MLLM的情感理解能力提供适当的视觉数据,作者选择了12个具有代表性的T2I模型。这些模型的具体细节详见表1。此外,图3展示了一些典型案例,说明不同模型之间性能的差异。如图所示,即使使用相同的 Prompt ,不同T2I模型生成的图像在图像质量和情感表达方面也存在显著差异。在某些情况下,某些模型生成的图像与 Prompt 无关,或者未能传达任何情感。在手动审查所有生成图像后,作者保留了总共7,145个具有情感表达的图像,并记录了每个T2I模型所选图像的数量。值得注意的是,对于封闭源DL3模型,某些“愤怒” Prompt 会导致敏感性问题,从而导致生成失败数量较高。
与现有研究主要依赖GPT-4o响应进行标注[7]不同,本文通过主观标注7,145个AGPIs来确保标注过程的可靠性和有效性。这是通过招募志愿者对图像在三个维度上进行评估:情感类别、情感强度和图像质量实现的。具体而言,作者邀请了15名男性和14名女性志愿者参与主观标注,遵循ITU-R B.T. 500-13 [10]中规定的指南。标注过程在一个良好的控制实验室环境中进行,以保持一致性。为了便于生成图像的展示和标注,作者设计了一个主观标注平台,使用Gradio [1]。该平台包括图像质量评估、情感识别和 Level 分析模块,并在分辨率为4096x2304的iMac监视器上显示。
整个主观标注过程分为15个阶段,每个阶段最多有500个AGPI标注任务。为了确保标注质量和可靠性,志愿者被指示在每次阶段之间休息至少15分钟,每天最多完成四个阶段。在开始第一阶段之前,所有志愿者都接受了30分钟的培训,培训内容包括对标注任务和平台界面的介绍。
在标注结束时,总共收集了207,205个标注集。第个志愿者对第个AGPI的标注可以表示为一个三元组(, , ),其中表示情感类别,表示情感程度,代表图像质量。在进行情感分类时,选择出现频率最高的情感类别作为生成图像的最终情感类别。在情感强度和图像质量方面,应用了分数来标准化和的值:
其中 , , 并 表示第 个主题评估的总 AGPI 数量。根据[10]中提出的拒绝程序,不可靠主题的评分将被排除。剩下的 z- 分数 将被线性缩放以在 [0, 5] 的范围内。最后,第 个 AGPI 的平均意见得分 (MOSs) 是由缩放后的 z- 分数的平均值计算得到的:
其中表示有效主体的数量,表示缩放后的z分数。
T2I模型情感生成功能的评价包含两个关键维度:AGPIs的质量以及情感合成的准确性。为了评估这些方面,采用了一个全面的评价框架,该框架整合了主观标注和定制 Prompt 。这种方法允许对AGPIs的视觉质量和情感忠诚度进行评估,为量化各种T2I模型的情感生成能力提供了一种途径。使用AGPIs的平均意见分数(MOSs)作为图像质量的基准指标。相比之下,情感生成的准确性,即第k个情感的,可以初步表述如下:
其中, 表示用于生成第 种情感所使用的完整一组 Prompt ,排除 T2I 模型生成失败的实例。此外, 表示与第 种情感相关的所有 AGPIs 的完整集合。此外,为了进一步研究不同类型的错误,通过生成错误率()捕获了各种情感 Prompt 上的生成错误的发生情况。
和 是评估 T2I 模型准确合成人类情感能力的重要工具,它们提供了一种全面的评估方法,既可以评估情感生成的精确度,也可以评估错误率。
为了对MEMO-Bench中的AGPIs(自注意力生成图像)的质量进行全面评估,本文提出了图4中基于主观评估得到的平均评分(MOSs)的详细分布分析。图4的结果表明,大多数AGPIs具有较高的视觉保真度,这一发现不仅突显了各种T2I模型(自注意力生成图像模型)的卓越性能,还验证了MEMO-Bench中的AGPIs能够准确有效地传达角色情感,不受图像质量问题的影响。为了能更精细地比较不同T2I模型生成的图像质量,并研究各种情感 Prompt 如何影响图像保真度,本文揭示了与这两个因素相关的MOSs分布,如图5所示,揭示了几个关键观察结果:
在MEMO-Bench数据集中的所有AI中,计算了两个指标和,结果分别呈现在表2和图6中,从中可以得出一些见解:
1)不同T2I模型的情感生成能力存在显著差异。具体来说,SGA在情感生成准确率方面优于所有其他模型,而FCS的表现最差,GACC与图4中所有AGPIs的MOS分布之间的差距超过35%。
这两个模型;
1)在情感类别方面,T2I模型在生成正面情感(如HAP和NEU)方面通常表现出强大的情感生成能力,但在生成负面情感方面却显示出有限的生成能力,这与第4.2节的研究结果一致;
2)如图6所示,区域B、C和D的颜色较深,表明现有的T2I模型在生成情感如SAD、WOR和NEU时容易混淆。总体而言,大多数T2I模型的情感生成性能仍然不理想。
为了研究现有MLLM的的情绪理解能力,作者设计了一种从粗糙到精细的渐进式测试方法进行情绪分析。最初,作者选择了16个突出且先进的MLLM进行评估,包括两个封闭源模型,GPT-4o [44]和Gemini-1.5-Pro [57],以及14个开源模型,如LLaVa [38, 39]和mPLUG-Owl [65, 66, 67]系列。在粗糙情绪理解阶段,所有MLLM都需在MEMO-Bench数据集的每个AGPI中确定情绪类别。
值得注意的是,真实情感类别被设置为每个AGPI的主观标注得出的,而不是 Prompt 的情绪类别。本阶段使用两个指标评估理解性能:情绪理解准确率和错误率,这些指标与方程3和4定义的方式相同。
在阶段中正确分类的所有AGPI然后被包括在细粒度情绪感知阶段,在此阶段,MLLM被要求为每个图像分配情绪 Level 得分。为了与第3.3节中主观标注的数据集保持一致,作者应用了额外的 Prompt 来限制情绪得分在0和5之间。
在细粒度情绪理解评估中,作者使用了四种常用的指标[14, 43, 75, 76, 78, 86, 88, 89]:Spearman等级相关系数(SRCC),Kendall等级相关系数(KRCC),Pearson线性相关系数(PLCC)和均方根误差(RMSE)。SRCC和KRCC用于评估相对于第3.3节中获得的预测情感 Level 的单调性,而PLCC和RMSE衡量了预测的准确性。前三个指标范围从0到1,数值越接近1表示性能越好,而RMSE应理想地接近0。
如图7和表3所示,粗粒度情感识别阶段中各种MLLM的理解准确率()和错误率()如下。
对这些结果的综合分析得出以下重要见解:
1)mPLUG-Owl3在MEMO-Bench上实现最高的情感分类性能,达到0.6759。然而,这一得分表明当前MLLM在情感分类任务上的性能仍然不理想;
2)实现每种情感最佳分类性能的MLLM各不相同,反映了不同模型在识别和分类情感上的不均衡性能和明显偏见;
3)许多MLLM在HAP情感分类上的准确率超过0.9,表明现有模型对HAP情感有很强的理解能力。相比之下,WOR的识别准确率明显较低,WOR经常被误分类为SAD或NEU。这表明MLLM准确理解WOR情感的能力存在显著差距;
4)与第4.2节和第4.3节的研究结果一致,MLLM对负面情感的理解准确率通常低于对正面情感。这一趋势表明,当前模型在处理负面情感的计算能力上的限制是一个普遍的挑战。
所有MLLM在理解细粒度情绪程度方面的能力都进行了评估,评估方法使用的是正确分类的AGPIs,结果见表3。表3中的数据显示,尽管大多数MLLM在情绪分类任务中达到了0.5或更高的准确率,但在细粒度情绪理解方面的表现却明显不满意。
这表明,尽管MLLM可以以合理的准确率分类情绪,但他们无法捕捉到人类情绪的更细微的强度或程度。总之,当前的MLLM在理解人类情感方面存在有限的潜力,缺乏与人类情感理解相媲美的同情或感知情绪的能力。这一重要发现突显了现有MLLM在情感智能方面的关键差距,为未来设计更先进的情感感知模型提供了有价值的启示。
人工智能是否拥有情感是一个关键且持续进行的研究领域。回答这个问题需要考虑至少两个关键方面:文本到图像(T2I)模型的情感生成能力和多模态大型语言模型(MLLMs)的情感理解能力。为了研究这些维度,本研究引入了MEMO-Bench数据集,该数据集包含了7,145张代表六种不同情感的AI生成的人像图片(AGPIs),这些图片是由12种最先进的T2I模型制作的。
为了确保标签数据的准确性和可靠性,本研究招募了29名志愿者,使用在Gradio上开发的多任务主观标签界面,在三个维度上对AGPIs进行标注:图像质量、情感内容和情感强度。T2I模型的情感生成能力是根据AGPIs的质量和生成准确性来评估的。结果表明,现有的T2I模型在生成带有积极情感的高质量人像方面表现出色,但在生成负面情感方面存在一些局限性。
此外,本研究利用MEMO-Bench数据集采用渐进式测试方法来评估MLLMs的情感理解能力。研究发现,尽管MLLMs能够在一定程度上识别和分类情感,但它们无法评估情感的强度或程度。
总体而言,结果表明当前的AI模型,无论是T2I还是MLLMs,都缺乏对情感的全部理解或能力,这突显了它们情感智能方面的重大差距。
[0]. MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis.