前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Meta一口气开源了4个模型和1个数据集和1个评估方法:包括对标GPT4o的多模态模型,多词预测模型,音乐生成模型,音频水印等

Meta一口气开源了4个模型和1个数据集和1个评估方法:包括对标GPT4o的多模态模型,多词预测模型,音乐生成模型,音频水印等

作者头像
deephub
发布2024-07-01 14:43:07
1030
发布2024-07-01 14:43:07
举报
文章被收录于专栏:DeepHub IMBA

Meta Chameleon

https://arxiv.org/abs/2405.09818

Chameleon模型是一种早期融合的基于令牌的混合模态模型家族,能够以任意顺序理解和生成图像与文本。该模型由研究团队提出,包含了从模型初始训练到对齐和架构参数设置的稳定方法,特别适用于早期融合的混合模态环境。

Chameleon在一系列任务中表现出色,包括视觉问答、图像描述、文本生成、图像生成以及长篇混合模态生成。研究团队的评估显示,Chameleon在图像描述任务中达到了最先进的水平,在纯文本任务中超过了Llama-2,并且与Mixtral 8x7B和Gemini-Pro等模型相比也具有很强的竞争力。此外Chameleon还能执行复杂的图像生成任务,所有这些功能都集成在一个模型中。

在新的长篇混合模态生成评估中,无论提示或输出包含图像和文本的混合序列,Chameleon的表现都匹配或超越了更大规模的模型如Gemini Pro和GPT-4V。根据人类评估,Chameleon在统一建模多模态文档方面取得了重要进展。这一突破展示了Chameleon在图像与文本混合处理上的广泛和通用能力。

Multi-Token Prediction

这篇论文我们以前已经介绍过了

论文推荐:用多词元预测法提高模型效率与速度

大型语言模型如GPT和Llama通常通过下一个词的预测损失进行训练。然而,研究团队提出,同时预测多个未来词可以显著提高样本效率。具体来说,在训练语料库的每个位置,模型使用n个独立的输出头来预测接下来的n个词,这些输出头基于一个共享的模型主干进行操作。

将多词预测作为辅助训练任务,研究团队发现,无论是代码模型还是自然语言模型,都能在不增加训练时间的情况下,显著提升下游任务的性能。特别是在生成性基准测试如编码任务中,模型表现尤为出色,持续超越强基线模型几个百分点。13B参数模型在HumanEval上多解决了12%的问题,在MBPP上多解决了17%的问题,明显优于传统的下一个词预测模型。

在小型算法任务的实验中,研究团队发现,多词预测有利于归纳头和算法推理能力的发展。额外的一个好处是,使用4词预测训练的模型在推理时速度可提升至3倍,即使在大批量情况下也是如此。这一突破展示了多词预测在提升模型效率和性能上的广泛应用前景。

JASCO

https://arxiv.org/abs/2406.10970

JASCO模型是一个创新的时间控制文本到音乐生成模型,结合了符号和基于音频的条件。由研究团队提出,JASCO能够在全球文本描述以及细粒度局部控制的条件下生成高质量的音乐样本。该模型基于Flow Matching建模范式,结合了一种新颖的条件方法,使得音乐生成既可以局部控制(例如和弦),也可以完全控制(文本描述)。

具体而言,研究团队在模型中应用了信息瓶颈层结合时间模糊,以提取与特定控制相关的信息。这一设计使得在同一个模型中能够结合符号和基于音频的条件,从而实现更加灵活和精确的音乐生成。

研究团队对JASCO进行了广泛的实验,测试了各种符号控制信号(如和弦、旋律)和音频表示(如分离的鼓轨道、全混音)。通过客观指标和人类研究,对生成质量和条件符合度进行了评估。结果显示,JASCO在生成质量方面与基准模型相当,同时在生成音乐的控制性和多样性方面表现优异,显著优于评估的基准模型。这一突破展示了JASCO在文本到音乐生成领域的广泛应用潜力。

AudioSeal

https://arxiv.org/abs/2401.17264

在语音生成模型迅速发展的今天,确保音频的真实性以防止语音克隆风险变得至关重要。研究团队提出了AudioSeal,这是首个为本地化检测AI生成语音而设计的音频水印技术。AudioSeal采用生成器/检测器架构,结合本地化损失进行联合训练,能够实现样本级别的本地化水印检测。同时,它引入了一种新颖的感知损失机制,受听觉掩蔽启发,使得水印在不可察觉性方面表现优异。

在实际音频处理的鲁棒性和不可察觉性方面,AudioSeal达到了最先进的水平,基于自动化和人类评估指标。此外,AudioSeal设计了一种快速的单次通过检测器,检测速度显著超越现有模型,快了多达两个数量级,非常适合大规模和实时应用。这一突破展示了AudioSeal在音频真实性保障和语音生成领域的广泛应用潜力。

PRISM

https://arxiv.org/abs/2404.16019

在大语言模型(LLMs)对齐过程中,人类反馈起着至关重要的作用。然而,对于如何收集反馈、在哪些领域收集、由谁来收集以及收集反馈的最终目标等问题,仍然存在许多未解之谜。为了解决这些问题,研究团队推出了PRISM,一个新颖的数据集,包含了来自75个国家的1500名多样化参与者的社会人口统计信息和陈述的偏好,并将其与他们在8011次与21个LLM的实时对话中的上下文偏好和细化反馈进行了关联。

PRISM的主要贡献包括:(i) 在人类反馈数据中实现广泛的地理和人口参与;(ii) 提供两个具有代表性的普查样本(英国和美国),以便更好地理解集体福祉;(iii) 提供个性化反馈,每个评分都与详细的参与者档案相关联,允许对个性化和样本特征进行深入探索。研究团队特别注重收集围绕价值观和有争议话题的主观和多文化视角的对话,这些领域预期存在最多的人际和跨文化分歧。

通过对话多样性、偏好多样性结果的三个案例研究,研究团队展示了PRISM的实用性,证明了设定对齐规范的人群的重要性。除了提供丰富的社区资源外,研究团队还呼吁在AI开发中实现更广泛的参与,并倡导采用更具包容性的技术设计方法。

DIG In

https://arxiv.org/abs/2308.06198

随着近期文本到图像生成系统取得前所未有的写实效果,并越来越多地作为即插即用的内容创作解决方案使用,理解这些系统的潜在偏见变得至关重要。研究团队引入了三个指标,用于评估这些系统在生成来自世界各地的对象时的写实性、多样性和提示生成一致性。

这些指标通过自动和高效地基准测试地理差异,补充了对这些系统更广泛影响的定性分析,这是构建负责任的视觉内容创作系统的重要一步。研究团队使用这些指标分析了最先进的视觉内容创作系统中的潜在地理偏见,发现以下几点:

  1. 在生成非洲和西亚的对象时,模型的写实性和多样性低于生成欧洲对象时的表现。
  2. 使用地理信息进行提示会影响提示生成的一致性和生成图像的多样性。
  3. 模型在某些对象的区域级别差异比其他对象更明显。

或许最引人注目的是,这些指标表明,图像生成质量的进步是以牺牲现实世界地理表示的准确性为代价的。研究团队的全面评估构成了确保每个人都能获得积极的视觉内容创作体验的重要一步。

官方博客

https://ai.meta.com/blog/meta-fair-research-new-releases/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Meta Chameleon
  • Multi-Token Prediction
  • JASCO
  • AudioSeal
  • PRISM
  • DIG In
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档