生成式AI模型虽能创作绘画、音乐和文本,但多数模型难以跨模态迁移能力。研究显示扩散模型无需额外训练即可完成图像分类,且比传统模型更依赖形状而非纹理,呈现更接近人类的分类方式。仅通过图像预测字幕也能提升计算机视觉学习效果,该方法在视觉与语言任务上超越现有技术,展现更强扩展性。
多模态模型有望催生更实用的数字和机器人助手。通过截图及键鼠动作模拟人类与数字世界的交互,并利用包含字幕的视频生成技术,模型可预测真实机器人行动的视频计划。UniSim通用模拟器可生成对人类、机器人等交互主体行动的逼真响应,潜在应用覆盖电子游戏、影视制作到现实世界智能体训练。
大型模型开发需全程嵌入隐私保护。获得NeurIPS最佳论文奖的研究提出高效隐私保护训练评估技术,适用于实际场景。通过研究语言模型数据记忆机制保护敏感信息,并分析"学生-教师"模型在不同访问权限与攻击脆弱性下的训练局限。
针对大语言模型的"幻觉"问题,研究探索事实存储定位方法能否实现事实编辑。实验发现事实定位与位置编辑并不直接关联,揭示了大语言模型信息存储控制的复杂性。Tracr工具通过将人类可读程序转换为Transformer模型,为可解释性方法提供开源评估基准。
为开发通用AI系统,研究突破大模型能力边界。针对语言模型缺乏探索性推理的问题,提出"思维树"推理框架,通过树状结构替代传统链式思维,显著提升模型解决"24点游戏"等复杂任务的准确率。
特征复用技术使用单一表示空间处理数十亿独特值,使大嵌入模型可扩展至亿级用户产品。DoReMi技术通过AI自动优化训练数据组合,加速语言模型训练并提升未知任务性能。
支持拉丁裔AI、酷儿AI和女性机器学习等研讨会,促进研究合作与社区多元化。NeurIPS创意展区展示视觉化AI项目,通过艺术家创作推动AI表征的多样性与可及性。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。