前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >真实 VS 合成,我们需要的真实数据微乎其微?| 一周最火AI论文

真实 VS 合成,我们需要的真实数据微乎其微?| 一周最火AI论文

作者头像
大数据文摘
发布2019-07-23 18:00:20
1.5K0
发布2019-07-23 18:00:20
举报
文章被收录于专栏:大数据文摘
大数据文摘专栏作品

作者:Christopher Dossman

编译:Jiaxu、云舟

呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!

AI ScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。

每周更新,做AI科研,每周从这一篇开始就够啦!

本周关键词:神经网络理解、情感识别、三维姿态估计

本周热门学术研究

大规模广播谈话语料库发布

一组研究人员在2018年10月至2019年3月期间发布了大量从美国广播中采集的语音识别抄本。这些数据包括28万多小时的广播中近28亿字的转录语音,以及有关语音的元数据。

本研究使用一个转录系统检查新的音频文件并将其转录后写回到数据中。元数据包括诸如性别、地理位置、说话者转换标示以及广播节目信息等。数据采用JSONL格式,每行一个JSON文档。每一行代表一个音频片段,其中可能包含多个由字典对象和键表示的语句。

尽管存在着听写错误,但这一语料库在自然语言处理、社会科学、会话分析等领域仍然具有很好的应用前景。未来可能会发布新版本的RadioTalk,附带额外的转录音频和当前语料库的改进转录。

代码:

https://github.com/social-machines/RadioTalk

原文:

https://arxiv.org/abs/1907.07073

跨语言语音情感识别系统

研究人员提出了一种基于生成对抗网络的多语言SER模型。该算法具有学习语言不变表示的能力。该模型对源语言数据和目标语言数据使用特征编码网络,并使用鉴别器模型强制源编码模型学习类似于目标语言的表示;以及用于情绪识别的分类器。

该模型在四种不同的语言情感数据集上进行了评估,包括乌尔都语数据集,该数据集还包含了其他语言,这些语言的标签数据很难找到,而且主流社会对这些语言的研究也不多。乌尔都语是巴基斯坦的官方民族语言和印度宪法承认的22种官方语言之一。

结果表明,该模型可以显著提高所有数据集(包括非主流的乌尔都语数据)的基线跨语言SER性能,而不需要任何标签。

SER从语言中识别出不同类型的人类情感,对于实现许多现代现实应用的自动化非常有帮助。这一新模式对于为下一代跨文化应用构建更强大的模式至关重要。

原文:

https://arxiv.org/abs/1907.06083

基于单个RGB相机的关节三维姿态估计与动作识别

最近,研究人员提出了一种基于深度学习的多任务模型,用于基于RGB视频序列的关节三维人体姿态估计和动作识别。这种方法分为两个阶段。首先,研究人员设计并训练了一个实时二维姿态探测器来确定人体重要关键点的精确像素位置,并设计了一个双流神经网络来将检测到的二维关键点映射成三维姿态。

其次,他们利用有效的神经结构搜索(ENAS)模型来寻找一个最佳的网络结构,该网络结构用于通过基于图像的中间表示来模拟估计三维姿态的时空演化,并执行动作识别。对于3.6M、MSR Action3D和SBU Kinect交互数据集进行的评估验证了该方法的有效性。

该方法表明,通过简单的网络设计和二维关键点的训练,可以有效地估计三维人体姿态。此外,它需要一个低计算预算的训练和推理。

然而,框架自然依赖于二维探测器的输出质量,并且无法从失败的二维输出中恢复三维姿态。为了应对这一挑战,研究人员目前正在扩大研究范围,在模型中添加额外的视觉证据以提高性能。初步结果令人鼓舞。

原文:

https://arxiv.org/abs/1907.06968

真实数据VS合成数据,我们需要的真实数据微乎其微?

本文深入探讨了用合成数据代替实际数据的效果。研究人员分析了真实数据不足的影响。他们混用真实数据和合成数据,并通过模拟工具创建大量新的合成数据。在分析每个数据集域的相似性后,他们针对深度神经网络的训练过程提出了见解。

本文中,研究人员分析了使用大量合成数据和少量真实数据混合构成的数据集的训练效果。发现使用有限的真实数据并通过微调合成训练模型比混合训练的效果更佳。

该研究提供了关于动态使用真实数据和合成数据的见解,未来有望能够使用较少量真实数据训练神经网络,从而使得未来的研究更加经济有效。

原文:

https://arxiv.org/abs/1907.07061

当我们谈论理解神经网络时,我们在谈论什么?

你能说出神经网络中的操作是怎样起作用的吗?除了指示网络的权重和基本操作之外,我们能够说出它如何将图像分类为猫或狗,或者它如何在多个动作中做出选择吗?

这项研究工作讨论了应用于神经网络和其他人工系统的复杂性问题。即使对系统有完整的观察,也有对所有相关功能的总体描述,研究人员也很难产生有意义的“理解”。以此为背景,他们提出了疑问,当我们谈论理解神经计算时,我们在谈论什么呢?他们认为,大脑的生成过程与神经网络不同,因为它从一个世界中获取信息,并将其作为一种分布式的权重变化模式存储,这种模式是非常难以整合的。

神经网络科学家试图通过研究输出对系统变化的敏感性来了解他们的网络。他们研究了哪种刺激可以欺骗系统,并且可视化了网络中的元素。通过移除网络中的单元,他们可以分析系统在受干扰情况下的反应。但是,尽管是熟悉这些方法的人也不能断定他们可以很好地理解像AlexNet,AlphaGo或GPT2这样的模型。

在当前的神经网络方法下,人们无法对他们构建的系统所做的计算进行有意义地理解。这些方法远远无法为从业者提升网络效率而提供足够的理解。本文的结论是,神经科学应该专注于理解当下的发展。同时,应该开发相应的方法来了解大脑。我们不应该问大脑是如何工作的,而应该问它是如何学习工作方法的。

原文:

https://arxiv.org/abs/1907.06374v1

其他爆款论文

Bach Doodle:第一款基于人工智能的Google 涂鸦:

https://arxiv.org/abs/1907.06637

识别查询检索的交互模型:

https://arxiv.org/abs/1907.07564

第四次东方语言识别挑战的基线结果:

https://arxiv.org/abs/1907.07626

使用HODGEPODGE和大型弱标记、合成及未标记数据检测声音事件:

https://arxiv.org/abs/1907.07398

神经网络在频谱感知方面的差异:

https://arxiv.org/abs/1907.07321

AI新闻

谷歌发布具有附加功能和潜在应用的新USE多语言模块:

http://ai.googleblog.com/2019/07/multilingual-universal-sentence-encoder.html

微软致力于实现3D捕捉并展示了如何将其应用于微软的服务和技术中:

https://www.zdnet.com/article/microsofts-latest-holoportation-demo-shows-off-its-mixed-reality-ai-translation-technologies/

Google AI改善语言障碍人士的沟通:

https://ai.googleblog.com/2019/07/parrotron-new-research-into-improving.html

人工智能在2019年现状:机器学习,自然语言处理,游戏和知识图等方面的突破:

https://www.zdnet.com/article/the-state-of-ai-in-2019-breakthroughs-in-machine-learning-natural-language-processing-games-and-knowledge-graphs/

IBM推出了针对企业策划的开放式机器学习数据集中心:

https://www.zdnet.com/article/ibm-launches-open-ml-dataset-hub-curated-for-the-enterprise/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档