前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >我监督我自己!Google AI发布用于视频的BERT模型 | 一周AI最火学术

我监督我自己!Google AI发布用于视频的BERT模型 | 一周AI最火学术

作者头像
大数据文摘
发布2019-09-17 17:49:21
4870
发布2019-09-17 17:49:21
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘专栏作品

作者:Christopher Dossman

编译:周俊余、fuma、云舟

呜啦啦啦啦啦啦啦大家好,拖更的AI Scholar Weekly栏目又和大家见面啦!

AI Scholar Weekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。

每周更新,做AI科研,每周从这一篇开始就够啦!

本周关键词:自然语言对话数据集图像增广心理健康评估

本周最佳学术研究

谷歌发布全新自然语言对话数据集

为了训练出能够理解用户偏好的会话系统,我们首先需要的就是高质量的对话数据。为了帮助这些系统了解用户偏好,Google发布了两个数据集。第一个数据集CCPE包括超过500个电影偏好对话,表达了超过10,000个偏好,呈现了在对话中获得用户偏好的新方法。另一个,Taskmaster-1数据集则包括13,215个基于任务的对话框,并包括六个域。CCPE将在话语和对话特别兴趣小组的SIGDIAL 2019年会上发布,而Taskmaster-1将出现在2019年自然语言处理经验方法会议上。

针对自然语言理解中现有的挑战,本文提供了解决这些挑战的数据集。研究人员提出了一种获取自然对话偏好的新方法,以解决数据驱动对话系统研究和开发中缺乏高质量语料库的问题。

因为它们包含的是不受限制的、面向任务的对话和真实世界的实体,所以这些数据集与已有的数据集相比更自然、更丰富和更多样化。数据收集方法也确保了说话者的多样性和会话准确性。更重要的是,研究人员使用了一种简单的,面向API的注释技术,使注释者能够更容地易学习和应用。

这两个数据集能够有效地推进对话系统和会话推荐领域中的实验和分析。

CCPE:

https://ai.google/tools/datasets/coached-conversational-preference-elicitation

Taskmaster-1:

https://ai.google/research/pubs/pub48484

Google AI:用于视频的BERT模型

受BERT在语言建模方面取得成功的启发,Google推出了一种联合的视觉语言模型,用于学习高级特征而无需任何明确的监督。他们使用预训练的模型从视频中提取特征,并对这些特征应用分层矢量量化,可以生成一系列可视词汇。

本文介绍了一种学习高级视频表示的简单方法,可以捕获具有语义意义和时间意义的长程结构。研究人员利用BERT学习视觉和语言标记序列的双向联合分布。这些分布分别来自视频数据的矢量量化和现成的语音识别输出。他们利用人类语言进化出来的关键洞察力来描述高级物体和事件,从而提供“自我”监督的自然来源。

本文扩展了强大的BERT模型,将BERT模型用于学习视频,并扩展了联合视觉语言表示。评估结果表明,这种模型有可能实现高级语义表示,而且其优于YouCook II数据集上用于视频字幕的传统模型。模型中提出的VideoBERT对于包括动作分类,视频字幕在内的任务非常有用,可以直接应用于开放词汇分类。

原文:

https://arxiv.org/abs/1904.01766

心理健康状况评估机器人

研究人员开发了一种多语言机器人界面。机器人可以通过问题交互来评估老年人的心理健康状况。在这一过程中机器人使用适当的语言自动与用户交互,专家则可以提出问题并以文本形式接收用户答案。该系统在专家的指导下处理答案,专家也可以给出未来的治疗方向。

该系统的原型是在边缘计算的嵌入式设备上实现的,因此它能够过滤环境噪声并且可以放置在家中的任何地方。现在,专家可以通过基于Web的界面创建问题和答案。

虽然大多数新技术更受到的是年轻技术人员的欢迎,但技术当然可以也应该用来帮助老年人。例如,基于语音识别的进步已经被用来增加独居老人的独立性。

在移动应用上,精神卫生保健和诊断正在向移动解决方案迁移。

但是事实情况是,由于地理位置,财务状况,社会原因等因素,类似的平台在需要时始终无法提供护理或协助,本文中机器人+远程专家的模式也许是一个好的解决方案。

原文:

https://arxiv.org/abs/1909.02924

自主教学网络大战泛化问题

本文用自主教学的方法来解决梯度消失问题并提升深度网络的泛化能力。研究人员用驱动底层的辅助损失来模仿输出层的行为,形成了基于辅助损失的连接。如同残差网络的运作模式,该连接可以协助梯度流。此外,辅助损失作为正则化矩阵,还可以提升神经网络的泛化能力。

目前的很多研究都在试图解决深度神经网络泛化问题,传统方法的有效性随着训练数据的增加而被削弱,导致这些方法并未在商业化的语音识别系统中获得广泛应用。本文提出的自主教学网络有效解决了泛化问题,实现了标签平滑与置信惩罚。

原文:

https://arxiv.org/abs/1909.04157

图像增广的新方法:基于联合训练的深度强化训练框架

新的研究提出了对抗式策略梯度增广模型,该模型通过构建联合训练的深度强化学习框架,可以实现图像增广。其作用机制是将分割网络作为代理,通过使用策略梯度优化的弱监督,完成基于给定样本状态的糊化处理,实现分类网络的奖励信号最大化。因此,分割网络可以掩蔽不重要的图片特征。

该模型在对斯坦福MURA数据库的测试中展示了非常优秀的结果,在对髋部骨折的研究中,实现了对基线方法的效果提升,并将全球准确性提升了7.33个百分点。

虽然卷积神经网络已经解决了众多分类问题,但其在医疗行业的运用仍受限于样本大小与标签的不确定性,我们需要能够最大化信息获取并同时防止过拟合的新方法。本文提出的方法十分创新,它不需要手动分类就可以保证规模化与泛化。此外,它还可以和边界框检测、图片畸变校正和图像泛化等辅助方法结合使用,实现推断分类技术并运用于涵盖回归和分类的医疗图片研究。

原文:

https://arxiv.org/abs/1909.04108v1

其它爆款论文

第一个拥有3D手势和形状识别的大规模、多角度的手势数据库,可以从单张RGB图片无标记地捕捉手势和形状:

https://arxiv.org/abs/1909.04349

评估当前使用DHH说话者自动语音识别服务对听障人士的可用性:

https://arxiv.org/abs/1909.02853

一个可以理解人对人电话交流中心的实时系统:

https://arxiv.org/abs/1909.02851

两个完全标签化的大规模仇恨言论干扰数据集:

https://arxiv.org/abs/1909.04251

一张照片评估身体细节:

https://arxiv.org/abs/1909.00883v1

AI 新闻

2019年机器人初创公司启动大赛截止日期为2019年9月22日:

https://robohub.org/2019-robot-launch-startup-competition-is-open/

谷歌博士生奖研金与2019年获奖者集锦:

https://ai.googleblog.com/2019/09/announcement-of-2019-fellowship.html

麦当劳近期收购了AI语音初创公司Apprente,再次宣告挺进技术领域的决心:

https://news.yahoo.com/mcdonalds-bought-ai-speech-company-114521030.html?guccounter=1&guce_referrer=aHR0cHM6Ly9kdWNrZHVja2dvLmNvbS8&guce_referrer_sig=AQAAACvcPrTAAH43nvmZfkjxxvDhtvHUCaBeJc0jB700f5ZA4OtoPUSZ6us7BzhG22X51ldbFdmeJJCNEDd3qST9w3-vcESAaG1cohEKYYSuWlwCbHXoysyTX5iCcD_HfEm7ZQPPsFbxgv3JvdAgDHZthXxTaowQJsPVfZtnnnUzm4Xq

贝克休斯公司携手C3.ai公司成立合资企业,旨在为石油行业提供人工智能解决方案:

https://www.zdnet.com/article/baker-hughes-c3-ai-launch-reliability-application-via-joint-venture/

Explorium获1900万美元融资,用于发展自动化数据科学和机器学习领域:

https://www.zdnet.com/article/explorium-secures-19m-funding-to-automate-data-science-and-machine-learning-driven-insights/

日本电装和黑莓公司联合推出人机交互数字驾驶舱系统:

https://www.zdnet.com/article/denso-and-blackberry-launches-autonomous-vehicle-platform/

专栏作者介绍

Christopher Dossman是Wonder Technologies的首席数据科学家,在北京生活5年。他是深度学习系统部署方面的专家,在开发新的AI产品方面拥有丰富的经验。除了卓越的工程经验,他还教授了1000名学生了解深度学习基础。

LinkedIn:

https://www.linkedin.com/in/christopherdossman/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档