前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >迈向丰富媒体体验的电视机器人伴侣

迈向丰富媒体体验的电视机器人伴侣

作者头像
用户1324186
发布2022-04-11 19:13:46
3240
发布2022-04-11 19:13:46
举报
文章被收录于专栏:媒矿工厂媒矿工厂

来源:IBC 2021 主讲人:Yuta Hagio (NHK, Japan) 内容整理:王炅昊 讲者设计了一个机器人电视伴侣,它能够识别电视内容以及人类观众信息,并根据信息与观众们进行多种形式的互动,增加人们对电视内容和社交的双重体验感。

目录

  • 背景
    • 电视的角色
    • 和社交机器人一起看电视
  • 硬件设置
    • 姿势
    • 发起谈话
    • 提问&对话
  • 技术
    • 电视节目关键词提取
    • 话语生成
    • 对话
  • 实验

背景

电视的角色

讲者认为,电视的角色不仅在于提供观众以必要的信息/娱乐,同时还给了观众们一个互相交流和分享情感的机会。随后,讲者用联合国调查的数据说明,近年来看电视时观众身边有同伴的机会正在逐渐减少。自此,作者提出他们机器人电视伴侣的构想。

和社交机器人一起看电视

讲者团队设计了一个社交机器人,其构想如下图所示:

可以看出,该机器人根据电视内容提供的信息对其做出不同的反应,包括说话、动作等互动方式,增加看电视人之间的互动,提供一个轻松的看电视环境,并提高了人们对于电视内容的关注度,增强了人们对电视内容和社交的双重体验感。

随后,讲者展示了该系统的一个demo,可以看到该机器人会对电视内容进行针对性的提问,并做出一些动作。

硬件设置

系统的硬件设置如图所示。

由图可见,其总体包含3个主要部分。首先是机器人本体,他们使用了由Vstone公司生产的CommU机器人;其次是一个相机-麦克风阵列,它由4个相机和8个麦克风组成,用于采集观众、电视两个主要组分的视频和音频信息;最后还有一个LCD显示器,它可以显示该系统对语音信号识别的结果,给观众提供辅助信息。

随后,作者介绍了该机器人中实现的3个不同功能模块,分别是姿势、语音识别、提问&对话。

姿势

类似于人类,该机器人可以对电视内容做出反应以及和人类观众进行交谈。在看电视过程中,它可以对不同的电视内容做出相应的反应姿势。而在与人类交谈的同时,机器人将会做出十个预设动作之一(包括玩得开心、激动、尴尬、无聊等)表达与人类交谈时合适的情绪。值得一提的是,目前的预设动作的出现完全随机。

发起谈话

机器人的另一个功能是用谈话分享感受。如图所示:

根据电视中草莓三明治的视频内容,机器人发起了“草莓三明治看上去很好吃!”“我想吃一个大草莓”等对话内容,给本来了无生趣的看电视过程增加了一些趣味,给了人类观众交谈的话题和动力。

提问&对话

该机器人还有一个重要功能是提问&对话。机器人会首先通过相机阵列检测人类观众所在位置,随后转向人类观众的方向,针对电视内容提出一些与内容相关的问题。基于这些问题,它还会与人类观众进行进一步交流。

技术

电视节目关键词提取

讲者首先提到,该方法仅在日本电视节目上试用,但同时也可以被应用到不同的语言中。机器人首先提取音频、视频以及字幕中的关键词。字幕方面,他们将在一个有大约160000词的字典中查找这些关键词。这个字典是由过去十年的电视节目中出现过所有词组建的。

音视频方面的关键词提取如下图所示:

讲者使用了Fast-RCNN进行目标检测,将图像中主要的物体的包围框以及类别检测出来。除此之外,音频也被语音识别算法识别成为文本。以上两者同时提供了关键词信息。这些关键词信息随后被用于在字典中进行相应查找。

与此同时,为了解决目标检测出现不重要的信息(如上图中bucket,其实并不应该作为关键词),作者们对目标检测得到的显著性图(saliency map)进行了阈值设定,将显著性低的物体检测结果移除。

话语生成

为了从关键词生成话语,讲者们使用了神经网络word2vec将关键词转化为一个200维的向量。与此同时,作者还建立了一个情感表达字典,其中包含了“想去”“想吃”“想骑”等不同的情感表达,并且都被同样的神经网络变换到了同一个向量空间。算法可以根据输入的关键词与空间中不同情感表达的余弦距离,判断不同的情感表达中最合适的是哪一种,如下图所示。

随后,根据情感表达以及关键词,算法将会在过去7年的电视节目字幕所构建的模板句式中随机选取一个,并且组成最终的句子,如图所示:

对话

对话过程中,具体交谈的人类对象是随机选择的。该系统同时使用了一个对话引擎对人类用户的话进行回应,如图所示。

实验

作者的实验针对了16对受众(共32人)与机器人观看电视4小时,并用问卷的形式调查了他们的主观评价。该问卷主要提出了4个指标,结果如图所示:

最后附上演讲视频:

http://mpvideo.qpic.cn/0bc3jqaamaaa7aapzrbsffrfatgdazgaabqa.f10002.mp4?dis_k=59a79b273c2f33b281267ba36c7979d9&dis_t=1649675587&vid=wxv_2313844473543622657&format_id=10002&support_redirect=0&mmversion=false

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-03-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 背景
    • 电视的角色
      • 和社交机器人一起看电视
      • 硬件设置
        • 姿势
          • 发起谈话
            • 提问&对话
            • 技术
              • 电视节目关键词提取
                • 话语生成
                  • 对话
                  • 实验
                  相关产品与服务
                  图像识别
                  腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档