AI探索

新闻动态

NEWS

01

清华等提出强记忆力 E3D-LSTM 网络

1

清华大学、Google AI 和斯坦福大学李飞飞团队提出了一种具有强记忆力的 E3D-LSTM 网络,用 3D 卷积代替 2D 卷积作为 LSTM 网络的基础计算操作,并加入自注意力机制,使网络能同时兼顾长时和短时信息依赖以及局部时空特征抽取。这为视频预测、动作分类等相关问题提供了新思路,是一项非常具有启发性的工作。

现实生活中许多数据都同时具有时间特征和空间特征,例如人体的运动轨迹,连续帧的视频等,每个时间点都对应一组数据,而数据往往又具有一定的空间特征。因此要在这样的时间序列数据上开展分类,预测等工作,就必须在时间(temporal)和空间 (spatial) 上对其进行建模和特征抽取。

常用的时间建模工具是循环神经网络(RNN)相关模型(LSTM 等),由于其特有的门结构设计,对时间序列特征具有强大的抽取能力,因此被广泛应用于预测问题并取得了良好的成果,但是 RNN 并不能很好的学习到原始特征的高阶表示,这不利于对空间信息的提取。空间建模则当属卷积神经网络(CNN),其具有强大的空间特征抽取能力,其中3D-CNN又能将卷积核可控范围扩大到时域上,相对于 2D 卷积灵活性更高,能学习到更多的运动信息(motion 信息),相对于 RNN 则更有利于学习到信息的高级表示(层数越深,信息越高级),是目前动作识别领域的流行方法。当然 3D 卷积的时间特征抽取能力并不能和 RNN 媲美。

得益于 3D 卷积和 RNN 在各自领域的成功,如何进一步将二者结合起来使用也成为了研究热点,常见的简单方法是将二者串联堆叠或者并联结合(在图卷积网络出现之前,动作识别领域的最优方法就是将 CNN 和 RNN 并联),但测试发现这么做并不能带来太大的提升,这是因为二者的工作机制差距太大,简单的结合并不能很好的实现优势互补。本文提出用 3D 卷积代替原始 LSTM 中的门更新操作,使 LSTM 不仅能在时间层面,也能在空间层面上进行短期依赖的表象特征和运动特征的抽取,从而在更深的机制层面实现两种网络的结合。此外,在 LSTM 中引入自注意力(self-attention)机制,进一步强化了 LSTM 的长时记忆能力,使其对长距离信息作用具有更好的感知力。作者将这种网络称为Eidetic 3D LSTM(E3D-LSTM),Eidetic 意思是具有逼真记忆,强调网络的强记忆能力。(论文地址:https://openreview.net/pdf?id=B1lKS2AqtX)

图为三种不同的 3D 卷积和 LSTM 的结合方法

(时间:2019.08.26 来源:腾讯网)

02

机器人产业增速放缓

1

从数据上看,中国电子学会发布的《中国机器人产业发展报告(2019年)》显示,全球各类机器人市场增长率较之前并不乐观。2014年以来,全球工业机器人的市场规模以年均8.3%的速度持续增长,2019年的年增长率是2.9%,高于2018年的0.5%;全球服务机器人市场规模年均增速为21.9%,2019年的增长率为14.2%,低于2018年的增速;全球特种机器人产业规模年均增速达12.3%,2019年的数字是10%,也低于2018年的增速。

中国机器人产业联盟理事长、新松机器人自动化股份有限公司总裁曲道奎表示,从2009年开始,机器人始终保持高速发展。但去年全球机器人市场,包括增速最快也是全球最大的中国机器人市场也出现拐点,由过去的高速增长转为低速增长,甚至趋近于零增长。

曲道奎直言,服务机器人只是“叫好不叫座”,工业机器人等发展实际上都出现了不小的问题。他说,去年,从一些公司倒闭到老板跑路,最后机构撤资,可以说是“盛宴之后哀鸿遍野、一地鸡毛”。

对于当前形势,工业和信息化部副部长辛国斌分析,机器人产业增速下滑的原因是多方面的,包括国际贸易环境恶化、全球经济下行压力加大、汽车和电子等主要应用行业发展低迷等。不过他认为,从深层次原因来看,机器人产业已经进入深度调整阶段,提质增效成为产业健康发展的迫切需求。

工业和信息化部部长苗圩也在论坛上表示,机器人产业自身在发展过程中面临着许多问题和挑战,比如关键核心技术需要进一步提升,应用场景和领域需要进一步拓展,风险防控和法律法规体系需要进一步完善等。

那么,重大挑战之下还有哪些发展机遇?曲道奎的答案是,机遇与挑战并存,变革与颠覆成为常态。“大家再也不会认为机器人发展快就是‘春天’,稍微发展滞后就是‘冬天’,未来发展的常态,将是波浪式的。”

曲道奎说,机器人技术正处于一个大的变革时期,这种变革为人们提供了重大的发展机遇,包括机器人技术自身的突破、机器人产品的快速迭代、机器人技术的跨界融合,因为这种巨大变化,机器人正在真正由机器向机器人进化和发展。

“未来赢在变革,不管是技术变革还是模式变革,这是未来的基本规律。更关键的是,不管是作为产业也好,还是作为企业也好,我们要创造未来,守是守不来的,复制、跟踪也不可能产生未来。”曲道奎相信,目前只是机器人发展的一个小小的转折点,机器人真正的“春天”正在到来。

谈及促进机器人产业健康发展的问题,中国科协党组书记、书记处第一书记、中科院院士怀进鹏提了四点意见:一要夯实基础,丰富源头供给;二要共筑生态,培育创新土壤;三要注重伦理,强化科技治理前沿布局;四要开放合作,深化交流共享机制,为世界经济增长提供强劲动力和广阔的空间。

苗圩认为,随着全球产业转型升级步伐的加快、消费升级的加速,特别是机器人技术创新和应用领域的扩展、供给能力的提升和需求规模的扩大,机器人产业将继续保持快速发展的势头。

《中国机器人产业发展报告(2019年)》的行业趋势分析预测,2019年,随着工业机器人进一步普及,销售额将有望接近160亿美元,到2021年市场规模将达到约180亿美元,而国内工业机器人的市场规模预计会在2021年突破70亿美元;2019年全球服务机器人市场规模预计将达到94.6亿美元,2021年增长突破130亿美元,其中我国服务机器人市场规模有望在2021年接近40亿美元;到2021年,预计全球特种机器人产业规模将超过50亿美元,国内市场有望突破11亿美元。

图为人机对弈

(时间:2019.08.26 来源:中国青年报)

03

用大脑控制电脑就能 “意念打字”?

1

世界机器人大会脑控打字记录挑战赛上,选手们正在进行用大脑控制电脑,用“意念打字”展开比拼。最终魏斯文以每分钟691.55比特的信息传输率获得冠军,这也创造了一项世界纪录。魏斯文是本次大赛技能赛天津赛区选拔出来的选手,她在澳门大学-香港大学联合一队开发的算法下,通过脑电波实现了691.55 比特/分钟的理想信息传输速率。该信息传输速率相当于在100%准确率下以0.413秒输出一个英文字母,已经高度接近我们日常手机文本输入。

现场专家介绍,脑-机接口是指通过对神经系统电活动和特征信号的收集、识别及转化,使人脑发出的指令能够直接传递给指定的机器终端,从而使人对机器人的控制和操作更为高效便捷。该项技术在人与机器人的交流沟通领域有重大创新意义和使用价值,可广泛应用于医疗康复、国防救援等诸多领域。

通俗来说,就是大脑的脑电波越过手、脚,直接控制终端、机器设备。说起来简单,实际并不容易。去年大赛的冠军杨晓伟告诉记者,比赛过程高度考验选手的专注力和心理素质,“一旦注意力分散,或者心情出现紧张波动,立即会在脑电波上得到反映,脑电波会出现紊乱,打字的错误率就会大幅上升。”今年大赛的冠军魏斯文说,另外识别脑电波的技术算法也十分重要,要做到快速、准确识别选手的意念。

图为冠军选手魏斯文

(时间:2019.08.24 来源:北京日报)

04

英伟达训练全球最大语音模型

1

英伟达今日宣布,已经成功训练出世界上最大的语言模型。该模型是这家GPU制造商针对一系列会话式AI研发的最新版本。

为了实现这一突破,英伟达利用模型并行性,将神经网络分解成各个部分,并采用了由于过大而无法容纳在单个GPU内存中的模型创建技术。该模型使用了83亿个参数,比BERT大24倍,比OpenAI的GPT-2大5倍。除此之外,英伟达还宣布了BERT(Bidirectional Encoder Representations,双向编码器表示)的最快训练和推理次数。BERT是一种流行的模型,最初于2018年由谷歌开源,是当时最先进的模型。

英伟达能够利用优化的PyTorch软件和含超过1000个GPU的超级计算机DGX-SuperPOD训练BERT-Large。这些GPU训练BERT的耗时小于53分钟。

英伟达还表示其已实现了最快的BERT推理时间。基于Tesla T4 GPU和针对数据中心推理优化的TensorRT 5.1运行时,推理时间已降至2.2毫秒。Catarazano表示,当CPU运行时,BERT推理最多需要40毫秒,而目前,大量会话式AI的应用使这一过程缩短到10毫秒。不仅如此,GPU也为微软旗下的必应创造了收益,英伟达硬件的应用使必应的延迟时间缩短了一半。

当前推出的任何一项新技术都旨在强调该公司GPU在语言理解性能方面的提升。为了帮助AI从业者和研究人员探索并创建大型语言模型、加速GPU的推广或推理,上述每项新技术的代码都已开源。

除了单词正确率的急速上升之外,减少延迟一直是各大流行AI助手被采用的主要因素,如亚马逊的Alexa、谷歌的Google Assistat和百度旗下的度秘(Duer)等。少延迟甚至无延迟的信息交换使机器与人的对话像人与人之间的对话那样,即刻就能得到回应。

与今年微软Cortana、亚马逊Alexa和Google Assistant推出的多轮对话功能相同,与AI助手进行实时沟通可以让互动感觉更自然、无障碍。

会话时AI系统最新的技术发展,大致上围绕着谷歌2017年Transformer语言模型和2018年BERT模型的更新。自此,以BERT为基础的三款模型:微软的MT-DNN、谷歌的XLNet和百度的ERNIE,均超越了BERT模型。今年7月份,Facebook推出了一款基于BERT的模型——RoBERTa。目前,RoBERTa在GLUE基准测试排行榜上位列第一,在9种语言任务中排名第4。这些模型在GLUE任务数据集上的排名均优于人类标准。

(时间:2019.08.14 来源:猎云网)

05

英国NHS斥资设立AI实验室

1

近日,英国国家医疗服务体系(NHS)宣布即将设立一间国家级人工智能实验室,旨在提高患者健康水平和生活水平。NHS学者、专家和科技公司都将汇聚在这一实验室中,以加强对癌症检测、痴呆症治疗和个性化诊疗等领域的研究。该实验室是价值2.5亿英镑NHSX的一部分。NHSX是一个全新的组织,负责监管英国医疗卫生系统的数字化发展状况,它得到了相关机构Accelerated Acces s Collaborative的支持。

该实验室可以通过加速计算测试结果来帮助提升癌症筛查的效率; 可以使用预测模型来估算病床、药物、设备或手术的需求量; 可以确定哪些患者是能够在社区接受治疗的; 识别可能患上心脏病和痴呆症等疾病的患者; 提升NHS员工队伍技术水平,并推动实现行政管理任务的自动化。

卫生部长Matt Hancock指出,科技可以提升患者就医体验,方法就是让NHS能够提供真正具有预测性、预防性和个性化的医疗护理服务。

(时间:2019.08.14 来源:健康界)

06

智能车舱,看一眼车门就能自动解锁!

1

2019世界人工智能大会即将在上海世博中心拉开帷幕,商汤科技的“智能车舱”产品也将在大会上进行展示。近日,记者来到商汤科技,事先在实车驾乘中体验了一回“智能车舱”。

在体验之前,商汤科技的工作人员用一个App完成了记者的云端车主信息注册。随后,“智能车舱”便开启了它的第一项功能——刷脸开门,只需靠近车门,看一眼车门一侧的摄像头,车载系统将车辆侧方摄像头抓拍的人脸与云端注册过的车主信息进行比对,确认车主身份后,只听“嗒”的一声响,车门便完成了自动解锁。

商汤科技相关工作人员介绍道,在人脸比对的过程中,系统还将同时启动活体检测,确保解锁的安全性及准确性。这一功能解决了车主携带钥匙的不便,极大地解放了双手。

“智能车舱”还可通过车载系统、云平台、手机客户端之间的信息互通,以实现车辆权限管理。该工作人员举例说道,像在共享租车应用场景中,身份识别的技术难度比私家车高很多,系统需要将用户人脸与会员数据库中的海量人脸进行比对,比对成功后交出车辆管理权,同时,这一功能还可记录、同步车主的个性化需求,辅助进行车内空调、音响、座椅等的智能设置。

随后,记者进入驾驶舱启动车辆,颇具“科幻感”的操作也由此开启。手指向右转一圈,音箱音量变大,向左转一圈,音量降低;手掌握拳,摇滚音乐突然静止,如果听到了自己心仪的歌曲,伸出大拇指便实现了自动收藏功能。据悉,这是借助普通的IR(红外)摄像头和商汤科技领先的手势识别算法,实现用手势调节音量、切换歌曲、控制车窗等“隔空操作”,就像是在车辆内部安装了一款可以看见主人指令的Siri,不用开口,就能够通过简单手势完成所有操作。

商汤科技工程与运营执行总监许亮表示,相比Siri对语音的识别,手势也有它自己的独特优势。例如语音还会涉及到方言的应用,会存在一定差异,而手势一旦定义,就很少会出现识别问题。目前,商汤科技已开发超过20种标准动静态手势的识别, 并可支持订制。

值得注意的是,开车时犯困是导致交通事故的一大原因。而“智能车舱”赋予的疲劳检测功能,还将有效管控这种安全隐患,保障安全出行。记者在驾驶过程中发现,多打了一个哈欠、眼神涣散发呆,或者闭目养神这些驾驶员的小动作都会被“智能车舱”迅速捕捉。许亮介绍道,车内红外单目摄像头捕捉到驾驶员的人脸图像后,人工智能系统会对闭眼状态、打哈欠频率等进行综合判别,及时发出疲劳报警信号,提醒驾驶员打起精神。

此外,分心检测也是为疲劳驾驶监测设置的功能。据悉,人工智能系统通过对驾驶员视线方向的追踪,能确认其注意力是否在正前方道路上。一旦监测到驾驶员视野偏离、打电话等分心状态,也会给出提示信号。

(时间:2019.08.25 来源:周到上海)

07

韩国科技院为VR研究隐形键盘

1

韩国科学技术院的研究人员最近开发出一种基于人工智能的隐形键盘界面。据介绍,它能够按照你开始键入文本的双手摆放位置来自动定位。

行业每年都会为开发更优秀的外设而投入数十亿美元的研发和市场研究资金。但自鼠标和键盘问世以来,情况并没有发生太大的改变。触控屏和虚拟键盘是移动用户的主要输入方式,但它们没有完全取法全尺寸的QWERTY键盘。

社区迄今为止已经为我们带来了各种解决方案,包括基于语音的控制和基于手势的控制,但它们目前的精度和速度都不是十分理想。所以,韩国科学技术院的Ue-Hwan Kim, Sahng-Min Yoo和Jong-Hwan Kim决定重新构思输入概念。他们开发了一种完全想象式的键盘界面。

他们的论文写道:“首先,我们提出的I-Keyboard属于隐形界面……为了进一步提高可用性,I-Keyboard没有预定义的按键布局,形状或大小。用户可以以任何角度和任何位置进行文本键入,无需担心键盘的位置和形状。

研究人员提出的I-Keyboard无需校准或调整即可工作。你可以在触控屏的任何位置键入内容,就像物理键盘一样。它采用了深度学习来辨别你要键入的内容。论文介绍道:I-Keyboard包含基于深度学习的解码算法,不需要校准步骤。所提出的深度神经解码器(DND)能够有效地应对手部漂移和触摸变化,并且可以动态地将触摸点转换为单词。

软键盘最大的问题之一是,随着时间的推移,如果不低头查看,你的手指就会偏离正确的键位,因为如果没有物理限制来提示我们,我们就会开始偏离原来的位置。对于韩国研究团队所构思的算法,它不是精确定位手指位置,而是计算推断你的行动,并不断调整隐形键盘以进行适配。韩国科学技术院的研究人员还有很多工作要做。尽管系统目前能够实现95.8的精确度,但每分钟字数只有大约45。

值得一提的是,研究人员在论文中指出:“当IKeyboard与先进的触控检测方法集成时,一系列的移动系统将能从中受益。例如,I-Keyboard可以为VR系统提供有效的文本输入方法。由于VR系统需要免眼睛查看的文本输入方法,因此I-Keyboard可以是一个诱人的替代方案。”

(时间:2019.08.12 来源:印维VR)

08

医疗机构专为脑瘫儿童开发VR游戏

1

8月13日消息,一年多前,内布拉斯加大学医学中心Munroe-Meyer研究所助理教授Jamie Gehringer,就着手开发一款面VR虚拟游戏,而如今这款VR游戏正式应用到了VR虚拟治疗和训练中。据青亭网了解,这款应用是专为有发育障碍的儿童开发的,这里特别指脑瘫患者。其目的就是通过更有吸引力的方式来进行物理训练,从而帮助这些患者保持运动治疗。

这款VR游戏的不同之处就在于,它需要双手才做才能完成,Gehringer讲到。这也是其被要求的动作之一,就是必须邀请游戏内容中包含有助于患者恢复的动作。

据悉,为了增强脑瘫患者在游戏过程中保持较好的训练效果,治疗师需要开发出手臂双手强化训练,或HABIT。不过,传统的训练方式可能会让孩子感觉变得乏味,因此治疗师们不得不寻找新的治疗手段。目前,的一个VR游戏场景是通过VR攀岩。

Daniel Vance是一位14岁的技术爱好者,曾经是Gehringer教授的病人,因为喜欢钻研技术并自愿加入这项测试中来。据悉,Daniel已经为这款VR攀岩游戏提供了很多帮助。

Jamie Gehringer近期还在尝试通过VR模拟生活中的事情,目的就是让那些有发育障碍的儿童在日常生活中可能遇到的障碍场景提前进行训练。其中一个场景是模拟乘坐飞机,另一个场景是模拟不同的发型出门。

奥马哈内布拉斯加大学还有一个团队也开发了一款VR游戏,用于中风康复,特别是上臂受伤的患者,同时研究院还是体育3D打印的手套设备结合,帮助患者进行手臂伸展和打开手掌等操作,逐渐恢复抓握等等。

内布拉斯加大学奥马哈分校生物力学助理教授Brian Knarr表示:技术本身的进步和Oculus Rift等这种价格相对低廉的头显推出也推动了VR医疗行业的发展。虽然VR游戏治疗可能无法代替传统治疗方式,但多名科学家已经证明VR虚拟治疗的效果的确不容忽视。

据悉,Jamie Gehringer为了推动模拟理发、乘坐飞机的场景,还使用了动作捕捉技术。他在模特身上放置40多个小球追踪设备,从而可以创建更晚上的动作。甚至在乘坐飞机的场景种,他还希望模拟出一套从下车到办理登机牌的整个场景。

(时间:2019.08.13 来源:青亭网)

09

虚拟办公应用Immersed

1

8月14日消息,跨平台虚拟办公应用Immersed正式亮相,这款应用的特点是同时支持VR和PC端,可以进入一个虚拟的办公场景一起工作。在2018年9月份,Immersed推出测试版,其兼容Oculus Go和macOS,当时其宣称自己的供作人员每天花8个小时在此平台上工作。

据悉,这款虚拟办公应用支持模拟多种场景,例如咖啡厅,会议室等等。对于VR办公而言,其内置的虚拟场景比Slack等远程协作工具更具临场感,可以摆脱外界的干扰,让你保持长时间保持在高效的工作状态;而且还能跨越时间、跨越地点实现远程协同办公。Immersed CEO Renji Bijoy表示:与视频通话或聊天应用相比,Immersed更注重协同性,用户在虚拟办公场景中可以分享屏幕、坐在一起、甚至一起在白板上写字。

除此之外,你还能分享音乐、聊天、分享屏幕等等,就像是在办公室与同事会面那样。同时,也可以加好友,或加入私下的联合办公会议(最多同时支持7人)等。为了让更多人能使用上虚拟办公功能,Immersed也在探索在低端笔记本和台式机上的推进,例如可以不需要手柄就能实现部分交互操作,通过电脑摄像头可实现简单的手势追踪等。

另外,Immersed已开放注册,整体服务需要付费,价格目前并未公开。

(时间:2019.08.14 来源:青亭网)

10

“算力最强”AI处理器

1

华为公司轮值董事长徐直军在发布会上表示,华为自2018年10月发布AI战略以来,稳步而有序地推进战略执行、产品研发及商用进程。据介绍,此次正式发布的昇腾910属于Ascend-max系列。徐直军说,实际测试结果表明,在算力方面,昇腾910完全达到了设计规格,且所需功耗明显低于设计规格。目前,昇腾910已经被用于实际AI训练任务。

徐直军直言,昇腾910对标谷歌和英伟达的AI算力芯片,训练AI模型,“昇腾系列包括AI芯片和AI IP,其中Nano、TINY、Lite系列都是IP,它们既能嵌入华为自身芯片,也能嵌入其他所有需要AI能力的产品。”徐直军还发布了全场景AI计算框架 MindSpore。据介绍,该框架创新编程范式,AI科学家和工程师更易使用,可满足终端、边缘计算、云全场景需求,能更好保护数据隐私;可开源,形成广阔应用生态。除了昇腾处理器,MindSpore同时也支持GPU、CPU等其他处理器。

华为于2018年推出昇腾310AI芯片和全流程模型生产服务ModelArts。徐直军表示,自发布以来,基于昇腾310芯片的产品和云服务获得广泛应用。

其中,基于昇腾310的MDC和很多国内外主流车企在园区巴士、新能源车、自动驾驶等场景已经深入合作;基于昇腾310的Atlas系列板卡、服务器,与数十家伙伴在智慧交通、智慧电力等数十个行业落地行业解决方案;基于昇腾310,华为云提供了图像分析类服务、OCR服务、视频智能分析服务等云服务。截至目前,ModelArts已经拥有开发者超过3万,日均训练作业任务超过4000个,32000小时,其中视觉类作业占85%,语音类作业占10%, 机器学习5%。

(时间:2019.08.24 来源:新华社)

END

文:网络

更多精彩内容

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190826A0P3AZ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券