首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepMind开发AI以帮助识别语音,效果优于专业读者

对于数百万失聪者来说,可以提供一个窗口,可以跟上对话。但这种做法很难,结果往往不准确。...现在,DeepMind研究人员报告一种新的AI程序,该程序的性能优于专业的读者和迄今为止最好的AI,其错误率仅为之前最佳算法的一半。如果完善并集成到智能设备中,这种方法可以让每个人都懂。...编写可以阅读语的计算机代码令人抓狂。因此,在新的研究中,科学家转向了机器学习,让计算机从数据中学习。他们为他们的系统提供了数千小时的视频和成绩单,让计算机自己解决了这个问题。...在同一项研究中,专业的读者错误率为93%(尽管在现实生活中他们仍然有语境和肢体语言,这有助于)。 该程序理解音素可能看起来不同,具体取决于之前和之后所说的内容。...这种技术也可应用于其他程序,例如分析安全视频,解释历史镜头,或在音频下降时听到Skype伙伴的语音。

51640
您找到你想要的搜索结果了吗?
是的
没有找到

7 papers | PyTorch官方框架论文;浙大阿里等新方法提升效果

机器之心整理 参与:杜伟 本周既有深度学习社区非常关注的 PyTorch 框架论文,还有浙大和阿里巴巴等利用学习语音识别器增强效果的研究。...有了这个技术,修图换眼睛时不用再担心风格不搭了。...尽管取得了鼓舞人心的结果,但的性能表现依然弱于类似的语音识别,这是因为刺激因素的不确定性导致很难从嘴唇运动视频中提取判别式特征(discriminant feature)。...在本文中,来自浙江大学、斯蒂文斯理工学院和阿里巴巴的研究者提出了一种名为 LIBS(Lip by Speech)的方法,其目的是通过学习语音识别器来增强效果。...推荐:本文在领域取得了新的 SOTA 结果,并且论文作者表示他们希望今后将该框架应用到语音和手语等其他多模态对中。

1K20

当AI也精通了「术」:戴上口罩或许是我最后的倔强

实际上,对于失聪或者听力较弱的人来说,也是一项必须掌握的技能。 既然人类可以从唇部动作中读取讲话的内容,反过来说,我们是否能够教会 AI 去学习这套方法,并且再进一步输出语音呢?...答案是肯定的,并且这门技术已经在公共安全等领域有着相当广泛的应用。 近日,来自印度海得拉巴国际信息技术研究所(IIIT, Hyderabad)的团队发布了他们在这一领域的最新成果。...对于专业的读者来说,他们会借助其他方式来增加还原语的准确性,比如根据所谈论话题去联想、根据面部表情和手势等因素去推测。...还有一点就是,对于聋哑人和专业的读者来说,读取那些经常互动的人的语会更容易。...在这项研究中,研究者从一个新的层面去探讨了语合成的问题:没有随机挑选很多个人进行,而是专注于长时间观察某一个人的讲述内容,来学习 ta 的特定讲话模式。

57420

pythonpaper

前面跟大家简单介绍过Python提取多个pdf首页合并输出,还有Python轻松处理Excel。...有位粉丝留言python能不能从文献中提取特定的数字,希望能出一个教程,那么今天我们就来聊一聊如何用pythonpaper,提取特定的数字。...import re #打开要的pdf文件 pdfFileObj = open('meetingminutes.pdf', 'rb') #生成pdf对象 pdfReader = PyPDF2.PdfFileReader...处理word涉及到的两个概念paragraph和run在《python让繁琐工作自动化》这本书中有详细介绍,大家感兴趣可以下去仔细读一下。...这个任务中用到的代码均出自于我前面提到《python让繁琐工作自动化》这本书。 参考资料: Python提取多个pdf首页合并输出 python让繁琐工作自动化‍

1.3K20

谷歌DeepMind AI再次完爆人类 语正确率胜专家(附论文下载)

这样的成绩,也完胜其它的自动语解读系统。 “这是迈向全自动语解读系统的一大步。”芬兰奥卢大学的周子恒(音译)说:“没有那个巨大的数据集,我们无法检验像深度学习这样的新技术。”...◆ ◆ ◆ 语解读之路 为了让BBC数据集可供自动语解读所用,视频片段需先用机器学习进行处理。...当然,它还有很多可以改进的空间,比如它的输入是一个视频的完整的语动作。但是在实时的视频处理中,它只能获得当前所有的语动作,未来的语动作显然是无法获得的。...接下来的问题是如何应用人工智能的语解读新能力。我们不必担心计算机通过解读语来偷听我们的谈话,因为长距离麦克风的偷听能力在多数情况下要好得多。...周子恒认为,语解读最有可能用在用户设备上,帮助它们理解人类想要说的。

1.2K50

《大型网站技术架构》

同时也对架构师内涵和技术管理有所阐述,值得一。...日常工作与学习中,往往更多的时间是使用快餐的方式,比如一篇博客、听一次演讲、研究一段源码,沉下心来好好读一本书的机会反而少了,因此最近拿出一段的时间,与其他同类书籍对比的一遍,争取学习到不同于之前的东西...大型网站架构技术的核心价值是随网站所需灵活应对, 它是一个演化的过程 驱动大型网站技术发展的主要力量是网站的业务发展,是业务成就了技术,而不是相反。...因此要摒弃为了技术技术的套路 网站架构设计误区 一味追求大公司的解决方案 为了技术技术 企图用技术解决所有问题 2 架构模式 分层,这是在横向方向对系统进行切分 分层的挑战在于必须合理规划层次边界和接口...服务器集群路由算法、Memcached服务器集群列表以及通信模块构成 路由算法负责根据应用程序输入的缓存数据KEY计算得到应该将数据写入到Memcached的哪台服务器(写缓存)或者应该从哪台服务器读数据(缓存

1.1K20

研转码,纠结技术方向

很多本科非科班的小伙伴都会选择通过个研来达到转码的目的,主要是想给自己一个2-3年的缓冲时间。...大一去了之后因为非科班想看看把计算机二级过了基本满分,学了C++基础语法,数据结构,也啃了Linux私房菜,买了树莓派照着敲,也学了一点python,中国大学mooc上学过一点郭炜老师的算法基础课。...我了解过学院每年大概研究生只有三四个能去大厂,大部分都不太好,而且那些上岸大厂的学生几乎都是在一个做技术的老师门下。...总的来说就是如果是以前,比如去年我会优先建议你走Java这块,可看了今年这形式,我还是推荐你走C++吧,或者说如果你已经学过Java,并且学了七七八八了,那不值当换技术栈,继续学Java就好; 现在是你相当于...如果你不打算博,也不打算从事算法岗的话,实验室的科研项目和论文只是帮你毕业,仅此而已。

49520

牛津大学开发出语解读智能技术

解读“语”一般都是在电视剧里出现的特殊人才所具备的技能,当然语”也被广泛应用于不便传小纸条的上课聊天以及考试作弊的场景下。...众所周知,通过获取大量数据来寻找“共同点”的人工智能技术能够提升音频语言识别,使其达到跟“面对面”对话一样的准确率,为什么它就能不能完成“”的任务呢?...牛津大学人工智能实验室的研究人最新发表的论文中提到,他们使用深度学习技术开发出了一种“”软件,他们的软件名为“LipNet”,它的“表现”要远胜于那些语解读者:在某些测试中,LipNet软件能够达到...“从技术层面来看,想要在监控领域应用术,这是非常、非常困难的。”Assael表示。...不过,这两名研究人员表示,人工智能能够帮助到那些听力受损的人群,尤其是在一个比较吵闹的环境(也就是计算机很难分离出噪音的环境)。

70260

阿里和浙大联合推出模型,中英双语实时复述

学会语的AI暴露了其复读机的本质,可以解读许多被消音的谜团。而AI的真正目的,是成为听力障碍患者的耳朵,帮助他们“听到”原本消失在耳朵里的声音。...将“术”交给AI实际上已经不是什么新鲜事了,早在2016年,谷歌deepmind和牛津大学的研究人员就开发了名为Lipreading视频标注系统,准确率达95.2%,远远优于受训的者。...人工智能如何学会? 机器很困难,因为它需要从视频中提取时空特征(位置和运动都很重要)。现大多数机器学习系统只能进行单词分类,而不进行句子级的序列预测。...AI将成为人类的“复读机” 近年来,随着深度学习的发展和训练大数据的可用性,人工智能系统学习取得了前所未有的进步,表现也有了很大的提高。...对于人类来说也是一项困难的工作,当人们看到说话人的嘴巴时,通常会被细微的、容易混淆的唇形变化所困惑。

69330

DeepMind系统ICLR遭拒

LipNet 是一项利用机器学习实现句子层面自动技术,该技术将自动技术的前沿水平推进到了前所未有的高度。那么 DeepMind 这次的论文主要是讲什么呢?...id=HJxpDiC5tX 该研究提出了一种新型系统(如下图所示),它可以将原始视频转换成单词序列。...很明显,很多监督式分类任务(即使是这样的结构化分类任务)可以通过足够灵活的学习架构和大规模标注数据集来解决,而这篇论文使用的建模技术本质上并不新颖,即使该技术的应用领域是。...匿名评审 1(评分 3) 很明显,该论文提出了一种大规模系统。很好的一项工作,也可能是当前最强大、通用的系统,但我觉得该工作与论文并不是很适合 ICLR。...匿名评审 2(评分 4) 该研究收集的数据集无疑是一项贡献,但除此之外,技术创新不够,因为所有的技术在视频或者语音识别中都被提出过。表 1 中的数值很惊人,但难以搞清楚提升来自哪里。

50630

搜狗推出语识别技术,识别率90%超越去年的DeepMind团队

在刚刚过去的第四届乌镇互联网大会上,搜狗展台凭借着机器翻译、搜狗明医、搜狗大律师、智能问答、语识别等人工智能技术、产品受到参会者的关注,其中最吸引眼球莫过于语识别了。...了解人类起源与未来,搜索:来自外星人的讯息 搜狗语音交互中心技术总监陈伟 与语音识别不同,语识别是一项基于机器视觉与自然语言处理于一体的技术,因此难度也比语音识别大的多。...搜狗语音交互中心技术总监陈伟向我们介绍了语识别背后的技术逻辑。...语识别需要通过摄像头,从图像中连续识别出人脸,并提取说话人连续的口型变化特征,然后将这些语特征放入语识别模型来获取发音单元,并通过语言模型来获得文本数据,最终输出文字。...搜狗通过端到端深度神经网路技术进行语序列建模,并通过数千小时的真实语数据训练,所建立的词汇表已经在10万词以上,在通用语识别上已能够达到60%的准确率,而在搜狗深耕的车载、智能家居场景下可以达到90%

1.5K70

《图解密码技术》(一):密码

想要了解这些密码技术的基本原理,而最近买书时看到了《图解密码技术》这本书,刚好可以解答到我的这些问题,于是,就买回来看了。...而从现在开始,每一本书,我都会尽量分享我的读书笔记,有两个目的:一是为自己做总结整理,加强记忆和理解;二是可以给还没看过该书的读者提供摘要和指引。好了,接下来进入正文。...内容主要包括对密码技术整体性的讲解,以及历史密码、对称密码、公钥密码等保证机密性的密码技术。...认证:内容包括单向散列函数、消息认证码、数字签名、证书等密码技术。 密钥、随机数和应用技术:内容包括密钥、随机数相关的知识,以及PGP、SSL/TLS等应用技术。 本篇文章是关于第一部分的笔记。...密码技术 密码技术的目的很明确,就是为了解决信息安全问题。信息安全可分为四类特性: 机密性:为了防止信息被窃听,对应的密码技术有对称密码和公钥密码。

3K31
领券