首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

搜狗推出识别技术,识别率90%超越去年的DeepMind团队

在刚刚过去的第四届乌镇互联网大会上,搜狗展台凭借着机器翻译、搜狗明医、搜狗大律师、智能问答、识别等人工智能技术、产品受到参会者的关注,其中最吸引眼球莫过于识别了。...所谓识别是通过机器视觉,不用听声音,仅靠识别说话人的唇部动作,就能解读说话者所说的内容。...搜狗语音交互中心技术总监陈伟向我们介绍了识别背后的技术逻辑。...识别需要通过摄像头,从图像中连续识别出人脸,并提取说话人连续的口型变化特征,然后将这些特征放入识别模型来获取发音单元,并通过语言模型来获得文本数据,最终输出文字。...“就是把语音识别识别做到很好的结合,让识别起到辅助作用”,陈伟表明了最初做这件事的动机。尽管识别的准确率还不够高,但是通过限定场景,扮演辅助角色或许可以进一步提升远场语音交互的准确性。

1.5K70

搜狗发布新研究:语音+让语音识别更准确

搜狗AI正在朝着这一步迈进:由人类说一段话,AI根据唇形和语音准确识别内容。最近搜狗与清华天工研究院合作,在语音和的多模态识别方面取得了重大成果。...语音+识别 随着语音识别的快速发展,纯粹靠声音的识别技术越来越成熟,识别准确率达到98%以上,很多公司,包括搜狗在内都推出了成熟的产品,比如搜狗输入法语音输入和搜狗智能录音笔等。...搜狗研究人员想到,如果让AI也能把这两种方法结合起来,就能提高语音识别的准确率。 早在2017年年底,搜狗就已经发布了一个识别的初步成果,是业内首家公开展示识别的公司。...经过一年多的发展,识别技术已经有了很大的提升,搜狗团队开始考虑将听觉与视觉两种识别的模式融合起来,即所谓的“多模态”识别,这是搜狗识别继乌镇互联网大会发布后的新突破。...在模拟乘坐地铁的环境中,可以看到无论是单独的语音识别识别都无法正确还原原来的语句,但是二者结合起来,就可以正确识别出“北京今天天气怎么样”这句话。

87520
您找到你想要的搜索结果了吗?
是的
没有找到

业界 | 腾讯优图为「刷脸」之旅打造新任守护者——「极光守卫」

腾讯优图团队继独创的活体上线并广泛应用后,于 2016 年初就着手准备研发新的活体检测技术,致力于挖掘手机上各式传感器的潜力。...经过短期的调研与研究,团队选择把主要精力投入到活体技术的研发上面,旨在通过用户念一串随机的数字,结合用户的和语音数据,联合判断镜头前的是否为真人。...因此,相较于动作活体活体从多维度增添了攻击门槛,安全级别较高,并在之后落地于滴滴、微信公众号的应用场景。 不过,活体的研发与落地之路也并非一帆风顺,难点主要受限于移动端的种种因素。...腾讯优图将最初上线的活体检测版本需要用户念出 8 个数字,后来精简到了 4 个。 ?...腾讯优图的活体检测技术 其次,活体存在一定的不可控性,可能出现方言或是吐字不清的情况,用户念数字的速度也有快有慢,而且不同人念同一个数字的口型也会不同。

80880

腾讯优图为“刷脸”之旅打造新任守护者——“极光守卫”

腾讯优图团队继独创的活体上线并广泛应用后,于 2016 年初就着手准备研发新的活体检测技术,致力于挖掘手机上各式传感器的潜力。...经过短期的调研与研究,团队选择把主要精力投入到活体技术的研发上面,旨在通过用户念一串随机的数字,结合用户的和语音数据,联合判断镜头前的是否为真人。...因此,相较于动作活体活体从多维度增添了攻击门槛,安全级别较高,并在之后落地于滴滴、微信公众号的应用场景。 不过,活体的研发与落地之路也并非一帆风顺,难点主要受限于移动端的种种因素。...腾讯优图将最初上线的活体检测版本需要用户念出 8 个数字,后来精简到了 4 个。...腾讯优图的活体检测技术 其次,活体存在一定的不可控性,可能出现方言或是吐字不清的情况,用户念数字的速度也有快有慢,而且不同人念同一个数字的口型也会不同。

1.1K60

业界 | 数据分析起家的海云数据,还想向识别冲刺

作为海云数据创始人兼 CEO,不仅是因为其自主研发的识别技术,提高英文识别准确率,更重要的是,冯一村找到了识别的变现之道。 「识别能帮助聋哑人、老人交流,裁定体育赛事语言暴力。...当冯一村无意中发现,企业内部研究院将识别加入现有的数据可视分析系统,他很快意识到,这个尝试对现有业务的突破具有重要价值。 2016 年 12 月,海云数据联合重庆公安科研所研究识别。 ?...海云识别测试 冯一村介绍,识别是典型的 AI 应用,集机器视觉与自然语言处理,从图像中连续识别出人脸,并提取此人连续的口型变化特征,将其输入模型,识别出讲话人口型对应的发音,从而计算出可能性最大的表达语句...在 2017 年 3 月的亚洲大数据可视分析峰会上,海云数据在正式发布识别技术时称,其由 1 万小时新闻式节目训练而成的识别 AI,英文识别准确率达 80%,中文准确率达到 71%。...1 万小时新闻类节目进行识别训练 更早一些时候,一则识别 AI 超过人类专家的消息还曾刷屏研究界。

940130

亚洲大数据可视分析峰会正式落幕:海云数据发布识别技术

识别将助力大数据应用市场逐渐拓宽 本次会议由海云数据承办。在会上,海云数据CEO冯一村重点介绍了与重庆公安科研所共同研发的技术——识别。 ?...自2016年12月以来,海云研究院开展了中文识别模型的研究工作,目前,其中文识别模型准确率已达到70%。 实质上,识别是一项集机器视觉与自然语言处理于一体的技术。...但是,成熟的识别系统需要建立在大量人脸特征样本的基础之上,通过带记忆的深度神经网络才能保证结果的最大准确性。...加入识别技术后,公安人员可通过平台锁定视频中犯罪嫌疑人的语言记录,极大助力犯罪缉查工作的开展。 而这只是识别技术的应用场景之一。...在日常生活、社会公益、体育赛事裁定等方面识别有着更广阔的空间。譬如助力聋哑人、老年人交流;解锁;体育赛事的语言暴力等。

86370

AI 看,在嘈杂场景的语音识别准确率高达75%

相比之下,人工智能语言识别系统主要是建立在音频上。而且需要大量数据来训练,通常需要数万小时的记录。 为了研究视觉效果,尤其是嘴部动作的镜头,是否可以提高语音识别系统的性能。...AV-HuBERT Meta 并不是第一个将人工智能应用于读问题的公司。...2016年,牛津大学的研究人员创建了一个系统,该系统在某些测试中的准确率几乎是经验丰富的读者的两倍,并且可以实时地处理视频。...但是牛津大学和 DeepMind 的模型,与许多后续的读模型一样,在它们可以识别的词汇范围内受到限制。这些模型还需要与转录本配对的数据集才能进行训练,而且它们无法处理视频中任何扬声器的音频。...其中,华盛顿大学的人工智能伦理学专家Os Keye就提到,对于因患有唐氏综合征、中风等疾病而导致面部瘫痪的人群,依赖读的语音识别还有意义吗?

84210

AI 看,在嘈杂场景的语音识别准确率高达75%

相比之下,人工智能语言识别系统主要是建立在音频上。而且需要大量数据来训练,通常需要数万小时的记录。 为了研究视觉效果,尤其是嘴部动作的镜头,是否可以提高语音识别系统的性能。...AV-HuBERT Meta 并不是第一个将人工智能应用于读问题的公司。...2016年,牛津大学的研究人员创建了一个系统,该系统在某些测试中的准确率几乎是经验丰富的读者的两倍,并且可以实时地处理视频。...但是牛津大学和 DeepMind 的模型,与许多后续的读模型一样,在它们可以识别的词汇范围内受到限制。这些模型还需要与转录本配对的数据集才能进行训练,而且它们无法处理视频中任何扬声器的音频。...其中,华盛顿大学的人工智能伦理学专家Os Keye就提到,对于因患有唐氏综合征、中风等疾病而导致面部瘫痪的人群,依赖读的语音识别还有意义吗?

69930

Meta开源像语言识别系统,模型识别翻译6种语言,本地部署人人可用

新智元报道 编辑:润 【新智元导读】Meta开源视听语音识别系统MuAViC,大幅刷新SOTA,直接下载本地可用!...后边有懂的硬核剧迷,为了看到原版剧情,直接开始翻译。...来源:娱乐寡姐 Meta最近开源了一个AI语音-视频识别系统:MuAViC,让大家动一动手指头,就能看懂没有声音的人物讲了啥,还能精确识别嘈杂背景当中特定人物的语音。...研究人员发现,在视听模式下,研究人员的单AVSR模型的WER平均降低了52%,优于同类ASR基线(Transformer,单)。...在纯音频和视听模式下,研究人员的多语言AVSR模型在每种非英语语言(除El外)上的表现都优于单语言模型。

33510

人脸识别活体检测破解“照片骗局”

腾讯优图实验室已经成功研发并推向使用的一项人脸识别技术:光线活体。...目前,光线活体识别在使用中正常通过率是98%以上。 离“刷脸时代”更近一步 随着“微信身份证”开始试点,我们离“刷脸时代”又近了一步。...现有的人脸识别/验证中,活体早就作为一个基本的保障加入其中,比如大家熟知的 iPhone X 的人脸解锁,就需要用户保持张着眼睛等“活体”的动作,大多数的人脸识别在录入用户原始比对数据时,会采用“摇头”...此外,较为典型的还有使用、声音识别、波纹等技术作为验证方式。 就在上个月,腾讯优图实验室已经成功研发并推向使用的一项人脸识别技术:光线活体。...在人脸验证场景下,腾讯优图已实现简单动作的活体技术应用(主要为摇头眨眼),而后团队首创了活体,结合和语音数据进行联合判断,并于2014年已经在微众银行中应用,提升了传统方案的安全级别。

12.6K80

【微信身份证后的刷脸时代】活体识别告诉你为什么照片无法破解人脸系统

作者:胡祥杰 【新智元导读】腾讯优图实验室已经成功研发并推向使用的一项人脸识别技术:光线活体。...现有的人脸识别/验证中,活体早就作为一个基本的保障加入其中,比如大家熟知的 iPhone X 的人脸解锁,就需要用户保持张着眼睛等“活体”的动作,大多数的人脸识别在录入用户原始比对数据时,会采用“摇头”...此外,较为典型的还有使用、声音识别、波纹等技术作为验证方式。 就在上个月,新智元走访了腾讯优图实验室,了解到了他们已经成功研发并推向使用的一项人脸识别技术:光线活体。...新智元了解到,在人脸验证场景下,腾讯优图已实现简单动作的活体技术应用(主要为摇头眨眼),而后团队首创了活体,结合和语音数据进行联合判断,并于2014年已经在微众银行中应用,提升了传统方案的安全级别...目前,光线活体识别在使用中正常通过率是98%以上。 腾讯优图团队对新智元表示,光线活体识别技术的相关论文已经在撰写中,明年会在各大顶会投稿。

3.2K60

作为搜狗语音交互补充的识别 发展到哪一步了

回顾识别技术的研发起始,陈伟对雷锋网称,当初主要考虑着,围绕搜狗主路线上的工作,将图像和语言进行打通,实现从图像中转化出人讲话中的信息——“这也是对识别的整体思考,以及对应整个知音引擎产品思考上的识别的一个位置...具体应用上,就是将语音识别识别相结合,在噪音特别强的情况下,让后者辅助前者,形成包括视觉、音频、在内的多模态输入。 目前,陈伟对雷锋网表示,在解决噪声问题上,仍是麦克风阵列比识别更靠谱。...,通过识别技术,则可以获取重要的用户讲话信息,为公共安全提供有效支持;此外,搜狗识别还能服务于听障、失语人士等。...,但使用识别技术就可以通过嘴的动作获取大量内容信息; 其二,识别可以作为辅助技术,提升语音识别技术现阶段的准确率。...那么识别的难点在哪里呢?

97460

能读取视频中人物的人工智能

2016年,谷歌和牛津大学的研究人员详细介绍了一个系统,该系统能够以46.8%的准确率,标注视频片段,实测超过了专业读器12.4%的准确率。...但是,即使是最先进的系统也很难克服嘴唇动作的模糊性,基于此,它们的表现根本无法超越基于音频的语音识别。...为了开发更高效的语言识别系统,阿里巴巴、浙江大学和史蒂文斯理工学院的研究人员设计了一种被称为LIBS的方法,和其他类似的解决方案一样,LIBS可以帮助那些听力差的人跟踪缺少字幕的视频。...LIBS的语音识别器和读器组件,主要依靠一种基于注意力的序列到序列的体系结构,这是一种映射序列输入的机器翻译方法。...研究人员对模型进行了训练,内容主要来自BBC的45000个口语句子,以及CMLR——中国最大的普通话读语料库,其中有来自中国网络电视网站的10万多个自然句(包括3000多个汉字和2万个短语)。

1.9K10

识别技术的开源教程,听不见声音我也能知道你说什么!

Nasrabadi 译者 | 清爹 整理 | Jane 出品 | AI科技大本营 【导读】识别系统使用机器视觉技术,从图像中连续识别出人脸,判断其中正在说话的人,提取此人连续的口型变化特征,随即将连续变化的特征输入到识别模型中...识别并非最近才出现的技术,早在 2003 年,Intel 就开发了识别软件 Audio Visual Speech Recognition(AVSR),开发者得以能够研发可以进行识别的计算机...大家一定很好奇识别系统要怎么实现。...识别就是这个项目的具体应用之一。...▌识别识别来讲,必须将视频作为输入。首先,使用 cd 命令进入相应的目录: ? 运行专用的 python file 如下: ?

2.5K10

人工智能阅读能力超过人类

在数据处理和文件归档方面,机器的表现已经超过人类,如今机器还具备了识别能力。 据英国《每日邮报》报道,英国一个研究团队开发了一款阅读计算机程序,其能力甚至超过了人类专家。...这款名为LipNet的软件由牛津大学开发,其识别准确率最高达到了93.4%,经验丰富的阅读者的准确率约为52%。 LipNet利用神经网络映射人类口腔运动,与库内容一一匹配。...研究人员指出,阅读器具有很大的实用价值,可用于听力辅助、公共场所的无声命令、秘密对话、在嘈杂环境中识别语音、生物识别和无声影片处理等。...但Assael表示,不用担心这款软件被用于监视人们的对话,因为LipNet没法用来监控,这是因为阅读需要能看到说话者的舌头——也就是说,视频画面必须是正面的,而且光线充足,才能获得良好的识别效果。...识别是一项重大研究成果,进一步扩展了基于视觉的机器学习功能。实例学习这一机器学习技术可帮助计算机深入理解图像、场景等的具体含义,即使遇到的是陌生的图像或场景亦如此。

91560

腾讯云人脸识别接口常见问题解析——静态活体检测相关

前言 关于活体检测,我们知道活体检测技术包括静态活体检测与动态活体检测。 与动态活体检测不同,静态活体检测是指判断静态图片是真实客户行为还是二次翻拍,用户不需要通过或摇头眨眼等动作来识别。...而动态活体检测是指通过指示用户做出指定动作动作(读数,眨眼,左右摇头等),验证用户是否为真实活体本人在执行当前的操作。 人脸静态活体检测 在使用中遇到报错的情况先看官网文档错误码类型。...image.png 人脸静态活体检测常见问题解析 最近关于人脸识别子产品的静态活体检测遇到有用户反映接口调用后返回值为0的问题。...为什么这样子要求呢,难道就不能任意尺寸的照片做活体检测么? 不能。 其实是因为,在日常线上应用中,真人活体样本(正样本)与非真人直接拍摄的样本(负样本)存在着特征区别。...参考官方文档可知: 与动态活体检测的区别是:静态活体检测中,用户不需要通过或摇头眨眼等动作来识别。 如果对活体检测有更高安全性要求,请使用人脸核身·云智慧眼产品。

3.9K130

人脸识别 -- 活体检测(张嘴摇头识别)

一:简介 最近项目在做了身份证银行卡识别之后,开始实现人脸识别活体识别,其中人脸识别包括人脸入库、人脸查找、人脸1:N对比、人脸N:N对比,另外活体识别运用在安全登录功能。...大家都熟知的支付宝使用face++ 的服务来实现人脸识别,在实际项目中使用了讯飞的人脸识别SDK进行二次封装来实现活体识别。主要实现了张嘴和摇头两个活体动作的识别。...在实际运用中,有很多app为了高度保证用户使用的安全问题,除了常规的账号密码登录之外,相继实现了指纹登录,手势登录,第三方登陆(QQ、微信、支付宝)、刷脸登录,接下里我就和大家分享一下如何实现人脸识别活体检测...二:实现思路分析 点击识别按钮,调用相机 CameraRules类,检测相机权限 初始化页面,创建摄像页面,创建张嘴数据和摇头数据 开启识别,脸部框识别 脸部部位识别,脸部识别判断是否检测到人脸 检测到人脸之后...脸部部位识别,脸部识别判断是否检测到人脸 for(id key in keys){ id attr=[landmarkDic objectForKey:key]; if

3.9K10

DeepMind开发读AI以帮助识别语音,效果优于专业读者

对于数百万失聪者来说,读可以提供一个窗口,可以跟上对话。但这种做法很难,结果往往不准确。...现在,DeepMind研究人员报告一种新的AI程序,该程序的性能优于专业的读者和迄今为止最好的AI,其错误率仅为之前最佳算法的一半。如果完善并集成到智能设备中,这种方法可以让每个人都懂读。...编写可以阅读的计算机代码令人抓狂。因此,在新的研究中,科学家转向了机器学习,让计算机从数据中学习。他们为他们的系统提供了数千小时的视频和成绩单,让计算机自己解决了这个问题。...在同一项研究中,专业的读者错误率为93%(尽管在现实生活中他们仍然有语境和肢体语言,这有助于读)。 该程序理解音素可能看起来不同,具体取决于之前和之后所说的内容。...这意味着如果你想教系统识别新的词汇单词,你需要重新训练最后一个阶段。 Akbarni表示,将程序整合到一部手机中可以让听力障碍人士随身携带“翻译”。这样的翻译也可以帮助那些不能说话的人,例如声带受损。

51740
领券