首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

小米语音首席科学家 Daniel Povey:语音识别卷完了,下一个机会在哪里?| 智者访谈

在他看来,技术进步不应被某一主流范式所限制,AI 领域的进步往往源于解决特定领域的具体问题,每个领域都应该保持自己独特的视角和方法——也许语音领域的下一个解决方案,会给机器学习带来全新的启发。...首先,作为语音技术的先驱,您目前关注的重点是什么? Dan Povey:语音技术正处于一个低谷期。如果你去参加语音会议,会发现人们对新的语音技术并不那么兴奋。...Dan Povey:现在语音已经成为 AI 的一个子领域,跟 AI 紧密相连。以前语音是一个独立的领域,我们有自己的会议,而且地位跟神经网络一样甚至更高,因为那时候神经网络还不怎么管用。...多模态发展:Transformer 大一统 对研究并不太好 机器之心:您如何看待语音模态的发展,以及与多模态的融合?...Dan Povey:当然,在一些应用场景中语音会被整合,但我认为独立的语音识别系统仍然会继续存在。我希望通过我们的研究,能找到对 AI 普遍有用的方法。

8300
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    如何技术地识别双十一的“骗”局

    ---- 先看下去年的天猫双十一战报,交易额达1207亿。不知今年能达到多少?...交易额虽然惊人,但是双十一也存在一些黑暗面,通过搜索引擎简单搜索,我们可以看到返回的内容,如下示例: 每年双十一都会搞得轰轰烈烈,一年比一年火爆,火爆背后有多少消费者买到的商品真的是实惠的吗?...因为你不可能长期针对某个商品进行监测,回到本文的主题, 如何技术地识别双十一里的“骗子”商品?...很容易想到使用爬虫工具,每天定时定点地爬取商品的销量跟价格;只要长期跟踪,就不怕你商家在双十一这一天耍花招了。 但是,谁去做爬虫呢?爬虫爬取的数据存放在哪里呢?...还有,某宝一直被诟病的刷单、买好评等弊端,将被区块链技术所解决。 下面介绍一种简单的基于区块链的,方便个人开发者DIY的技术方案。

    6K40

    跟AI学口语,鹅厂“神器”了解一下

    作为AI语音识别技术,智聆口语评测是由腾讯云团队基于微信“智聆”的技术与应用基础,创新算法研发而成的语音评测产品。...图:智聆口语评测小程序 可能有很多人对智聆感到陌生,事实上,它已经默默陪伴我们很久了——作为AI语音识别技术,智聆基于深度学习理论能够实现现场同传、语音实时转文字等多种功能。...AI口语“砖家” 智聆口语评测的语音评测打分结果与专家打分拟合度95% 以上,就如同把一位真人口语专家请到家中,随时随地陪你开练,给你不标准的地方“拍砖”,促进口语提升。...“神器”彩蛋——中文发音测评 可能有同学已经发现了,除了英文测评,智聆还有中文测评。 很多小伙伴表示中文口语十级完全没问题,辣么,你可以教歪果仁学中文呀! 歪果仁学汉语也是很hard。...比如就像我们会给英文标注拼音一样,歪果友人也会给汉语标“拼音”... 然鹅,这个办法并不科学,所以胖友们,请向全世界安利我们的中文口语测评吧,让歪果仁学中文也easy一点! 你的发音能够打几分呢?

    7.2K30

    绝佳的ASR学习方案:这是一套开源的中文语音识别系统

    机器之心编辑 作者:AI柠檬博主 语音识别目前已经广泛应用于各种领域,那么你会想做一个自己的语音识别系统吗?...这篇文章介绍了一种开源的中文语音识别系统,读者可以借助它快速训练属于自己的中文语音识别模型,或直接使用预训练模型测试效果。...所以对于那些对语音识别感兴趣的读者而言,这是一个学习如何搭建 ASR 系统的极好资料。...本项目声学模型通过采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。...作者在项目 README 文件中提供了两个数据集,即清华大学 THCHS30 中文语音数据集和 AIShell-1 开源版数据集。

    2.5K40

    人工智能翻译发展到哪一步了?

    这个工作包括了三个部分,首先将里克的演讲通过语音识别得到文本,然后再通过统计机器翻译将英文文本翻译成中文,最后通过语音合成模拟里克的发音特点读出中文的翻译。...《赛先生》:大家一直诟病深度学习的可解释性,它像一个黑盒子一样,无法对评测结果做出解释? 周明:神经机器翻译这块可解释性还没有做的那么好。...实际上,从结果看,通过大规模的评测集合可以对系统做优化,整体提升编码和解码的能力。 《赛先生》:怎样去判断翻译的质量,感觉是蛮主观的一件事? 周明:我们有两个方案。一是做自动评测。...机器在对这种篇章建模,然后进行编码解码翻译的时候,目前并没有很好的手段,就连怎么评测,训练集在哪里都不清楚。所以目前,篇章级的翻译不行。...这就是我们所说的一种紧密结合——也许有一天就是语音直接到语音,中文的语音进去,英文的语音出来,中间也不一定非要经过一个文字的阶段。 《赛先生》:是否可能借鉴人脑的一些机理?

    2.5K30

    智聆口语评测(中文版)新品发布

    这位童鞋,请你站起来读一遍以下绕口令: 刘奶奶找牛奶奶买牛奶,牛奶奶给刘奶奶拿牛奶,刘奶奶说牛奶奶的牛奶不如刘奶奶的。 面对“n”和“l”,50%的南方人被刷掉了。 ?...过去,中文口语评测高度依赖专业教师听后进行主观评估,成本高、费时费力。 现在,“AI教师“陪你学中文。...不是专家,胜似专家 智聆口语评测的语音评测打分结果与专家打分拟合度 95% 以上,可广泛应用于普通话教学业务中。...2 幼教发音启蒙 可针对幼教场景下的语言学习,针对字、词、句子等的发音情况进行语音评测。 ? 3 口语作业批改 可针对培训机构的课后朗读课文以及唐诗等,在学生提交的时候进行在线批改。 ?...欢迎体验中文口语评测 扫描下方小程序码,打开小程序“腾讯教育云”,可体验儿童和成人模式的单词和句子评测。

    5.8K30

    腾讯教育智聆口语评测亮相微信公开课,英语好不好AI告诉你

    “没想到我的中文语音测评分数竟然还没有英文高,看来我要好好练习一下自己的普通话发音了。”...1月9日,在腾讯2019微信公开课PRO展区,智聆口语评测体验现场受到参会者的“团宠”,黄色的屏幕前围满了跃跃欲试的参会者,都想测试下自己的中英文发音水平。“这是我第一次体验AI口语评测。...而且,单词、句子、段落、自由说、情景对话等评测模式一应俱全,还有不同维度的打分,对英语口语训练挺有帮助。”来自深圳的孙小姐在微信小程序上评测完后,分享了自己的体验。...应用场景 一张图片  >> “ 口语学习:妈妈再也不用担心我的发音 除了在线教育机构,智聆口语评测的身影还出现在线下校园中,作为智慧课堂的辅助产品,智聆口语评测能够辅助老师完成口语教学...,帮助孩子学习中文和启蒙英语学习,有效解决了过去只能依赖专业教师听后进行主观评估,成本高、学习时间难以保证的问题。

    21.7K20

    揭秘语音到语音翻译黑科技,来挑战国际口语翻译大赛

    现实中的「巴别鱼」技术 —— 自动语音到语音翻译是指让机器自动完成从一种语言的语音信号到另一种语言的语音信号的翻译过程,比如下面展示的英语到中文翻译的 demo: 原始英文音频:(a great sense...目标中文音频:(一种伟大的惊奇感、自发性、想象力和创造力。)...目标法语音频:(A-t-il acheté ou emprunté le livre) 风格一致: 原始中文音频:(师父,我这就去和他比个高低!)...另外端到端翻译能够用于没有书写体系的语言的翻译,比如一些中文方言等。 目前,对于端到端语音到语音翻译的研究根据使用的中间声学特征的不同,分为基于连续特征的方法,以及基于离散单元的方法。...对语音到语音翻译的端到端评估也是最近流行的研究主题。评测一般包括两个方面,翻译的质量和合成音频的质量。通常来说,人工评估的方法更加可信。

    2.2K20

    院长专访|讯飞刘聪:AI Lab界的「常青树」是怎样炼成的?

    1998年,还在读博的刘庆峰率领着中科大的团队成功在语音合成评测中夺冠,并被专家组一致认定为初步达到实用化水平。...要知道,当时最先进的语音技术完全被Nuance等国际巨头垄断,而专家的认可就像甘露一般,给团队带来了极大的信心。 于是,一股「中文语音技术要由中国人做到全世界最好」的家国情怀和豪情壮志油然而生。...万万没想到的是,仅仅成立不到一年的团队就一举拿下了2006年Blizzard Challenge语音合成国际评测的第一名。 而由魏思主导的语音评测技术及系统,也首次通过了国家语委的认证。...2010年10月28日,刘聪等人潜心研究了三年的「讯飞语音云平台」在科大讯飞首场大型发布会上正式亮相,而这也意味着世界上第一个中文语音输入法诞生了。...时隔不到2年,科大讯飞在2012年初发布了基于深度神经网络的中文语音识别系统,成为业界首家将深度学习中文语音识别系统正式大规模上线应用的公司。

    76030

    域名空间哪里买好呢?域名可以重复吗?

    自己创业确实是一个非常不错的想法,因为通过创业,可以帮助我们更好的发财致富,也可以帮助我们提高个人成就感。...我们如果要创业的话,首先是要购买一个域名空间的,因为这样可以帮助我们推广我们的产品,能让别人更好地了解我们的网站,但是很多人不知道域名空间哪里买好。那么,域名空间哪里买好呢? 域名空间哪里买好呢?...如果我们想要购买域名空间的话,建议大家去一些排名比较靠前的域名网站进行购买,因为这样我们更容易购买到一些比较不错的域名,而且,排名靠前的网站,无论是安全性,还是口碑,都是具有一定的保障的。...可以去网络上搜索一下域名网站的排行榜,这样可以帮助我们购买到好的域名。 域名可以重复吗?...域名空间哪里买好呢?出售域名空间的网站是非常多的,而且每个网站都有自己独特的优势,所以我们只需要根据自己的实际情况,选择一个合适的域名出售网站进行购买就可以了。

    13.7K30

    阿里双十一购物节背后的技术问题

    一年一度的双十一购物狂欢节又要来临了,你准备好剁手了吗?我每年都要购买好几百,有时候甚至是一千多的东西。...不过以前我还没有考虑过这背后的技术问题,直到最近我做了一个烂项目以及和同事谈论双十一购物效率问题时才思考了一下这个问题。...这样的好处是某一台服务器挂掉了,依然不影响使用,在客户能够正常使用的情况下,我们立即去修复宕机的服务器。 ? 另一个显著的问题就是同一时间海量的数据存储,这也是一大技术难题。...还有一个重大的技术挑战就是双十一的零点秒杀活动,这也是双十一最核心的业务。几乎所有的等待双十一购物的同胞们,在秒杀活动开始的一瞬间,点下购买按钮抢购商品。...毕竟一个不慎,双十一的活动就是一地鸡毛了。在此,小编整理了几个应对策略: 秒杀系统独立部署。为了避免秒杀活动搞垮整个淘宝网站,将秒杀系统单独部署,使用独立的域名独立的服务器,独立的数据库。

    8.5K30

    独角兽捕手朱啸虎首投人工智能,DeepBrain获3500万首轮融资

    创始人之一李传丰表示,目前火热的中国版“Echo“、”Alexa”之争,表面上是抢占物联网时代家庭场景,背后是语音助理之争,深层次是语义技能平台之争,更深层面是下一代交互方式、操作系统及计算平台之争。...核心团队是国内最早一批人机交互领域的创业者,在AI软、硬件产品、开放平台打造以及场景落地工程化方面有丰富的经验:早在2011年底开发了国内首款中文语音助手—智能360(用户量达数千万);2013年初推出国内第一家中文语义开发平台...中国中文信息学会社会媒体处理专委会主办,哈尔滨工业大学、科大讯飞股份有限公司、华为技术有限公司等承办的SMP2017中文人机对话技术评测(ECDT)大赛(被誉为NLP领域的“ImageNet”),覆盖国内主流自然语言处理研究机构...(公司),DeepBrain研发团队荣获“用户意图领域分类”(包括封闭式评测和开放式评测)大类评测企业界第一名,表明DeepBrain在理论探索方面实力也不容小觑。...DeepBrain各位投资人一致看好Alexa 模式,认为现阶段产品体验及场景落地是关键;团队多年来一直专注于以NLP为核心技术的语音交互产品类落地,拥有丰富的AI产品经验,深厚的技术功底,同时对行业具备深刻的洞察和理解

    1.3K60

    AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

    本文将带着大家从原理到实践了解语音识别效果评测的方方面面。语音识别,又称语音转录文本,是将语音识别成文本的技术。...因为英文语句中最小单位是词(Word),而中文最小单位是汉字(Character),因此在中文语音识别任务中,使用字错率(Character Error Rate, CER)来衡量 ASR 识别效果。...两者的计算方式相同,我们通常在中文领域,也会使用 WER 表示该指标。...评测报告示例(dtl)图片图片附:感兴趣的同学可以通过如下官网链接获取 NIST Tools图片二、评测实践网上流行一句话,知道了很多道理,却仍然过不好这一生。知易行难。...图片第一栏,是评测服务选项,这里我们选择【语音识别】,最右侧的下拉框中包含两个语音识别接口:录音文件识别、实时语音识别;由于算法模型针对这两个业务场景,分别做了针对性优化,这里只需选择自己使用的接口即可

    5.3K173

    程序员双十一好物必买推荐:服务器

    前言 一年一度的双十一购物节如期而至,对于程序员来说,这是一个“囤货”的好时机。...大多数人囤的是日常用品,而程序员的“囤货”清单则充满了技术气息:开发工具、硬件设备、学习资源……其中,最具性价比、最实用的必买好物之一,非 服务器 莫属!...下面,就来看看为什么囤服务器是双十一程序员购物清单上的明智选择,以及如何挑选最适合你的服务器方案。 一、为什么程序员要在双十一囤服务器?...这种配置的服务器价格较低,通常百元左右一年,在双十一活动期间能享受较大的折扣。 适用场景:学习 Linux 环境、搭建个人博客、跑小型应用或学习开发框架等。...云厂商通常提供免费的基础安全服务,但对于企业级应用,建议在双十一期间一并购买额外的安全服务,如 DDoS 防护、Web 应用防火墙等。

    27121

    中文世界又多一个评测语言大模型能力的基准CUGE,覆盖17种主流NLP任务

    这样一来,中文社区又多了一个评测语言大模型能力的选择。 清华大学教授、智源研究院自然语言处理(NLP)方向首席科学家孙茂松。 清华大学副教授、智源青年科学家、智源指数建设骨干成员刘知远。...网站地址:http://cuge.baai.ac.cn/#/ 智源指数「新」在哪里 机器学习语言能力需要科学有效的评测体系,评测基准在验证语言模型能力中发挥基础性和指导性作用。...在接受机器之心的采访时,刘知远认为,目前中文社区用于语言能力评测的基准太少,面向中文的自然语言处理缺少一个比较科学、有效且全面的评测基准。...智源指数的出现有助于从学术界的角度更科学有效地构建一个评测体系,进而更好地指引中文预训练模型包括大模型发展的方向。...智源一直秉持开放的态度,希望全国甚至全世界做中文领域的自然语言数据结构,开发好的,新的数据集,支持他们在智源指数平台上发布,提供数据评测的支持。

    1.4K10

    智源发布FlagEval「百模」评测结果,丈量模型生态变局

    机器之心发布 机器之心编辑部 2024 年 12 月 19 日,智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。...多种模态评测综合榜单 覆盖文本、语音、图片、视频理解与生成 语言模型,针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距...语言模型主观评测重点考察模型中文能力,结果显示字节跳动 Doubao-pro-32k-preview、百度 ERNIE 4.0 Turbo 位居第一、第二,OpenAI o1-preview-2024-...语音语言模型,得益于文本大模型的进步,能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距,整体而言,性能好、通用能力强的开源语音语言模型偏少。...专项评测结果显示,阿里巴巴 Qwen2-Audio 位居第一,香港中文大学 & 微软 WavLLM、清华大学 & 字节跳动 Salmon 位列第二、第三,Nvidia Audio-Flamingo,MIT

    9810

    阿里双十一购物节背后的技术问题

    一年一度的双十一购物狂欢节又要来临了,你准备好剁手了吗?我每年都要购买好几百,有时候甚至是一千多的东西。...不过以前我还没有考虑过这背后的技术问题,直到最近我做了一个烂项目以及和同事谈论双十一购物效率问题时才思考了一下这个问题。...这样的好处是某一台服务器挂掉了,依然不影响使用,在客户能够正常使用的情况下,我们立即去修复宕机的服务器。 另一个显著的问题就是同一时间海量的数据存储,这也是一大技术难题。...还有一个重大的技术挑战就是双十一的零点秒杀活动,这也是双十一最核心的业务。几乎所有的等待双十一购物的同胞们,在秒杀活动开始的一瞬间,点下购买按钮抢购商品。...毕竟一个不慎,双十一的活动就是一地鸡毛了。在此,小编整理了几个应对策略: 秒杀系统独立部署。为了避免秒杀活动搞垮整个淘宝网站,将秒杀系统单独部署,使用独立的域名独立的服务器,独立的数据库。

    8.9K30

    阿里双十一购物节背后的技术问题

    一年一度的双十一购物狂欢节又要来临了,你准备好剁手了吗?我每年都要购买好几百,有时候甚至是一千多的东西。...不过以前我还没有考虑过这背后的技术问题,直到最近我做了一个烂项目以及和同事谈论双十一购物效率问题时才思考了一下这个问题。...这样的好处是某一台服务器挂掉了,依然不影响使用,在客户能够正常使用的情况下,我们立即去修复宕机的服务器。 ? 另一个显著的问题就是同一时间海量的数据存储,这也是一大技术难题。...还有一个重大的技术挑战就是双十一的零点秒杀活动,这也是双十一最核心的业务。几乎所有的等待双十一购物的同胞们,在秒杀活动开始的一瞬间,点下购买按钮抢购商品。...毕竟一个不慎,双十一的活动就是一地鸡毛了。在此,小编整理了几个应对策略: 秒杀系统独立部署。为了避免秒杀活动搞垮整个淘宝网站,将秒杀系统单独部署,使用独立的域名独立的服务器,独立的数据库。

    9.4K20
    领券