【新智元导读】巨头都在争相开源,那么彼此之间会不会形成竞争?近日,火狐浏览器的所有者 Mozilla 开源了一个语音数据库,与谷歌所做的数据库高度类似。这篇文章比较了两家公司数据库的构成要素和数据搜集方法。文章认为,那些免费的音频资源更实用,甚至比那些大公司秘而不宣的数据集更有价值。 一个语音虚拟助理,比如Siri、Alexa、Cortana或者Google Home的表现,很大程度上是由驱动其的数据决定的。要训练这些程序来理解你正在说什么,首先要拥有大量关于人类对话的现实案例数据。 这让现有的语音识别公司
在新推出的Comprehend服务之后,亚马逊今天宣布其自动语音识别(ASR)服务Amazon Transcribe获得对实时转录的支持。
法国初创企业Snips利用车载嵌入式语音助手展示其新技术——语音助手软件开发套件(software developer kit,SDK)。 Snips的SDK与亚马逊Alexa与谷歌助手(Google
【新智元导读】《经济学人》1月5日发表万字长文,回顾了机器语言技术长达60多年的发展历程,全文分为五个部分:人机对话、语音识别、机器翻译、语义理解和未来展望。文章重点描述了机器语言技术的现状,特别是深度学习带来的进步,比如神经机器翻译系统。作者说道,基于神经翻译系统训练使用的数据集不像基于短语的系统使用的那样大,这给了较小的公司与Google这样的巨头竞争的机会。展望未来,作者说,言语是最典型的人类特征之一,所以很难想象机器可以像人类一样真正地交谈,却不具备超级智能。二者应该是同时出现的。 语言:发出声音
首先需要安装 speech 库,直接pip install speech就好了。 speech.input() 这一行代码就可以实现语音识别,第一次使用需要配置一下。
3 月 1 日,由 Mozilla 基金会发起的 Common Voice 项目,发布新版语音识别数据集,包括来自 42000 名贡献者,超过 1400 小时的语音样本数据,涵盖包括英语、法语、德语、荷兰语、汉语在内的 18 种语言。
选自svds 作者:Cindi Thompson 机器之心编译 参与:李泽南、Smith 目前开源世界里存在多种不同的语音识别工具包,它们为开发者构建应用提供了很大帮助。这些工具各有哪些优劣?数据科学
蝙蝠使用生物声呐,为夜晚在丛林中飞行导航。他们的超声波脉冲,可以比人造声呐装置更精确地对声音进行定位。为复制、驾驭这种能力,IBM 学院奖获得者 Rolf Müller 教授协同他在弗吉尼亚理工学院(Virginia Tech)的团队,设计了一种人造蝙蝠耳。 Rolf Müller 的研究引起了 IBM 的注意。IBM 专家韩金萍(音译)的神经计算团队,和 IBM Watson 语音专家崔晓东(音译)和他的同事, 看到了 Müller 教授人造“动态外耳”(dynamic peripheral,蝙蝠可转
随着全球互联互通日益频繁,几乎人人都渴望着实时翻译这一“逆天”技术能早日变成现实,伴随这一代代科学家们不懈的努力,科幻正一步步照进现实。
在本文中,我们提供了一个用于训练语音识别的RNN的简短教程,其中包含了GitHub项目链接。 作者:Matthew Rubashkin、Matt Mollison 硅谷数据科学公司 在SVDS的深度
内容概览:当语音识别遇上方言,会是一个很棘手的问题。而如果对垒双方,变成了战斗机的语言控制,和带有印度方言的英语发音,这个问题又会怎么样?近日,现实中就上演了这样的一幕。
羿阁 发自 凹非寺 量子位 | 公众号 QbitAI 逼近人类水平的语音识别系统来了? 没错,OpenAI新开源了一个名为「Whisper」的新语音识别系统,据称在英文语音识别方面拥有接近人类水平的鲁棒性和准确性! 不仅如此,对于不同口音、专业术语的识别效果也是杠杠的! 一经发布就在推特上收获4800+点赞,1000+转发。 网友们纷纷对它意料之外的强大功能表示惊讶。 不仅是英文,有人用法国诗人波德莱尔的《恶之花》进行了语音测试,得到的文本几乎与原文一致。 OpenAI联合创始人&首席科学家Ilya S
作者 | 黄楠 编辑 | 陈彩娴 9月21日,OpenAI 发布了一个名为「Whisper 」的神经网络,声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。 「Whisper 」式一个自动语音识别(ASR)系统,研究团队通过使用从网络上收集的68万个小时多语音和多任务监督数据,来对其进行训练。 训练过程中研究团队发现,使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。 此前有不同研究表明,虽然无监督预训练可以显著提高音频编码器的质量,但由于缺乏同等高质量的预训练解码器,以及特定于
---- 新智元报道 编辑:David 好困 【新智元导读】大热天的,别整天抱着单词本不放了,找个新朋友陪读陪聊陪作业,它不香么? 大家先来猜猜,这个「赛马场巨头」是什么? 没错,是「The Lord of the Rings」指环王。 显然,「赛马场巨头」主要是错误地理解了「Ring」的含义。其实,稍有常识的人都知道,Ring是指拳击台,所以「正确」的译名是:拳皇。(开个玩笑) 不过讲道理,你不太能苛求一个上世纪90年代的翻译。 但是在互联网发达的现在……烧烤「丈夫」就不太合适了吧。 以及,
自然语言处理领域正在从统计方法转变为神经网络方法。 自然语言中仍有许多具有挑战性的问题需要解决。然而,深度学习方法在一些特定的语言问题上取得了最新的成果。这不仅仅是深度学习模型在基准问题上的表现,基准问题也是最有趣的;事实上,一个单一的模型可以学习词义和执行语言任务,从而消除了对专业手工制作方法渠道的需要。 在这篇文章中,你会发现7个有趣的自然语言处理任务,也会了解深度学习方法取得的一些进展。 文本分类 语言建模 语音识别 字幕生成 机器翻译 文档摘要 问答(Q&A) 我试图专注于你可能感兴趣的各种类型的终
AI 科技评论按:上一次你和你的电脑进行有意义的对话,并感受到它能真正地理解你,是什么时候?如果微软技术研究员、微软的语言语音小组组长黄学东博士做到了的话,那么你也将可以做到。并且,如果他以往的研究真的达到了他所说的水平的话,这一天的到来可能要比你想的还要快。
现在智能助手和支持语音的扬声器比以往更受欢迎。据Voicebot称,约有4730万美国成年人使用智能音箱,超过一半的智能手机用户(52%)表示他们在移动设备上使用语音助手。但普及并不一定转化为准确性。但从人群中隔离语音时,它们往往效果很差。
内容概述:方言是语音识别技术发展中必须要迈过去的坎儿,那么如何让模型能够听懂和理解方言呢?使用优质的数据集是一种的方法,本文将介绍一个经典的方言录音数据集 TIMIT。
已经在语音和语言技术领域耕耘了30年,取得多个突破性进展的微软全球技术院士 (Technical Fellow)、首席语音科学家黄学东先生如此说道。
在2019新品发布会上,这家成立20年的AI公司,一口气发布5款硬件,并对其核心的语音操作系统进行了升级。
鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 一个成立不到两年的团队,两个初入职场的新人,杀入顶会挑战赛能拿下怎样的成绩? 时限是,10天。 近日,全球语音顶会INTERSPEECH 2020「口音英语语音识别挑战赛」结果公布,一支名叫「大耳朵图图喵喵喵」的团队摘下了两大赛道的第二名和第三名。 参赛选手是这位: △大耳朵图图本喵 啊不,其实来自他们当中。 说起网易有道与AI语音技术相关的产品,大家或许都不陌生,比如丁磊多次安利、上市都带着的有道词典笔…… 相比在市场上取得的认可,许多人
如今计算机领域可以说是发展得越来越好,而且也让我们的生活变得越来越方便快捷。比如在出国旅游的时候,我们已经可以通过一些软件应用来进行英文的扫描翻译,并且也可以实时进行语音翻译,即便是不会说英语的人也可以在国外轻松和他人交流。而如今纸质化的文件和电子化的文件也能够轻松实现转化,通过ocr文字识别软件即可以转换,那么ocr文字识别软件是什么呢?
AI 无处不在的时代,每天都有新的技术与研究成果出现。无论学术界还是商界,技术还是产品,AI 的新发现都源源不断,在带给我们全新视角的同时,也引起我们更深的思考。
语言交流是人类互动一种自然的方式,随着语音技术的发展,我们可以与设备以及未来的虚拟世界进行互动,由此虚拟体验将于我们的现实世界融为一体。
不知道大家是否还记得年初火爆全网的反黑大剧《狂飙》中,最后几集因为导演删改剧情,演员嘴型和台词完全对不上的事吗?
内容概要:Apple 在 WWDC 2020 上发布了一款全新的 APP--Translate,官方表示该 APP 会成为最好用的翻译软件,试用后我们发现,Translate 的进步空间还很大。
你知道 Python 是被称为 全能编程语言 的吗?是的,它确实是,虽然不应该在每个项目中都使用它。你可以使用它来创建桌面应用程序、游戏、移动应用程序、网站和系统软件。它甚至是最适合用于实现 人工智能 和 机器学习 算法的语言。因此,在过去的几周里,我为 Python 开发人员收集了一些独特的项目构想。这些项目构想很有可能会让你对这门神奇的语言产生兴趣。最棒的是,你可以通过这些有趣但也具有挑战性的项目来增强你的 Python 编程技能。让我们来一一看下。
Common Voice项目旨在创建开源语音识别数据集,Mozilla宣布它正在扩大此众包项目,以加入更多语言。
为了抗击新冠肺炎病毒疫情,腾讯云AI即日起免费为战疫开发者提供人脸识别、文字识别、语音识别、语音合成、机器翻译、腾讯智能对话平台TBP等服务,直至疫情结束。所有为政府部门、医疗机构等开发疫情服务,以及提供远程办公、教学等服务的开发者和服务商,都可以免费或以一定优惠额度享受服务。
作者 | 李梅 编辑 | 陈彩娴 机器翻译是现今人类消除语言障碍、重建巴别塔的新工具。然而,在世界现存的 7000 多种已知语言中,许多低资源语言还未得到足够的关注,尤其是有近一半的语言没有标准的书面系统,这是构建机器翻译工具的一大障碍,所以目前 AI 翻译主要集中在书面语言上。 在利用 AI 推动自然语言翻译这件事上,Meta 一直致力于“No Language Left Behind”(没有一种语言被落下)的目标。 比如汉语方言之一闽南话,现在也有了专属的机器翻译系统,讲闽南话的人可以与讲英语的人进行无
这些项目包括 JavaScript 算法示例、系统编程语言 Rust、高性能的自动语音识别推理项目 Whisper.cpp 以及键盘工作者的单词记忆与英语肌肉记忆锻炼软件 Qwerty Learner。
选自Awni 机器之心编译 参与:Nurhachu Null、路雪 深度学习应用到语音识别领域之后,词错率有了显著降低。但是语音识别并未达到人类水平,仍然存在多个亟待解决的问题。本文从口音、噪声、多说话人、语境、部署等多个方面介绍了语音识别中尚未解决的问题。 深度学习被应用在语音识别领域之后,词错率有了显著地降低。然而,尽管你已经读到了很多这类的论文,但是我们仍然没有实现人类水平的语音识别。语音识别器有很多失效的模式。认识到这些问题并且采取措施去解决它们则是语音识别能够取得进步的关键。这是把自动语音识别(
没有什么东西比不懂你口音的语音识别系统更令人沮丧。发音的语言差异使数据科学家多年来一直困扰,训练模型需要大量数据,而某些方言不像其他方言那么常见。
朋友们,今天鹅老师要给大家上一堂英语课。now,我们先用一组chinglish热身一下,请跟我read: Give you some color see see (给你点儿颜色瞧瞧) You look whatlook you so what ! (你瞅啥瞅你咋地!) Where cold where stay (哪儿凉快哪儿呆着去) 在学英语的过程中,Chinglish(中式英语)总是让人哭笑不得,不地道的英语发音更让人头痛。 但每一个英语口语渣渣的你,总有许多理由: 小时候说不好英语,是因为
本文报告主要分享AI技术对语言教育引起的改变,着重介绍针对现今语言教育中存在的问题,进行自动化测评、自适应学习、场景智能对话等相关AI技术的研究与应用。
对程序员来说,“渣英语”可是限制自己更上一层楼的重要阻碍。不仅阅读最新英文研究与教程困难,去国际顶会与别人开口交流也成了问题。
你或许会说,语音识别和机器翻译——没错,传统的语音翻译通常采用语音识别和机器翻译级联的方式实现,对输入语音先进行语音识别得到文本结果,然后再基于文本进行机器翻译,这也是当前语音翻译采用的主流方法。
预先设置好两种语言,比如中文日文。然后你说中文,谷歌助手就用中文答你,她说日语,谷歌助手就用日语回她。
“没想到我的中文语音测评分数竟然还没有英文高,看来我要好好练习一下自己的普通话发音了。” 1月9日,在腾讯2019微信公开课PRO展区,智聆口语评测体验现场受到参会者的“团宠”,黄色的屏幕前围满了跃跃欲试的参会者,都想测试下自己的中英文发音水平。“这是我第一次体验AI口语评测。之前觉得只有参加那种专业口语测评考试才有机会体验到,现在通过微信小程序就很简单的完成了。而且,单词、句子、段落、自由说、情景对话等评测模式一应俱全,还有不同维度的打分,对英语口语训练挺有帮助。”来自深圳的孙小姐在微信小程序上
Facebook AI(bushi),更准确地说是Meta AI,刚刚发布了自监督语音处理模型XLS-R,共支持128种语言。
我们整理了GTC2022精彩讲座预告,欢迎大家报名参加 01 在云中大规模构建大型语言模型 [A41328] Oracle 云基础设施 (OCI) 专为高性能工作负载(包括自然语言处理)而设计和构建。甲骨文云已经展示了使用 NeMo-Megatron 将几个节点上的 BERT 等工作负载扩展到 GPT-3 等大型语言模型 (LLM),跨越数百到数千个节点。了解将 OCI 用于 LLM 的注意事项、方法、挑战和真实客户洞察。 时间:Thursday, Sep 223:00 AM - 3:25 AM CST
时下互联网教育可以说是炙手可热,越来越多家长和孩子可以享受到因为科技的发展而带来的诸多便利。往日,家长拖着孩子往返于各种培训班、兴趣班,消耗了精力,浪费了大把时间。而现在,在线教育的发展能够让娃足不出户便可学习更多丰富有料的课程。 📷 与传统培训班教学不同的是,在线教学能够在“价格”、“效率”、“便利”上有着看得见的效果。比如: 价格优势:线下的价格是线上的三倍以上,在同样的效果下,家长为什么不选择更便宜的? 省时间:传统面授环境下,学生和教师需要到指定地点上课,上2小时的辅导课,但是学生、老师和家长都需要
本文“Face-To-Face Translation”是指的要建立这么一个系统:它能够自动地将说a语言的人的视频翻译成目标语言B,并实现唇同步。简单来说就是:视频中有一个人说话,将这个人说的英语实时的翻译成中文并且将说英语的嘴型也通过图像的方法翻译成中文的嘴型。
Whisper 是由 OpenAI 开发的一种高效的语音识别(ASR)技术,旨在将人类的语音转换成文本。
【导读】亚马逊的 Alexa 的巨大成功已经证明:在不远的将来,实现一定程度上的语音支持将成为日常科技的基本要求。整合了语音识别的 Python 程序提供了其他技术无法比拟的交互性和可访问性。最重要的是,在 Python 程序中实现语音识别非常简单。阅读本指南,你就将会了解。你将学到:
整合了语音识别的 Python 程序提供了其他技术无法比拟的交互性和可访问性。最重要的是,在 Python 程序中实现语音识别非常简单。阅读本指南,你就将会了解。你将学到:
译者 | 廉洁 编辑 | 明明 【AI科技大本营导读】亚马逊的 Alexa 的巨大成功已经证明:在不远的将来,实现一定程度上的语音支持将成为日常科技的基本要求。整合了语音识别的 Python 程序提供了其他技术无法比拟的交互性和可访问性。最重要的是,在 Python 程序中实现语音识别非常简单。阅读本指南,你就将会了解。你将学到: •语音识别的工作原理; •PyPI 支持哪些软件包; •如何安装和使用 SpeechRecognition 软件包——一个功能全面且易于使用的 Python 语音识别库。
译者 | 廉洁 编辑 | 明明 出品 | AI科技大本营(公众号ID:rgznai100) 【AI科技大本营导读】亚马逊的 Alexa 的巨大成功已经证明:在不远的将来,实现一定程度上的语音支持将成为日常科技的基本要求。整合了语音识别的 Python 程序提供了其他技术无法比拟的交互性和可访问性。最重要的是,在 Python 程序中实现语音识别非常简单。通过本指南,你将学到: 语音识别的工作原理; PyPI 支持哪些软件包; 如何安装和使用 SpeechRecognition 软件包——一个功能全面且易于
领取专属 10元无门槛券
手把手带您无忧上云