首页
学习
活动
专区
工具
TVP
发布

机器之心

专栏作者
8994
文章
6365049
阅读量
278
订阅数
小米新一代Kaldi团队论文解读:新型自动语音识别 (ASR) 模型Zipformer诞生之路|ICLR 2024 Oral
新一代 Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米集团首席语音科学家 Daniel Povey 领衔的团队,专注于开源语音基础引擎研发,从神经网络声学编码器、损失函数、优化器和解码器等各方面重构语音技术链路,旨在提高智能语音任务的准确率和效率。
机器之心
2024-01-29
4570
两天star量破千:OpenAI的Whisper被蒸馏后,语音识别数倍加速
前段时间,「霉霉大秀中文」的视频在各个社交媒体走红,随后又出现了「郭德纲大秀英语」等类似视频。这些视频很多都出自一个名叫「HeyGen」的 AI 应用之手。
机器之心
2023-11-07
6560
Meta用《圣经》训练超多语言模型:识别1107种、辨认4017种语言
机器之心报道 编辑:Panda 在《圣经》中有一个巴别塔的故事,说是人类联合起来计划兴建一座高塔,希望能通往天堂,但神扰乱了人类的语言,计划也就因此失败。到了今天,AI 技术有望拆除人类语言之间的藩篱,帮助人类造出文明的巴别塔。 近日,Meta 的一项研究向这个方面迈出了重要一步,他们将新提出的方法称为 Massively Multilingual Speech(超多语言语音 / MMS),其以《圣经》作为训练数据的一部分,得到了以下成果: 在 1107 种语言上用 wave2vec 2.0 训练得到了一个
机器之心
2023-05-31
2810
ChatGPT官方APP上线:速度极快且免费、增加语音识别,网友:真香
机器之心报道 机器之心编辑部 安卓版也马上要来。 很强大,很简洁,而且它太快了。 这就是人们对几小时前 OpenAI 发布的 ChatGPT 官方版 App 的评价: ChatGPT 推出近半年以来,已经从新鲜的事物成为改变整个科技领域的推手。有机构统计认为,早在今年 1 月,ChatGPT 的用户量就已经超过了一亿。 对于这款高智商的 AI,人们的使用方式不一而足,有的人拿来写代码,有的人拿来生成论文,甚至有用 ChatGPT 炒股的。虽然 OpenAI 一直表示 ChatGPT 仍在测试阶段,但也开放
机器之心
2023-05-22
1.6K0
图与代码不一致,Transformer论文被发现错误,网友:早该被指出1000次
机器之心报道 编辑:杜伟、陈萍 论文中的图有时会出现与实现代码不对应的情况,这会让读者头大,不知是有意还是无意为之。这次,没想到大名鼎鼎的 Transformer 论文也「翻车」了。 2017 年,谷歌大脑团队在其论文《Attention Is All You Need》中创造性的提出 Transformer 这一架构,自此这一研究一路开挂,成为当今 NLP 领域最受欢迎的模型之一,被广泛应用于各种语言任务,并取得了许多 SOTA 结果。 不仅如此,在 NLP 领域一路领先的 Transformer,迅速
机器之心
2023-05-09
3320
十年之后,科大讯飞终于「独木成林」
机器之心报道 作者:蛋酱 又是一年 1024 ,对于全球开发者来说相当特殊的一天。 1024 这一天,无论你身处何方,都能感受到浓浓的节日氛围。但说到场面最宏大、参会人数最多、内容最丰富的 1024 活动,还是要来合肥看看这家老牌 AI 企业的玩法。 10 月 23 日上午,2020 科大讯飞全球 1024 开发者节在合肥开幕。作为科大讯飞举办的第四届 1024 开发者节,今天的大会比往年来得都早了一些。 「创业的过程就像是登山,我们只有胸怀登顶的梦想,一步一个脚印,踏踏实实地积累高度,最后才能登顶。而
机器之心
2023-03-29
2950
NLP 发展如何?机器之心 SOTA 模型库、知识库告诉你答案
机器之心发布 机器之心编辑部 机器之心《2020-2021 全球 AI 技术趋势发展报告》节选:顶会趋势(NeurIPS)分析。 2021 年伊始,机器之心发布《2020-2021 全球 AI 技术趋势发展报告》,基于顶会、论文及专利等公共数据、机器之心专业领域数据仓库,通过数据挖掘定位七大趋势性 AI 技术领域。 此外,该报告还邀请了近 100 位专家学者通过问卷调查,形成对这七大技术领域近年发展情况、成熟度与未来趋势的综合总结,并基于 2015-2020 年间的开源论文与专利语料,结合机器之心自有的新闻
机器之心
2023-03-29
4520
百度语音技术重要进展:基于历史信息抽象的流式截断conformer建模SMLTA2
机器之心发布 机器之心编辑部 Transformer 模型用于在线语音识别任务中面临多个难题,百度语音新发布的SMLTA2克服了这些障碍。 10 月 15 至 18 日,2021 年第十六届全国人机语音通讯学术会议(NCMMSC2021)在江苏徐州举行。作为我国人机语音通讯领域研究中最具有权威性的学术会议之一,NCMMSC 受到国内语音领域广大专家、学者和科研工作者的关注。 其中,百度语音团队对外重磅发布基于历史信息抽象的流式截断 conformer 建模技术——SMLTA2,解决了 Transforme
机器之心
2023-03-29
3310
AIGC加持游戏剧情,无限故事的游戏交互体验来了
机器之心发布 机器之心编辑部 游戏公司 Cyber Manufacture Co. 发布了最新的 AIGC 技术预览 Quantum Engine,用户可以用自然语言随意与 NPC 互动,AI 会根据用户的表达,实时生成剧情互动。 在 24 年前上映的《黑客帝国》里,救世主尼奥对抗着一个人工智能程序所控制的世界,人们第一次见识到 AI 技术所带来的震撼。 二十多年前看,这是科幻片。二十多年后看,像不像预告片? 在一些竞技领域,AI 多年前就已达到、甚至超越人类的最高水平。最近一年来,生成式 AI 在绘画、
机器之心
2023-03-29
4960
谷歌Recorder实现说话人自动标注,功能性与iOS语音备忘录再度拉大
机器之心专栏 作者:王泉、张帆 在今年的 Made By Google 大会上,谷歌公布了 Recorder 应用的自动说话人标注功能。该功能将实时地为语音识别的文本加上匿名的说话人标签(例如 “说话人 1” 或“说话人 2”)。这项功能将极大地提升录音文本的可读性与实用性。 谷歌于 2019 年为其 Pixel 手机推出了安卓系统下的录音软件 Recorder,对标 iOS 下的语音备忘录,并支持音频文件的录制、管理和编辑等。在此之后,谷歌陆续为 Recorder 加入了大量基于机器学习的功能,包括语音识
机器之心
2023-03-29
3580
谷歌的野心:通用语音识别大模型已经支持100+语言
选自googleblog 机器之心编译 编辑:小舟、杜伟 谷歌表示,推出通用语音模型(USM)是其未来支持 1000 种语言的关键一步。 去年 11 月,谷歌宣布推出「1000 种语言计划」,旨在构建一个机器学习 (ML) 模型,支持世界上使用最广泛的 1000 种语言,从而为全球数十亿人带来更大的包容性。然而,其中一些语言的使用人数不到两千万,因此核心挑战是如何支持使用人数相对较少或可用数据有限的语言。 现在,谷歌公开了更多有关通用语音模型 (USM) 的信息,这是支持 1000 种语言的第一步。USM
机器之心
2023-03-29
4970
NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、GPT-1…你都掌握了吗?一文总结语音识别必备经典模型(一)
 机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 3 期进行连载,共介绍 17 个在语音识别任务上曾取得 SOTA 的经典模型。 第 1 期:NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、Bi-RN
机器之心
2023-03-29
5660
Attention-lvcsr、Residual LSTM…你都掌握了吗?一文总结语音识别必备经典模型(三)
 机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 3 期进行连载,共介绍 17 个在语音识别任务上曾取得 SOTA 的经典模型。 第 1 期:NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、Bi-RN
机器之心
2023-02-23
5680
EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型(二)
 机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 3 期进行连载,共介绍 17 个在语音识别任务上曾取得 SOTA 的经典模型。 第 1 期:NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、Bi-RN
机器之心
2023-02-23
6500
点外卖等琐事到底能不能靠AI?我们找5款语音助手聊了500句话
曾几何时,人们与手机、汽车交互的方式从选择指令变成了自然对话,这种方式让人们享受了方便,因为技术不断发展,AI 助手能为我们做的事情也越来越多。
机器之心
2022-12-16
5460
2022稳居C位的AIGC,到底有什么用?
如果总结 2022 年十大技术趋势,AIGC(AI-Generated Content)一定能稳站一席。
机器之心
2022-12-16
5740
借助独特2D材料和机器学习,CV像人一样「看见」数百万种颜色
选自news.northeastern 作者:Tanner Stening 机器之心编译 机器之心编辑部 这项技术代表着机器视觉迈出了一大步,并将被广泛应用于自动驾驶汽车、农业分拣和远程卫星成像等更广泛的领域。 人的眼睛可以看见数百万种颜色,现在人工智能也可以。 近日,来自美国东北大学的一个跨学科研究团队使用新的人工智能技术构建了一种可以识别数百万种颜色的新设备 A-Eye,这让机器视觉领域迈出了一大步,将被广泛应用于自动驾驶汽车、农业分拣和远程卫星成像等一系列技术。 研究论文发表在了《Materials
机器之心
2022-10-11
2910
一个项目帮你了解数据集蒸馏Dataset Distillation
机器之心专栏 机器之心编辑部 近期由北海道大学的 Dr. Guang Li,爱丁堡大学的 Dr. Bo Zhao 和 MIT 的 Dr. Tongzhou Wang 共同发起的数据集蒸馏项目总结了数据集蒸馏领域所有优秀论文以及开源代码。 数据集蒸馏研究简介 数据集蒸馏是合成小数据集的任务,以便在其上训练的模型在原始大数据集上实现高性能。数据集蒸馏算法将要蒸馏的大型真实数据集(训练集)作为输入,并输出一个小的合成蒸馏数据集,该数据集通过在单独的真实数据集(验证 / 测试集)上在该蒸馏数据集上训练的测试模型进行
机器之心
2022-10-10
9070
将通信带宽降低至十万分之一,NeurIPS 2022论文提出新一代协作感知方法
机器之心专栏 机器之心编辑部 在这篇 NeurIPS2022 论文中,来自上海交通大学、上海人工智能实验室、南加州大学的研究者提出新一代通信高效的协作感知方法,可将带宽占用降低为十万分之一。 盲人摸象的寓言启示着我们,个体对世界的感知具有不可避免的局限性,有效的协作是打开视野和格局的重要途径。因此,协作感知应运而生:多个集 “感 - 传 - 算” 于一生的智能体分布式地交换关键信息,提升彼此的感知能力,从根本上解决遮挡、远距离等个体难以克服的感知问题。相关技术方法将 AI 和通信技术高度整合,对车路协同,无
机器之心
2022-10-08
4110
量子并不总意味着小尺度,量子物理学家用它探索系外行星生命
选自 phys.org 机器之心编译 作者:Tanner Stening 编辑:rome rome 除了量子计算,量子物理学的应用范畴还很广。近日,美国东北大学物理学教授 Gregory Fiete 探讨了量子研究的广泛应用。 量子物理学家研究的世界与普通人每天生活的世界是同一个,唯一的区别是它被科学家「缩放」到了无法理解的大小。即使对于拥有科学素养的常人来说,量子物理学在很大程度上仍然是一门晦涩难懂的学科。 近日,News@Northeastern 与东北大学物理学教授 Gregory Fiete 探讨了
机器之心
2022-10-08
2040
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档