首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

终端设备实现语音识别:ARM开源了TensorFlow预训练模型

林鳞 编译整理 量子位 出品 | 公众号 QbitAI 关键词识别(Keyword Spotting,KWS)是语音识别领域的一个子领域,在用户智能设备上进行语音交互时起到重要作用。...△ 关键词识别pipeline 近日,ARM和斯坦福大学合作开源了预训练TensorFlow模型和它们的语音关键词识别代码,并将结果发表论文Hello Edge: Keyword Spotting on...论文中,研究人员还展示了不同的神经网络架构,包含DNN、CNN、Basic LSTM、LSTM、GRU、CRNN和DS-CNN,并将这些架构加入到预训练模型中。...,并且资源受限的微控制器运行KWS。...△ 神经网络模型的准确性 研究人员发现,损失精确度的情况下,存储了计算资源受限的微控制器优化这些神经网络架构可行。

1.6K80

2019年度十大Web开发趋势 - 51CTO.COM

渐进式Web应用程序虽然对于用户而言,貌似一个移动应用,但是它实际是各种页面和网站的组合。PWA专注于向所有类型的设备、以及所有的平台用户提供原生的使用体验。...,移动设备的使用频率远超其他类型的设备。...不仅如此,据粗略统计:移动应用的使用不但胜过移动浏览器的使用,而且占据了用户智能设备整体使用时长的70%以上。 包括阿里巴巴、Twitter、维珍美国、福布斯等知名公司都推出了自己的PWA。...为此,企业经常会用到语音识别API、以及语音合成类API。他们既能通过语音识别,来辨识网站访客的声音,进而响应他们的查询;又能通过语音合成脚本,来读取各类文本内容。...其中包括:带有Chrome和WordPress扩展的LambdaTest,以及Screenshot API,它们都能够允许用户编写任何外部脚本的情况下,测试其目标网页。

64630
您找到你想要的搜索结果了吗?
是的
没有找到

Android技术架构演进与未来

Kotlin编译成Java字节码,也可以编译成JavaScript,运行在没有JVM的设备,简洁安全。...移动设备比OpenGL ES有着更出色的表现。...以及框架层中有着语音交互、云端以及智能化等模块,由此笔者揣测未来Fuchsia率先应用在音控等智能设备。...受到驾驶安全的限制,车载场景正好需要将以往的触屏按钮的交互方式,转向语音交互和生物感知,车舱内是天然的语音交互场景,而不再是“安静,你吵到我的TNT”,语音和图像识别、人工智能等技术或许会在车载领域得到更大的发展...最后说一点,App兼容性问题比较严重,据Google实验统计Android Q系统全球Top 1000应用的兼容性达标率4.3%,而中国Top 1000应用的兼容性达标率17.6%,可见国内Android

1.1K30

谷歌手机输入法可以离线语音识别了!模型精度远超经典CTC

该视频识别相同的语音句子时将服务器端语音识别器(左侧面板)与新型移动识别器(右侧面板)进行对比。...早期语音识别系统中,这些组件保持独立优化。 2014 年左右,研究人员开始着重训练单一神经网络,直接将输入的音频波形映射到输出语句。...大部分序列到序列模型通常需要处理整个输入序列(语音识别中即波形)从而生成输出(句子),而 RNN-T 不一样,它连续处理输入样本,生成输出信号,这非常适合语音听写。...因此该技术无法轻易地移动手机上部署,而是需要在线连接才能正常工作。 为了提高语音识别的有用性,谷歌通过直接在设备上部署新模型,来避免通信网络的延迟和固有的不可靠性。...SMLTA 模型最核心的概念是利用 CTC 模型的尖峰对连续音频流做截断,然后每个截断的小语音片段上进行注意力建模。

1.4K30

谷歌手机输入法可以离线语音识别了!模型精度远超经典CTC

该视频识别相同的语音句子时将服务器端语音识别器(左侧面板)与新型移动识别器(右侧面板)进行对比。...早期语音识别系统中,这些组件保持独立优化。 2014 年左右,研究人员开始着重训练单一神经网络,直接将输入的音频波形映射到输出语句。...大部分序列到序列模型通常需要处理整个输入序列(语音识别中即波形)从而生成输出(句子),而 RNN-T 不一样,它连续处理输入样本,生成输出信号,这非常适合语音听写。...因此该技术无法轻易地移动手机上部署,而是需要在线连接才能正常工作。 为了提高语音识别的有用性,谷歌通过直接在设备上部署新模型,来避免通信网络的延迟和固有的不可靠性。...SMLTA 模型最核心的概念是利用 CTC 模型的尖峰对连续音频流做截断,然后每个截断的小语音片段上进行注意力建模。

1.4K30

软件绿色联盟发布原子化服务技术标准

HTML5很少单独工作,大多数HTML5应用程序集成了级联样式表(CSS)和JavaScript,CSS定义了HTML组件浏览器中的呈现方式,JavaScript包括用于处理文本、对象和数组的API。...三、原子化服务(元能力)/AA定义运行要求 运行平台是指支撑原子服务设备正常运行的系统服务。...以微信小程序为例: iOS ,小程序逻辑层的 JavaScript 代码运行在 JavaScript Core 中,视图层是由 iOS的系统WebView 来渲染的 Android ,小程序逻辑层的...使得服务能按需要运行在不同的设备的过程称为多端分发,同时其具备业务连续的特点:为保证用户服务由于使用的设备切换或者用户行为变化而中断,需要提供运行中服务的状态不同设备上流转的能力,以保证提供连续的服务...要求: 依据用户使用的场景和当前可用设备,分发平台能自动将合适的服务分配到恰当的设备; 分发过程具有一致性,相同场景分发的结果相同,不引起用户困扰; 提供设备的感知能力,让服务只运行在可用设备不同的设备分发

63120

多模态人机交互国际研究现状

然而虚拟空间会出现与物理空间匹配的情况,影响用户虚拟空间中达到最佳观察点,降低探索能力。为此,交互式的移动导航可以辅助用户移动到最佳的观察点,甚至同时规避空间感知不一致性带来的生理不适。...本节从基于声场感知的动作识别、基于声源定位的交互技术、基于副语音信息的语音交互增强以及普适设备的音频感知与识别4个方面综述国际基于声场感知的交互技术。...2.4 普适设备的音频感知与识别 近年来,普适音频设备不断普及,产业界对于普适音频设备不断投入,众多研究者致力于研究普适设备的音频感知与识别。...静态的被动力触觉是在混合现实环境中实现触觉交互的一种早期探索,但这些刚性道具形状往往和虚拟道具匹配,或者是道具数量有限,不能满足交互的需求。因此,可变换的被动力触觉便应运而生。...相比于触摸屏,人们自己的皮肤移动手指显得更加灵活,而通过纹身纸的方式使得皮肤表面附属的设备轻而薄,更容易被用户接受。

1.7K20

百度2013年世界大会最值得期待的四件事

PC 搜索帮用户寻找答案,移动搜索则需要帮人们完成任务。除了搜索内容不同外,移动搜索的输入和结果展示,将与语音、摄像和 LBS 等结合起来,充分利用移动设备特征,适合移动场景。...百度二季度财报显示,其移动收入份额已首次超过 10%。外界关心的是百度如何实现的这个目标,百度移动搜索商业化与什么新的探索?10% 的比例如何变得更高?...四、百度技术能力开放 语音识别、视觉搜索或者语义理解 百度在过去的一年时间,语音搜索、视觉搜索、语义理解和深度学习等领域,投入了大量的研发成本。百度还在硅谷成立了深度学习研究院,挖了不少业界的大牛。...以语音识别为例,百度的语音识别和自动合成技术是自主研发,并声称效果已经与国内语音巨头科大讯飞处于统一级别。科大讯飞已经依靠 to B 的语音服务成功上市。...除此以外,微信上有大量的语音消息,但被微信公众账号的开发 API 排除在外。如果微信公众账号们可以通过接口获得用户的语音数据,则需要第三方的语音解析能力。这就是百度、讯飞等云语音识别商的机会。

62760

多模态人机交互国内研究进展

他们提出了一种基于Voronoi的方法来生成行走路径,并且采用重定位和曲率调整的静态图映射方法将虚拟空间的行走路径与物理空间进行映射,由此实现在物理空间中的连续移动,拓展了人们沉浸式环境中的探索空间。...FaceOri利用任意智能设备的扬声器发出频率超出人耳听觉范围的FMCW声音信号,通过使用用户双耳佩戴的主动降噪耳机上的麦克风,利用超声波测距方法,创新头部相对智能设备的头部空间位置与角度的精准连续追踪技术...2.4 普适设备的音频感知与识别国内在智能手机上的音频感知与识别研究较多,典型的如李凡等人(2021a, b)提出的两种驾驶环境下进行音频感知与识别的工作:1)利用智能手机扬声器收集并基于自适应子带谱熵方法和神经网络进行驾驶环境下的呼吸道症状检测技术...05 人机对话交互5.1 语音识别国内与国外针对语音识别的研究整体趋势是趋同的,但是聚焦的技术方面还是存在一定的差异。国内的实验研究也紧跟低延迟语音识别和低资源语音识别两个方向。...5.2 语音情感识别国内语音情感识别的研究早期阶段也集中区分性语音情感特征的提取以及分类器的设计。

1.1K50

【云+社区年度征文】浅谈 TensorFlow.js 在前端的工程化应用

起步 1.1 当机器学习遇上前端 Google 推出 TensorFlow.js 已有多年,JavaScript 也不知不觉成为了世界最好的语言。...本文涉及机器学习的算法和原理,仅从一个前端工程师的角度,从 4 个 demo 浅谈 TensorFlow.js 在前端的应用,包括机器学习的模型如何拿来在前端或者说浏览器中使用、模型的迁移学习以适配业务需求以及...工程应用 — 基于 MobileNet 模型的图像识别 3.1 浏览器中使用预训练模型 MobileNet MobileNet 是由谷歌 2017 年提出的一款专注于移动设备和嵌入式设备的轻量级...工程应用 — 基于 speech-commands 模型的语音识别 4.1 浏览器中使用预训练模型 speech-commands TensorFlow 官方提供了一个语音识别模型 speech-commands...总结 本文通过图像识别语音识别的模型应用与迁移学习共 4 个 demo 浅谈了 TensorFlow 模型在前端的应用,本质讲,4 个 demo 都是分类问题,而现实业务场景下大部分的需求也往往都是分类问题

3.1K40

谷歌手机更新语音识别系统,模型大小仅80M

全神经、基于设备语音识别器,支持Gboard中的语音输入。...发展过程中,识别延迟仍然是攻关难点。 今天,谷歌官方宣布,推出一款端到端、全神经、基于设备语音识别器,支持Gboard中的语音输入。...谷歌最近的论文“移动设备的流媒体端到端语音识别”中,提出了一种使用RNN传感器(RNN-T)技术训练的模型,并且可以在手机上实现。...与大多数seq2seq模型(通常需要处理整个输入序列(我们的例子中是波形)以产生输出(句子))不同,RNN-T可以连续处理输入样本和流输出符号,这种属性对于语音识别尤其友好。...如此大的模型根本无法移动设备运行,因此这种方法需要在连线时才能正常工作。 为了提高语音识别的有效性,我们试图通过直接在设备运行新模型,来避免通信网络的延迟和不可靠性。

1.8K30

百度语音开放,对其他语音玩家有何意味?

今天(10月25日)一早,百度语音技术负责人贾磊新浪微博发出这条消息: 感谢各位语音界的朋友支持我们,开放初期,招呼不周还请多多谅解,2~3周之后,语音识别错误率还会降低1/5,嵌入式连续语音识别...2、开发者群体成百度与传统语音厂商交锋的主战场 然而,百度在打造开放平台,繁荣开发者生态却一直颇为强势,且舍得投入。百度开放平台已经面向开发者提供了大量API接口,以扶持和吸引开发者。...此前Google推出Google Now语音助手超越先行者Siri,就是因为其搜索技术和数据的优势。...3、百度正从纯技术公司转向“技术+产品+服务”综合体 笔者曾与百度技术副总监余凯博士交流过,正因为多媒体技术移动时代的重要性,语音、图像识别等多媒体技术均由多媒体部自主研发,并交由移动·云、百度音乐等业务部门完成技术成果转化...移动互联网、家庭互联网和可穿戴设备的兴起,让语音交互也成为消费型科技产品的标配。百度语音开放可以成为推动这一市场蓬勃兴起的催化剂。

88360

资源 | 一文盘点10大移动端机器学习框架

借助来自第三方开发者的数百个附件、插件和模块,TensorFlow 几乎可以完成所有的 ML 任务,诸如产品推荐、语音识别、人脸识别和物体识别等。...AML 不仅具备训练神经网络的一系列常用功能,还可以 AWS cloud 实现部署,并具备连接 Alexa 或其他亚马逊服务的完整 API。该社区同样实例和附件方面做出了大量贡献。...MLlib 可以 Hadoop 或 Apache Spark 轻松设置,它能做的内容不仅仅是与 API 进行通信,可用于图像分类、线性回归、决策树等等。...移动端机器学习框架 谷歌 TensorFlow Lite 目前最完整的免费移动端解决方案就是 TensorFlow Lite,它最初适用于安卓机,不过一些人也 iOS 设备实现了该框架。...对于为计算机构建的大型框架,Quantized-CNN 只准确率稍有降低,为移动设备完全运行图像分类提供了轻量级的解决方案。

83940

腾讯云语音识别iOS SDK引入介绍

腾讯云的众多产品都提供了iOS SDK供开发者使用,如何成功调用接口是很多开发者初次使用腾讯云服务的时候都会面临的问题,以下,我们以调用腾讯云语音识别产品为例,从零开始学习如何开发开发一个一句话语音识别的...腾讯云语音识别服务开放实时语音识别、一句话识别和录音文件识别三种服务形式,满足不同类型开发者需求。...1.1 实时语音识别 对实时音频流进行识别,可应用于语音输入、语音机器人等实时音频流场景 1.2 一句话识别 对60秒之内的短音频文件进行识别,可应用于语音消息转写等场景 1.3 录音文件识别 对一小时之内的录音文件进行识别...2.4 iOS隐私机制 乔布斯曾多次公开场合说过:”iOS将用于个人移动设备,它足够安全和稳定,可使用户隐私得以保护。”iOS系统 有无数创新之处,但乔布斯为何特别强调用户隐私?...数据隐私遭到破坏,越狱后的iOS设备,将失去一切隐私安全保护,这些信息将很容易被获取到,使用户变成“透明人”,这个最为致命,因此建议大家越狱,而且随着安卓系统的影响力逐渐增加,越狱的用户也逐渐减少了

7.1K30

前端开发悄然影响物联网世界

如果我们想要避免早期的移动和 PC 桌面战争的历史重演,我们就需要确保在这些新设备下,网页仍然能够像使用其他常用设备那样可访问和可用。...一个简单的 Web 浏览器出现在一个强大的智能手表的那一天不会太遥远。 语音私人助理 ?...这一规范将是确保相对低功率的设备和慢速连接设备,以及非常小的分辨率无法显示大图的设备平滑运行网页的关键。...依赖 JavaScript 很危险 一些低功率设备和个人辅助设备将读取网页内容,但它们可能不需要运行 JavaScirpt 或者不能像智能手机和平板电脑那样处理 JavaScript。...如果你的网站依赖 JavaScript 来拉取数据又没有任何向后兼容,较新的 IoT 设备很可能不能访问你的网站。确保网页没有 JavaScript 的时候能工作依然是一件值得做的事情!

1.3K10

语音识别揭秘,它与人工智能是什么关系?

从我们的电话,计算机,手表甚至冰箱,生活中的每一个新的语音交互设备都会加深我们对人工智能(AI)和机器学习的依赖。从语音识别来看,真正的人工智能距离我们还有多远? 简单了解语音识别 ?...大规模的语音识别研究始于70年代,并在单个词的识别方面取得了实质性的进展。上世纪80年代以后,语音识别研究的重点逐渐转向更通用的大词汇量、非特定人的连续语音识别。...90年代以来,语音识别的研究一直没有太大进步。但是,语音识别技术的应用及产品化方面取得了较大的进展。 ?...今天,语音识别移动端和音箱的应用上最为火热,语音聊天机器人、语音助手等软件层出穷。许多人初次接触语音识别可能归功于苹果手机的语音助手Siri。...语音识别技术面临的挑战众多,但范围正在缩小。 ? 其中包括克服不良的录音设备,背景噪音,难以理解的口音和方言,以及人们各种声音的变化。教机器学习人类读口语的能力尚未达到完美。

2.4K10

TensorFlow.js:零基础小程序实现机器学习

这款小程序不仅可以了解中药的性状功效,还可以识别137种中药饮片类型,测量大小等。不仅可以让学习中医药的学生随时随地了解中医知识,熟识切片性状,更能让普通民众拥有身边的移动中医药“专家”。...通过40余万张各类民族艺术图片使用 TensorFlow 进行训练,利用风格迁移模型能很好提取出各民族艺术的特征,同时处理图片耗时仅为0.01至0.06秒,为用户带来了效果良好、响应迅速的民族风格迁移体验...微信小程序的原生环境为 JavaScript,并具备简洁的移动设备传感器 API (例如摄像头、麦克风、加速度计、陀螺仪、GPS等)。但是,平台内置的机器学习功能有限。...微信小程序也因此具备了高效的机器学习模型执行能力,与移动浏览器中运行的 JavaScript 应用程序一致。...语音Speech Commands识别语音短命令,基于 Speech commands dataset。

2.3K51

教程 | 教Alexa看懂手语,不说话也能控制语音助手

我自己能听、能说,周围也没有聋哑人,而且我也没有语音助手。也许是因为无数语音助理方面的文章突然出现,也许是因为各大公司争相让你选择它们的语音助手产品,或许只是因为经常在朋友的桌上看到这些设备。...文本到语音系统,向 Alexa 说出理解到的手势 3. 语音到文本系统,为用户转录 Alexa 的响应 4. 运行此系统的设备(笔记本电脑/平板电脑)和与之交互的 Echo 5....该模型 1000 个 ImageNet 类上进行了训练,但经过优化,可在浏览器和移动应用程序中运行。 ?...我可以没有编写任何代码的情况下使用这些演示原型。通过简单地浏览器中运行原始示例,我开始早期原型设计,对我打算使用的手势进行训练,并查看系统如何执行 - 即使输出意味着「吃豆人」屏幕移动。...一旦整个手势短语完成,我再次使用网络语音 API 来转录 Echo 的响应,该响应用于回复查询而不知道它来自另一台机器。转录的响应显示屏幕的右侧,供用户阅读。 7.

2.4K20

12 月份新增开源项目:手机都可以变个人监控系统了?

摘要: 看看开源中国社区 12 月份有哪些值得关注的新增项目:有将手机变成个人监控系统的 Haven,有中文语音对话机器人项目 dingdang-robot,有深度学习的人脸识别系统 DFace,还有中文处理工具包等等...不仅如此,我们的个人隐私,或者重要的资料,还有银行卡等各种信息都存储在这部设备。 一旦手机丢失或者资料泄露,都会造成不小的损失。...Haven 会利用设备的传感器来提供对物理空间的监视和保护。 它的强大之处在于,当安装在 Android 手机上时,Haven 应用程序会激活设备的不同传感器。...现有一个人工智能项目——dingdang-robot——它是一款可以工作 Raspberry Pi 的中文语音对话机器人/智能音箱项目。...我们知道,英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式的分界符,虽然英文也同样存在短语的划分问题,不过词这一层,中文比之英文要复杂得多

1.5K50
领券