我用Python做了一个语音助手。当我在同一句话中使用两个不同的语音命令时，我如何才能只执行一个？ - 腾讯云开发者社区

之后我们又和小米合作，在小米控制智能家居的APP米家APP里做了一个可以接通电话，去控制各种智能家居，包括跟它去聊天，使用各种功能的助手，这个是2017年的6月份。...全双工语音和我们现在所熟悉的一些语音助手，不管是手机上的，还是在智能音箱上和其他的智能家居，它有什么样的不同？...我们如果使用它不能很放心地去使用一个设备，我们还需要去记住每说一句话要说一个唤醒词的话，那么它一定无法能真正地走入千万百姓家，它只可能提供到一些科技爱好者，一些原因尝新的人的小范围之内。...我们在全双工的AI实现中同样使用了这样的技术，就是当我听到了这句话，当我自己的预测，觉得我需要较长的时间，我可能需要较长时间才能算出最终回答的语音文件的时候，我先要垫一句“嗯”，或者垫一句“我想想”，然后等什么时候这个语音好了...全双工语音她是仅基于深度学习模型的，不过在小冰的实现中我们用的是GRU，不是LSTM，主要的原因就是GRU算得更快，而且她对系统的成本，我们每回答用户一个问题她的成本会比LSTM更低一点，所以从工程上最终我们选择了使用

5.2K3 0

如何设计一款理解用户需求的智能语音产品

意图是多句表达形式的集合，例如“我要看电影”和“我想看2001年刘德华拍摄的动作电影”都可以属于同一个视频播放的意图。...泛化是指同一个意图有不同表达方式，例如“声音帮我大一点”、“声音大一点”、“声音再大一点点”都属于调节音量的意图，但是表达的差异可能会直接导致槽位的设计失效，从而无法识别出这句话究竟是什么意思。...例如“XXX”为一个通配符，当我为“视频播放”这项意图增加“我想看XXX电影”这项表达后，无论XXX是什么，只要系统命中“看”和“电影”两个关键词，系统都能打开视频应用搜索XXX的电影。...当我们设计一个“我要看XXX”和“我要看XXX电影”两个意图时，很明显前者包含了后者。...（B）写出人们是如何交谈的，而不是如何阅读和写作的。（C）当用户需要提供信息给出相应的指示。（D）不要假设用户知道该做什么。（E）问问题时一次只问一个信息。

1.7K3 0

您找到你想要的搜索结果了吗？

是的

没有找到

8小时12科32道题目，我们给Siri、Alexa、Google Assistant和Cortana安排了一场AI小高考……

不过在确认之后，它做了和Google一样的工作——唯一的不同是，它打开的是Apple地图。相比之下，以蓝牙音箱为载体的Alexa就明显弱多了。...Cortana只是打开了一个写满了帝国大厦信息的小窗口，我需要点击“路线”这个按钮才能得到我想要的信息。最后，Alexa只是提供了一个估算达到时间的app，你需要在那个app中填入信息。...不过鉴于它受制于一个蓝牙小喇叭中，我就对它仁慈点打分了。获胜者： Siri，Google Assistant和Cortana 2. “我有没有新的短信？” 这道题目上，Siri是唯一有点用的助手。...当我说“我想玩玩别的游戏”，它却只能在Bing上搜索有这句话的视频。获胜者： Google Assistant 班主任上线：成绩报告所以，在这场考试中，谁才是最佳考生呢！...情况并不是像Google所炒作的那样，两者的分数差距非常微弱。但是老实说Google助手确实是使用起来最流畅的。我没有像操作其他语音助手那样操作很多次。它也是最能理解情境的语音助手。

1.7K8 0

谷歌助手首席工程师Huffman：5项必须遵守的语音计算规则

“人们多年来一直在问谷歌你可以想象的一切，但是当我们转向声音时，我们注意到了一个真正的根本的转变。人们开始要求我们做事情，而不仅仅是为了得到答案。”...它们还可以帮助人们与本地企业建立联系，包括车载信息娱乐显示和其他具有屏幕和谷歌智能助手访问权限的设备。“我认为，当我们超越设备级别的命令和控制时，我们真正看到的下一个是更多的本地服务，”他说。...同时也展示了当你不需要学习如何使用操作系统时会发生什么，在印度，与2017年相比，谷歌智能助手的使用量今年增加了3倍。...与谷歌搜索相比，使用谷歌智能助手将人们相互关联的多个命令或问题链接在一起的可能性要高出200倍，因为用户对助手可以执行的操作的期望越来越高。...即使只是设置一个警报这样简单的事情，人们每天都会询问如何单独设置警报的不同方式。” 随着时间的推移，Huffman希望谷歌智能助手能够更好地了解与之对话的人。

6084 0

鸟叫就能黑掉AI系统，而且你根本察觉不到

语音识别AI，从鸟鸣中听出了奇怪的命令：要访问邪恶网站evil.net，还要安装后门。指令中的网址和后门当然是凭空胡编的，不过，也直白得足够让人惊出一身冷汗。...用这些原料制造出让人类没有防备，又带偏AI节奏的一石二鸟邪恶音频，并非简单的操作，需要用上深度学习。先骗AI再骗人如何迷惑神经网络？...第二步，用反向传播来改变输入的“我爱学习”声波，从而令语音识别AI把它转写成“放弃治疗”。第三步，便是欺骗人类了。请继续阅读。 ? △ 若字幕组能骗过你的眼睛，耳朵大概也不难骗?...如何躲避人类的疑心？要给语音助手下达隐藏指令，只要生成特定的波形就做得到。但在送信的时候，还要避免被人类发现。...毕竟，要在收音上做文章，不同的麦克风情况会有不同。同音字攻击一种名叫“Voice Squatting”的招数，利用了语音助手的三方应用市场。

7162 0

ChatTTS的爆火是必然，它正在重新定义我们与机器对话的方式

这个项目在GitHub上一夜爆火，引起了广泛的关注和讨论。该模型经过了超过10万小时的中英文数据训练，目前在HuggingFace上开源的版本为经过4万小时训练且未进行后续微调的版本。...特色功能： • 中英文混读：无论是中文还是英文，ChatTTS都能流畅地进行语音合成，且能够在一句话中实现两种语言的自然切换。...那么应该如何使用它来帮助我们生成一个具有情感的音频呢，只需在输入栏输入想要转换成语音的文本，其他参数默认即可（纯中文、纯英文、中英混合都可以）示例：Let's practice writing now...Top_K: 限制模型考虑的可能词汇数量，设置为一个具体数值，模型将只从这最可能的 K 个词中选择下一个词。生成结果文本中，你会发现多出了这样[]的符号，它是表示一些预期、停顿以及笑声之类的控制。...• 智能助手：为智能助手提供更自然的语音交互体验，使用户感觉仿佛在与真人对话。 • 教育领域：为在线课程和教育平台生成高质量的语音内容，提升学习体验。

3691 0

pyc是个什么鬼?

我初学Python时,听到的关于Python的第一句话就是,Python是一门解释型语音,我就这样一直相信下去,知道发现了*.pyc文件的存在.如果是解释型语音,那么生成的*.pyc文件是什么呢?...为了防止其他学习Python的人也被这句话误解,那么我们就在文中来澄清下这个问题,并把一些基础概念给理清. 2.解释型语音和编译型语言计算机是不能够识别高级语言的,所以当我们运行一个高级语言程序的时候...当我们在命令行中输入python hello.py时,其实是激活了Python的"解释器"告诉"解释器":你要开始工作了.可是在"解释"之前,其实执行的第一项工作和Java一样,是编译....熟悉Java的同学可以想一下我们在命令行中如何执行一个Java的程序: javac hello.java java hello 只是我们在用Eclipse之类的IDE时,将这两部给融而成了一部而已.其实...Python也一样,当我们执行python hello.py时,他也一样执行了这么一个过程,所以我们应该这样来描述Python,Python是一门先编译后解释的语言 4.简述Python的运行过程在说这个问题之前

8982 0

微软小冰或许是未来的方向

目前，以苹果 Siri 为代表的语音助手都是基于 Turn-oriented 框架，只有微软小冰是采用的 Session-oriented 框架。如何理解这两个框架？...边听边想：通过预测模型，小冰不会再等到一句话说完，再进行语音识别，然后再处理如何回复，而是没有、听到一个字，就会提前预测用户的完整意思，提前开始“思考”回应；此外，小冰还会根据预估的思考时间、复杂任务的完成时间...通过预测模型，我们可以让回答更加迅速，而且会有不一样的互动，因为在全双工中，不再拘泥于我要回消息，系统就可以使用更好的策略，让对话变得更加流畅。节奏控制器：在全双工的对话中，节奏就会变得非常的重要。...用户每一句话的重要性并不一样，因此需要采取不同的策略，与自己协调，与人类协调，甚至与其他语音助手协调，来判断是继续倾听，还是回复，甚至抛出新话题等等。...自然语言理解与生成模型：与微信小冰用的检索模型不同，全双工版的小冰用的是生成模型，通俗的解释就是，后者的每一句话都是自创的。

9848 0

自然语言控制机械臂：ChatGPT与机器人技术的融合创新（下）

引言在我们的上一篇文章中，我们探索了如何将ChatGPT集成到myCobot 280机械臂中，实现了一个通过自然语言控制机械臂的系统。...尽管使用了Google的Speech-to-text，但在实际应用中，我发现它有时难以准确识别专业术语或在嘈杂环境中捕捉语音指令。...可能是因为不太理解底层逻辑运行的一个原理是什么，也不知道如何来正确的使用。此外，从语音输入到文本输出的过程延迟较长，如何来判断这句话是不是说完了，通常响应的时间较久。...在一开始测试代码的时候我用的是WEB版本的ChatGPT，一开始没有考虑到使用API是一个比较大的问题。..."robot.move_to_zero()" 要将字符串转化成执行的代码可以用到python的getattr()，他是一个内置函数，用于获取对象的属性值。

2091 1

AIGC: 2 语音转换新纪元-Whisper技术在全球客服领域的创新运用

3 多任务训练"tokens in multitask training format" 在使用像 Whisper 这样的模型时，引用的是如何在训练阶段以一种格式化的方式组织和表示数据，使得模型能同时学习多个任务...如何利用 Tokens 进行多任务训练在多任务训练中，一个关键的挑战是如何在模型内部表示不同的任务，以及如何向模型指示当前的输入数据对应于哪个特定任务。...以下是你需要按照顺序执行的步骤，以确保Whisper能够正确安装在你的系统上。安装环境准备确认Python版本：确保你的系统中安装了 Python 3.9.9。...命令行使用假设我是一名开发人员，基于Whisper的官方文档，以下是如何使用命令行来操作Whisper模型进行语音转录和翻译的概括：语音转录选择模型：可以通过--model参数来指定使用哪个预训练模型。...作为开发人员，可以根据实际需要选择合适的模型、指定语言，甚至执行翻译任务，以适应不同的应用场景和需求。此外，通过查阅帮助文档可以更加深入地了解不同的命令行选项，从而充分利用Whisper模型的功能。

1511 0

【BDTC 2015】深度学习分论坛：DL的图像识别、语音识别应用进展

他通过分析GPU多机多卡Machine Learning Middleware、基于DBLSTM的语音识别声学模型、基于DLSTM的问题定位质检、我的客服“因子+行为”自动问题识别对机器学习在语音方面的应用做了进一步分享...如果原始特征空间并不完美，一个想法是在原始空间里构造Graph，用Graph Hashing表示两个点的相似性，把Graph Hashing引到一起。...场景文字的核心问题还是表述，如何场景里表述文字，表述不是如何进行检测，包括识别都是要进行表述。一个核心的想法是在检测的过程中能不能提高识别，同时识别模型能不能帮你提升检测精度，需要列在一个框架下。...命令式编程提供的接口类似Numpy，不同之处是多CPU支持和并行执行。符号借口类似于函数。MXNet将这两种接口结合了起来，这两种接口都可以使用。...第二个重点，是系统里所谓的运行时的依赖引擎，运行式依赖是什么，这是编辑里的概念。比如你要算B=A+1，C=A×2，这里有一个依赖，你必须等到A有值，B、C才能执行。

8549 0

专访 | 语音助手的涅槃关头，我们应该完全抛弃屏幕还是选择“语音+图形界面”？

传统语音助手除了能够执行系统级别的功能，比如设置闹钟、打电话等，功能十分有限，更像是一个“搜索引擎”；“小不点”则抛弃了业界流行的单独的语音对话界面，转而帮助用户用语音来更便捷地操作手机里的各种APP，...原因有以下几点：如果使用第三方的语音识别的话，首先需要将音频传过去，然而传回来的一般就只有一句话。但是实际上在这句话有很多的可能性，而第三方只会在众多可能性里挑选一个它认为最好的传回来。...不过，目前小不点只支持普通话，并不支持方言。除了不断地投喂数据，训练语音识别的算法模型之外，还有哪些方法可以提高语音识别的正确率，降低用户在使用过程中的挫败感呢？林德康举了一个例子。...比如“摩拜单车”的“摩拜”两个字在通用语料库里可能并不是排名最高的，但是对于小不点的用户来说，可能大部分时候指的就是“摩拜”，因此在优化时，他们会将这点考虑进去，来提高用户的使用体验。...比如当你说“我想去成都”，那么我们可能就会给你用携程等软件搜寻火车票或者机票，如果你说“我想去积水潭医院”，那么我们可能就会用打车软件给你预订车辆。

1K7 0

人机对话的浪潮：语音助手、聊天机器人、机器伴侣

小冰与语音助手有什么不同？ 1....于是，用户的期望值大幅度降低了。 2. 放弃语音的使用，直接用文字进行沟通。...对比一下，大家可以看到，小冰的两个特点恰好规避了语音助手的两个弱项，但功能模式的变化只是一方面，更重要的是技术在进步，大数据、深度学习被充分地运用到聊天机器人的系统当中，技术水平已非三年前可比。...以快速结束人机对话为目标（语音助手主要采用这种模式）这又包括两种，一种是命令执行，一种是信息查询。...所谓命令执行是指用户发出的一个祈使句，要求机器做一件事儿，可能是在虚拟世界中对数据库的操作，比如预定机票、酒店等，也可能是在现实世界中要求机器人鞠个躬，走两步。

1.9K8 0

人工智能推动人机交互创新，三星Bixby带来了哪些不一样的体验？| 测评

三星Bixby怎么用，有哪些功能？相比于市场上现有的语音助手，三星Bixby语音功能到底有着怎样的特点和优势，它又是从哪些地方革新了人机交互体验？在我们随后进行的产品测试中，将为大家一一道来。...真人发声，交流更顺畅更有感觉在体验之前，请想想我们之前用过的语音助手，那些全靠电脑一个字一个字拼接而成的句子，机械而生涩，完全没有一点聊天的感觉，更多的像是在应付你，而不是在跟你交流。...Bixby中文版幕后配音员分别是《琅琊榜》夏冬的配音演员是张喆和《绝密543》肖占武扮演者王聪。因此在使用Bixby语音时，给人的第一个惊喜就是她连贯而优美的真人发声，这打破了我们的一贯印象。...强大的自然语言理解能力，可以听懂你的每一句话我们都知道，对同一件事情、同一个指令，每个人的表达方式都不尽相同。...除此之外，对用户的一些不完整的语音指令，Bixby也能够根据自己的理解来尽力执行，并在执行命令的过程中，像一个耐心的朋友一样，不断提示你提供更多准确的信息，让你的体验更加轻松自如。

1.1K0 0

美团外卖骑手背后的AI技术

总体来说，配送是一个非常复杂的业务，为了能够便于大家理解，我把这个业务模型进一些抽象和简化，可以用下面这张图来进行说明。 ?...接下来就和大家分享一下我们在整个智能助手的实践和设计过程中，以及在整个物流业务中，如何将人工智能技术更好的落地的一些经验。美团外卖智能语音助手定位 ? 我们为什么要智能语音助手？...第三，骑手在骑行过程中操作手机非常危险。对于有 50万骑手的平台，我们必须考虑骑手在整个驾驶过程中的安全。基于这些考虑，我们做了美团外卖语音助手，它的定位主要包括以下三点： ?...第二个，设计极简的步骤，所有操作能在一到两个步骤里完成，第一个步骤是信息播报，第二个步骤通过语音命令完成操作，将原来的五到六个步骤，精简到现在的一到两个。第三个，提供很多智能化服务。...也就是说，如何将语音助手从“能用”做到“好用”，再做到让用户“愿意用”，这些才是未来语音助手面对的真正挑战。

2K5 0

自动化剪视频

开始我尝试用pyttsx3，发现机器发声，效果不好。想想以前折腾，别人用Edge文本播报功能做了个产品。结果去搜，需要钱了。然后继续搜，发现有个库，直接可以用这个库来实现。...虽然这方面的介绍不多，我尝试了一下，效果还是可以的。 Edge-TTS介绍 Edge-TTS是一个Python库，该库提供了一个简单的API，可以将文本转换为语音，并且支持多种语言和声音。...： edge-tts --list-voices 该命令可以将Edge浏览器中，内置的语言角色列表列出来一望而知，几乎支持所有主流的通用语，Gender字段为合成语音的性别，Male代表男性，Female...hello_in_cn.mp3 该命令含义是通过zh-CN-XiaoyiNeural角色合成语音："你好啊，我是智能语音助手"的内容，随后将音频流写入hello_in_cn.mp3文件。...hello_in_cn.mp3 python脚本语音合成除了通过命令进行语音合成，edge-tts也支持在Python脚本，编辑test.py文件： import edge_tts import

4014 0

Java设计模式学习记录-命令模式

命令模式概念介绍命令模式：将一个请求封装为一个对象，从而使我们可用不同的请求对用户进行参数化；对请求排队或记录请求日志，以及支持可撤销的操作。...也有称其为动作模式的，因为通过命令是要执行一系列动作的，其实主要还是在你的请求和处理之间加上了一个中间人的角色，来达到分离耦合的目的。通过对中间人角色的特殊设计来形成不同的模式。...举例还是举例子吧，现在智能手机上大部分是有语音助手的，例如苹果手机的siri，百度地图上的小度。我们以siri为例子，当我们唤起siri后想让它给我打开微信时，siri就会把微信给打开了。...这个过程就是一个体现命令模式的过程，下面用代码来实现一下。...命令模式的缺点使用命令模式可能会导致某些系统有过多的具体命令类。因为针对每一个对请求接收者的调用操作都需要设计一个具体命令类，因此在某些系统中可能需要提供大量的具体命令类，这将影响命令模式的使用。

2591 0

你经常调戏的Siri和Alexa，竟如此脆弱地被黑了

“等等，这个人命令我的时候，来自一个他们不可能说话的声音范围！我不打算听他们的”。但浙江研究人员的发现，每一家主要的语音助理公司都表现出了在20kHz之外发送命令的脆弱性。...但至少有两种理论是完全可信的，这两种理论都是为了让语音助手更加用户友好。第一个是声音助理实际上需要超声波来听到人们的声音，而不是用那些高频率的声音来分析声音。...“我认为硅谷在如何不误用产品上存在盲点，这本应该是产品规划时候最强的一部分。”Elliott说。“语音系统很难保证安全，这也会提出问题，很难理解系统是如何工作的，有时候需要反复思考才能设计出来。...我觉得必须要经过艰苦的努力才能解开无缝语音，并且思考如何在系统工作中加入更多的可视化。” 目前有一个相对简单的，针对海豚攻击的解决方案。...当然这些解决方案也会弄巧成拙，如果我们能够安全使用语音助手的唯一方法是不让它们听到，那我们研究出语音助手的目的是什么呢？也许这些计算机起初并不存在于我们的生活中，或者公共场合也不会到处都是。

7757 0

扎克伯格开发笔记：打造Jarvis的日子，我庆幸自己从未停止过编程

在可以构建 AI 之前，我必须首先编写代码将使用不同语言和协议的系统连接起来。...例如，当我告诉它打开我办公室里的空调时，这和 Priscilla 说同样的话的意思完全不同。这造成了一些混乱。...而且它也知道是我在跟它说话，还是 Priscilla（扎克伯格的妻子）在跟它说话，这样它就可以根据我们的口味推荐不同的歌曲。相比非常具体的指令，我发现我们更常使用开放式的命令。...我设置了一个简单的服务器，可以持续检查摄像头的传回的图像，并执行以下两个程序：首先，通过面部检测，来查看是否有人出现在摄像头的视野之中，如果它发现人脸出现在画面之中，就会执行面部识别程序来确定这个人是谁...我们知道如何给一台计算机很多例子来让它的识别更精确，但是我们仍然不知道将从一个领域中获得的想法应用到另一个完全不同的领域中去。今年，我在构建 Jarvis 上花了差不多 100 个小时。

1.5K4 0

智能语音扩展数字化服务

再往后看，声纹识别，在智能车里面有很多的功能需要人的发音媒介来控制命令的时候声纹就很重要。开一个车门，车上有一个小孩，突然哭闹，下一个不合适的指令，你区别不出来这个人，对语音控制来说不合适的。...他说我听着不舒服，在不同场合下人的要求，你的声音是否满足，你的声音是否适合做语音助手，我会有一些例子给大家听，展现我们现在做的技术的突破。还有一部分提到很多客户的需求，希望有语音的定制化，为什么？...首先是语音输入法，按住这个键，然后是语音提醒，5分钟以后我要打一个电话，帮我记录一下，或者提醒我喝口水，用简单的输入做语音的提醒功能，相信很多人用到。...然后是语义，有的合成效果不错，没有以为是机器人，当我说了两句话给我反馈一样的时候，我知道是机器人，了语音识别失败，或者语义没有解析。电话客服是一个很综合，又比较有挑战的产品。...我们在这个场景下，把语音识别技术放进去以后：法官前面有一个麦克风，被告和原告都有麦克风，通过麦克风把这句话是谁说的记录下来，语音转成文字，变成文字以后，结合这两个层面形成记录：公诉人说了什么，法官说了什么

10.9K5 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

微软小冰：全双工语音对话详解

如何设计一款理解用户需求的智能语音产品

8小时12科32道题目，我们给Siri、Alexa、Google Assistant和Cortana安排了一场AI小高考……

谷歌助手首席工程师Huffman：5项必须遵守的语音计算规则

鸟叫就能黑掉AI系统，而且你根本察觉不到

ChatTTS的爆火是必然，它正在重新定义我们与机器对话的方式

pyc是个什么鬼?

微软小冰或许是未来的方向

自然语言控制机械臂：ChatGPT与机器人技术的融合创新（下）

AIGC: 2 语音转换新纪元-Whisper技术在全球客服领域的创新运用

【BDTC 2015】深度学习分论坛：DL的图像识别、语音识别应用进展

专访 | 语音助手的涅槃关头，我们应该完全抛弃屏幕还是选择“语音+图形界面”？

人机对话的浪潮：语音助手、聊天机器人、机器伴侣

人工智能推动人机交互创新，三星Bixby带来了哪些不一样的体验？| 测评

美团外卖骑手背后的AI技术

自动化剪视频

Java设计模式学习记录-命令模式

你经常调戏的Siri和Alexa，竟如此脆弱地被黑了

扎克伯格开发笔记：打造Jarvis的日子，我庆幸自己从未停止过编程

智能语音扩展数字化服务

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐