基于深度学习的语音增强_深度学习语音增强_深度学习数据增强 - 腾讯云开发者社区

、、、、

对于建立语音情感检测与识别系统，哪种方法更好？隐马尔可夫模型还是深度学习(RNN)方法？我必须建立一个SER系统，我在两者之间感到困惑。如果有比这两位更好的模特，请告诉我。

浏览 0提问于2018-03-25得票数 2

回答已采纳

1回答

语音识别可以在ML.NET中完成吗？

、

我是机器学习的新手。我偶然发现了ML.NET (微软的机器学习框架)。我们可以将此框架用于语音识别吗？如果你想在ML.NET中进行语音识别，你应该知道的所有事情是什么？

浏览 78提问于2019-02-25得票数 4

回答已采纳

3回答

Tensorflow支持决策树分类器吗？

、、、、

我试图实现决策树分类器来分类我的数据集。我正在使用Python。现在在scikit学习中很容易实现，但是我如何在tensorflow中实现这一点。

浏览 0提问于2018-02-20得票数 10

回答已采纳

1回答

偏差方差权衡增强(xgboost)与随机森林(随机套袋)什么时候使用？

、、

我在寻找推动套袋的不同之处，我看到这句话到处被引用。如果分类器不稳定(高方差)，则应采用套袋。如果分类器是稳定的和简单的(高偏倚)，那么我们应该应用bias。也是 Breiman表明，套袋对不稳定的学习算法是有效的，训练集中的小变化会导致预测发生很大的变化。布雷曼声称，神经网络和决策树是不稳定学习算法的例子。检查最后一行 gbdt不是xgboost中最受欢迎/推荐的学习者吗？考虑到决策树显然是不稳定的学习者，这是矛盾的。

浏览 0提问于2020-10-27得票数 0

1回答

使用C#语音识别库的语音UI或语音识别

、、、、

作为一名C++开发人员，想知道是否有可能开发语音UI和语音恢复软件，比如Amazon，但是使用c#语音库通过语音命令打开特定的软件？有人能给我一些洞察力或者让我轻松吗？我使用了来自C#的C#，并编写了一个示例代码，它可以接受我的输入，但问题是它不能完全理解我的输入。继续做下去是个好主意吗？我觉得自己完全迷路了。任何输入都会预先记录下来。

浏览 4提问于2017-09-14得票数 0

回答已采纳

1回答

使用不同的语音分类技术仍然存在过度拟合现象。

、、、

我有986个语音信号已经被我们的团队收集到了。该数据集包括745个健康和150个不健康的语音信号。我将数据分成70%的训练、20%的验证和10%的测试(未见)数据。然后，我对火车和验证集进行了过度抽样。因此，我们有1042个训练样本(521份健康样本和521份不健康样本)和298份验证样本(149份健康样本和149份不健康样本)。我正在应用在每批64批大小和培训和验证集的动态增强。为了处理这些信号和CNN，我把信号转换成梅尔波克图。现在，当我应用一个五层CNN时，存在一个过度拟合，并且该模型不能很好地推广到验证数据上。我到目前为止所做的：我只是在训练集上应用了增强，而没有在验证集上应用

浏览 0提问于2023-03-30得票数 0

1回答

Android>使用自定义代码创建手机应用程序或修改内置本机的源代码

、、

我是一个新手Android开发人员，并且正在构建一个定制的电话应用程序。根据我的理解，我可以采取两种方法。使用SDK和TelephonyManager类从头开始构建自定义应用程序或者，从source.android.com抓取整个本地应用程序源，并‘黑’现有的手机应用程序。应用程序必须在kiosk模式下运行，并且在设备开机时也会自动运行，我还在研究这两种情况。它还需要通过Android开放附件协议与外部arduino设备进行通信(没有语音数据，可能只是音量级别)。有任何android专家能建议哪种方法，1或2最容易实现，为什么？

浏览 4提问于2013-12-22得票数 0

回答已采纳

1回答

使用TF Lite断开连接的IoT设备

、、、

我的团队正在协调一个IoT设备系统(有时会断开连接运行)。在这些设备中，我们正在构建计算机视觉功能，以进一步执行对象跟踪、多对象识别和语音拾取(STT)。我们已经确定我们的模型需要1)在本地运行2)能够运行深度学习3)能够执行多个任务。 IoT设备的模型尺寸相当大，但我们正在检查所有选项，以确定该系统的可行性。这是以前在TF Lite社区中出现过的问题吗？

浏览 1提问于2020-10-26得票数 0

2回答

可以自动调节麦克风的音量以及麦克风增强嘛？

请描述您的问题标题：实时语音API - 游戏语音 - 产品文档 - 帮助与文档 - 腾讯云地址：https://cloud.tencent.com/document/product/556/7667

浏览 352提问于2018-01-31

1回答

如何检查音频样本是否只有噪音或静音？

、

我有一个wav文件，我想分割成帧，以便将它输入机器学习模型。问题是音频在某些点上有一些噪音，保持沉默。我的问题是，我不想在我的数据集中包含没有声音(或只有噪音)的帧。我认为一个解决方案是使用一个语音识别模型或类似的方法来进行分类，看看一个帧是否只包含沉默或噪声。然而，我正在寻找一种解决方案，它将不依赖于机器学习，而是主要依靠信号处理技术或其他一些预处理方法。那么，我怎样才能排除这些仅仅是沉默或噪音的帧呢？

浏览 0提问于2018-05-28得票数 1

回答已采纳

1回答

数据科学学习资源在道路交通数据中的应用？

我的背景我是土木工程专业的研究生。对于道路交通数据的分析(车辆轨迹作为时间序列)，我工作的大数据集，主要是大约100万个数据点或更多。当MS无法打开大数据文件时，我开始使用R语言。使用基本统计知识和R代码，我开发了几个算法来识别数据中的某些模式，这些模式适用于许多应用程序。但我仍然缺乏R. 现在，我熟悉基本的推断统计和R包(plyr、dplyr、ggplot2等)。最近，我认识到机器学习算法也有助于通过监督/无监督学习来定义数据中的模式，它们的应用可以提高使用交通数据预测驾驶员某些“行为”的准确性。问题我有统计学和R的基本知识，作为初学者，我想学习数据科学/机器学习。我知道统计学中

浏览 0提问于2014-11-05得票数 2

2回答

特征提取采用深度学习，分类采用but或其他ML算法。

、、、、

用深度学习进行特征提取，同时利用传统机器学习或增强技术进行分类，是否合乎逻辑？如果使用ML算法进行分类，而不是用深度学习方法进行特征提取，那么使用ML算法可以吗?我知道，如果特征工程成功，该模型将自动取得良好的效果。例如:如果我想做一个文本分类问题，我是否可以建立这样一个模型( RNN块的堆栈+ Adaboost)，其中RNN块执行特征提取，Adaboost进行分类？说得通吗？我提出了一种采用集成深度学习框架进行特征提取的体系结构，但是，我是否可以将集成框架与传统的ML或增强算法结合起来进行分类呢？会不会是件多余的事？

浏览 0提问于2022-10-27得票数 1

2回答

如何使用斯瓦希里语开发语音识别android应用程序？

、

我正在开发一个android应用程序，它有一个使用谷歌离线语音识别的英语语音识别模块，但现在我想添加新的语言(斯瓦希里语)，它不在谷歌离线语音识别语言的可用语言列表中。如何添加斯瓦希里语？然后把它用在我的应用程序上？

浏览 0提问于2016-05-10得票数 0

1回答

使用c# V2在移除背景的同时平滑边缘

、、、、

我正在努力去除背景，只留下身体与Kinect V2和c#/WPF的实时。移除背景效果很好，但是身体的边缘非常粗糙，边缘上有。我需要实时平滑边缘(每秒30帧)。对此我将非常感谢您的建议。我可以选择边缘(类似于Photoshop的魔术棒)。我试着使用像高斯模糊这样的东西，但对于实时应用程序来说似乎太慢了。也许我遗漏了一些东西，因为它似乎是许多应用程序的标准问题，如游戏等。谢谢！

浏览 1提问于2016-11-13得票数 1

3回答

如何在iOS 11设置中访问用户选择的Siri语音

、、、

我正在编写一个应用程序，其中包括文字到语音使用AVSpeechSynthesizer。生成语音和使用语音合成器的代码一直运行良好。 let utterance = AVSpeechUtterance(string: text) utterance.voice = currentVoice speechSynthesizer.speak(utterance) 现在使用iOS 11，我想匹配用户在手机的设置应用程序中选择的声音，但我没有看到任何方法来获得该设置。我试着获取已安装的声音列表，并寻找具有quality of .enhanced的声音，但有时没有安装增强的语音，即使有，也可能是用户在设

浏览 6提问于2017-09-20得票数 7

2回答

通过闪存实现的p2p voip？

、、、

有没有办法使用Flash (或者Java，但最好是flash )直接实现两个对等体之间的语音聊天(不需要服务器呼叫，除了一些初始的http请求)？用户应该在浏览器中打开语音聊天。入门的关键字是什么？

浏览 0提问于2011-05-10得票数 0

回答已采纳

1回答

简单分类器系统的示例--执行深度学习。

、、

我一直在研究一个问题，在这个问题上，使用深度学习发表的结果远比我用简单的统计方法(在这种情况下，多项logistic回归)在同一任务(使用相同的实验方案)上获得的结果差得多。我想知道这是否是一个不寻常的事件。有谁能提供具体的例子，说明深度学习的效果明显比简单的分类器系统差？

浏览 0提问于2022-08-26得票数 8

1回答

深度学习中的同态加密

、、

我对以下两个过程感兴趣：对同态加密数据执行深度学习对未加密的数据执行同态加密模型的深度学习预测。我的意思是加密深度学习模型的权重，将它们发送给数据所有者，并执行加密的预测。数据的所有者将返回加密的预测。例如，请参阅此博客文章中的逻辑回归示例。我想知道是否可以使用PHE (部分同态加密，例如Paillier)进行深入学习(包括许多隐藏层)，或者是否需要一个FHE (完全同态加密)。欢迎推荐人！

浏览 0提问于2018-02-13得票数 6

1回答

我可以使用谷歌语音搜索在后台识别语音吗？

、

我已经学习了Android ApiDemos的示例代码，当我对着麦克风说话时，下面的代码可以使用谷歌语音搜索识别语音。但是谷歌语音搜索有一些问题，谷歌语音搜索必须在线才能工作。我已将语音保存到文件中，如何使用谷歌语音搜索来识别语音文件并返回结果？ private void startVoiceRecognitionActivity() { Intent intent = new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH); intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_M

浏览 4提问于2013-08-09得票数 2

2回答

语音识别和语音合成入门

、、

我想开始学习中的语音识别和语音合成有人告诉我使用微软语音服务器(sdk等等) 有了这些，我该如何编写应用程序，以及使用哪种编程语言(开发环境？)？有人使用过asterisk或SVOX吗？我需要做的是：语音识别语音合成我不一定要成为一个很好的语音识别专家--我认为30 -50个单词对于一开始就足够了。我正在使用windows。提前感谢

浏览 16提问于2010-10-07得票数 0

回答已采纳

2回答

根据我们之前处理的100多万张原稿生成照片

、

我们正在运营一个庞大的团队，为我们的客户处理儿童照片，该团队每年处理超过100万张照片。这个过程包括对光线的基本调整，调整大小，应用一些滤镜来使皮肤看起来更好。我们希望使用深度学习来完成尽可能多的工作。这意味着我想选择一个模型，并使用我们现有的数据来训练该模型。然后使用训练好的模型通过输入新的未处理的照片来生成照片。有没有我可以使用的现有模型，或者有什么论文已经涵盖了这个场景？如有任何帮助，将不胜感激，谢谢！

浏览 10提问于2017-01-04得票数 0

1回答

Azure数据科学VM与Azure深度学习VM的区别

、

为了机器学习，我一直在研究Azure虚拟机。标准的是一个很好的简单的解决方案。我还遇到了，它被预先配置为一个基于GPU的DSVM。但是，我也可以将标准的DSVM部署为基于GPU的VM。这两个越南船民有甚麽分别呢？部署深度学习VM值得吗?因为这个虚拟机只能部署在自己的资源组和虚拟网络中吗？

浏览 5提问于2018-09-14得票数 1

回答已采纳

2回答

AVSpeechSynthesizer高质量语音

、

是否可以使用增强的/高质量的声音(美国的Alex)用语音合成器？我已经下载了声音，但没有办法告诉合成器使用它，而不是默认的声音。由于语音通常由BCP-47代码选择，而美国英语只有on，因此似乎无法进一步区分语音。我是不是遗漏了什么？(有人可能会认为苹果可能会考虑使用不同的方言，但我没有看到这一点)。蒂娅。

浏览 0提问于2015-07-12得票数 5

2回答

用Tensorflow转录国际音标

、、

我正在设计一个软件平台，帮助语言学家和人类学家对以前未研究过的语言进行研究。统计数字表明，大约有1 000种语言是一个人从未在其各自的发言群体之外学习过的语言。我的目标是利用TensorFlow构建一个平台，使语言学家能够更有效地学习和记录这些语言，并帮助他们为那些还没有书面系统的语言创建书面系统。他们目前完成这样一项任务的一种方法是三方面的: 1)记录母语人士在语言中的对话；2)听录音并试图将其转录成IPA；3)从语音中分析该语言的语音和音符，最终为说话人创建一个书面系统。我提议的研究平台将把研究时间从最少一年缩短到最多6个月。在我开始之前，我有一些问题..。需要什么来训练Tensor

浏览 4提问于2017-10-11得票数 2

回答已采纳

1回答

深度学习，关于使用哪种架构的建议

、、、

我目前正在开发一个应用程序，它可以让心理学家管理他们的时间表和预算。作为概念证明，我想创建一个智能预约服务。可能有3种情况： I know the client, I need to guess the day and time for his next appointment I know the day, I need to guess which client and at what time I know nothing, I need to guess which client, which day and what time 我目前正在学习深度学习算法，只是为了获得一点理论知识，但

浏览 3提问于2017-11-01得票数 0

1回答

System.Speech与神经网络

、

我不知道把这个寄到哪里去。然而，这是一个普遍的问题。我编写了语音激活软件，我有了一个想法。如果我要编程一个语音神经网络。最好的选择是什么？我知道阿福尔有模糊逻辑的机器学习。不过，如果我想从头开始。我会使用反向传播，也可能是递归学习。有没有一种方法，我可以提取默认的语音声波文件，MS语音使用，而不是记录每一个单词在英语中的声波。我曾经编程过前馈和反向传播神经网络。我的问题是，在这个时候，是否有一种方法可以提取声波文件来实现输入，还是需要将每个单词记录到一个声波中？我的长远目标是在未来3年内让我的程序区分句子结构，这样程序就能把名词、动词、副词等拼凑在一起。因此，它可以创建自己的句子来

浏览 3提问于2016-06-19得票数 0

回答已采纳

1回答

音频输入矢量的模糊化

几天前，我打了个电话，另一端是一台机器，它使用一些语音识别软件来验证客户对服务菜单的回答。我问自己，是否可以用某种随机生成的噪声文件之类的方式对这种输入进行模糊处理？最后，软件采用启发式算法或机器学习系统等方法对客户的语音进行分析。

浏览 0提问于2014-07-02得票数 7

回答已采纳

2回答

Google Voice短信意图

、、

现在，我正在尝试创建一个带有填充号码的SMS意图。 Intent sendIntent = new Intent(Intent.ACTION_VIEW); sendIntent.setFlags(Intent.FLAG_ACTIVITY_NEW_TASK); sendIntent.setData(Uri.parse("smsto:"+phoneNumber)); context.startActivity(sendIntent); setResultData(null); 这与手机的短信应用程序配合得很好，但问题是，如果安装了谷歌语音，而用户选择了这个选项，而不是普通的短信应

浏览 4提问于2011-03-22得票数 1

2回答

检测Glassware是通过语音命令还是通过触摸菜单启动的

、

是否有可能有不同的行为时，玻璃器皿是通过"OK玻璃“语音命令和触摸菜单选择？特别是，如果玻璃器皿是用"OK玻璃“语音命令启动的，我们将提示语音识别，否则，如果从触摸菜单中启动，则直接转到玻璃器皿。或者，有什么方法可以让应用程序知道它是以哪种方式发布的？我们正试图模仿Google Play Music Glassware所做的。

浏览 1提问于2014-02-27得票数 2

回答已采纳

1回答

机器学习系统，它可以学习数据和人的规则。

我有一个数据集和很少的人类规则。我想学习机器学习系统。我看到的其中一篇论文是：神经网络治理上面的文章训练了一些教师网络来学习该系统，以提高系统的准确性，但仍然需要足够的数据。但我的要求不一样。可能我们只有很少的数据点与规则相对应。如何设计一个既能从数据集中学习又能从人的规则中学习的系统。

浏览 0提问于2017-12-01得票数 2

2回答

为什么深度学习/神经网络不能达到最先进的水平导致表格数据问题？

、、

显然，深度学习方法并没有在表格数据问题[1，2]上取得最先进的结果。这一索赔似乎也为Kagglers所知。SOTA方法看起来像是梯度提升决策树。对于为什么会发生这种情况，有什么直觉吗？有关于这个主题的相关文献吗？神经网络是否有更强的IID假设来抑制表格数据中的学习？文学：深层神经网络与表格数据：https://arxiv.org/abs/2110.01889综述我们真的需要时间序列预测的深度学习模型吗？https://arxiv.org/abs/2110.01889

浏览 0提问于2022-05-15得票数 3

1回答

具有标点符号的实时语音识别

、

使用自动标点实现语音识别(语音到文本)的方法是什么？我想用它把演讲(45分钟的演讲)转换成文本，如果可能的话，动态更新视图。我尝试过SpeechRecognizer，但它只给我没有标点符号的单词，并且在第一个单词之后停止监听。

浏览 0提问于2016-12-05得票数 5

1回答

Keras数据增强在给定带有Keras书籍的DL的示例中性能较差

、

我一直在遵循Gulli和Pal在“用Keras进行深度学习”一书中给出的例子。在第三章“使用数据增强提高CIFAR-10的性能”中，我无法复制其声明的约0.78的测试精度。事实上，我得到了这个： Epoch 48/50 390/390 [==============================] - 946s 2s/step - loss: 1.2158 - acc: 0.5853 Epoch 49/50 390/390 [==============================] - 944s 2s/step - loss: 1.2233 - acc: 0.5845 Epoch

浏览 11提问于2018-02-24得票数 0

1回答

这能把牛顿的方法和图像分类结合起来吗？

、

嗨，我是机器学习领域的新手，现在我的第一个挑战是提高基于Dog图像分类的图像分类的准确性。所以我在谷歌上搜索，找到了方法，我找到了牛顿的方法。然而，它说它是巨大的，不太可能在一般情况下使用。在我的例子中，我只为7 class.so使用了大约1600张图片，我想可能(我不知道)这是可能的。你在想什么？在我的情况下这有可能吗？我不知道机器学习和它的算法，所以如果你能给我一些建议，那会很有帮助的。

浏览 5提问于2021-02-04得票数 1

回答已采纳

2回答

适合盲人的Ubuntu软件？

我是一个盲目的计算机用户谁是一个终身的Windows用户谁正在看其他操作系统。在windows上，使用第三方安装的语音程序来让我的计算机说话，但至少我需要一个类似于window的旁白或Mac的画外音的语音程序，我想知道是否有人能告诉我Ubuntu是否有与其他操作系统一样的自适应软件。我对Linux几乎一无所知，但我对学习很感兴趣，所以我考虑将它安装在虚拟机上，然后在虚拟机上玩一玩，看看它是如何工作的，但我想知道它是否有类似于其他操作系统的语音软件，可以在安装过程中帮助我？

浏览 0提问于2017-03-04得票数 4

1回答

语音识别无法在mac OS X上运行

、、

我正在尝试在一个Mac xcode项目上实现语音识别功能。我使用的是NSSpeechRecognizer类。当我使用以下代码运行项目时，我得到一个带有消息的窗口:需要0字节下载才能使用中的语音识别功能您可能需要在下载完成后退出并再次打开项目。我按下下载按钮，退出并打开项目，但没有任何变化，当我运行项目时，我得到相同的窗口，语音识别不工作。我真的很感谢任何人的帮助。提前谢谢你 -(void)awakeFromNib { NSArray *cmds = [NSArray arrayWithObjects:@"Sing", @"Jump", @"Roll ov

浏览 1提问于2015-02-09得票数 4

2回答

下面的微管命令是什么意思？

、、、

我开始学习mininet，并且我知道下面的mininet命令将创建一个深度为2的默认树拓扑，而扇出的深度为3。但是我不明白这到底意味着什么？谁能解释一下吗？ sudo mn --topo tree,depth=2,fanout=3

浏览 1提问于2016-02-27得票数 1

回答已采纳

1回答

Apache或Python的替代方案是什么？

、、

我正在寻找像OFbiz这样的替代解决方案。我对OFbiz的主要问题是它有一个很长的学习曲线。我希望找到一个很好的替代方案，甚至用另一种语言编写，比如PHP或Python。

浏览 0提问于2015-04-18得票数 0

1回答

用一个数据集训练的说话人验证模型在另一个数据集上表现不佳

、、

我是音频信号处理的新手，更具体地说是说话人验证。我已经训练了一个基于CNN的暹罗网络来做说话人验证。整个过程使用一个数据集进行训练，其中选择了720个人在VAD和成帧后的语音片段对进行训练。到训练结束时，该模型在训练和验证数据集上的准确率分别达到了85%和83%。在同一数据集中有15个陌生人的1000个语音片段对，该模型仍然达到了82%的准确率。然而，当使用另一个数据集中100个陌生人的10000个语音片段对进行测试时，该模型只提供了68%的准确率。我想指出的是： 1.对于训练和测试阶段，来自两个数据集的语音片段都是干净的，没有任何噪音。 2.通过直观地判断不同数据集的语音片段的差异，训练数

浏览 2提问于2020-05-03得票数 0

1回答

如何设计自动编码器体系结构

、、、、

我想构建一个自动编码器(CNN)来学习我的数据的表示。我从来没有建立过这样一个网络，我在监督学习(分类)方面有一些经验。我想知道，对自动编码器来说，训练分类器的一些良好做法是否也是正确的：参考架构是否像ResNet/Inception之类的？如果没有，我应该手动设计层吗？转换学习/微调是否适用于自动编码器(还是从零开始训练更好)？

浏览 0提问于2018-09-10得票数 5

3回答

如何以编程方式组合.wav文件？

、

我想玩一些只有数字的文本到语音的转换。我可以录制10个wav文件，但我如何以编程方式组合它们？例如，用户键入1234，文本到语音转换将1.wav与2.wav、3.wav和4.wav组合以产生播放“一二三四”的1234.wav。

浏览 1提问于2011-12-02得票数 1

回答已采纳

1回答

神经网络是否有可能像不同形式的监督学习那样高分？

、、、

我一直在使用来自UCI http://archive.ics.uci.edu/ml/datasets/adult的成人人口普查收入数据我创建了两个不同的模型，一个是使用梯度增强分类器，另一个是使用Keras/Tensorflow的神经网络。所以我对代码提示或什么都不感兴趣，但我有一个关于机器学习的一般性问题--我使用梯度增强分类器比使用神经网络的精度要高得多。一般来说，我的(或任何)神经网络是否有可能达到与任何其他类型的监督学习相同的精度？是否只需要大量的努力工作和肘部的油脂就可以很好地调节神经网络？我使用相同的数据集，对神经网络和梯度增强分类器都使用相同的特征工程。

浏览 0提问于2019-04-10得票数 3

回答已采纳

1回答

有可能训练这种图像分类器吗？

、、

我正在编写一个移动应用程序，它将使用户能够从瓶子、抽头、六包等地方扫描手工艺啤酒标签。扫描将只对我的客户谁是酿酒者自己，所以我将访问所有的艺术作品使用他们的标签。我关心的是训练模特。正如你所能想象的那样，酒吧的照明条件会有所不同，还有很多其他的挑战。因为我刚开始学习机器，这个任务可行吗？考虑到在不同的酒吧/酒吧发现的各种条件，训练这种模式有多困难。谢谢。

浏览 0提问于2018-12-03得票数 0

回答已采纳

1回答

无深度学习的内容推荐系统

、、

我正在探索推荐系统的领域，我所能找到的只是利用深度学习的技巧。我不想在深造领域工作。因此，对于内容推荐系统，除了深度学习之外，还有其他方法吗？或者，如果我不喜欢深度学习，我应该换个话题吗？我还想在推荐系统中绘制图表，但是对于内容而不是基于协作的建议。任何资源都是有用的。

浏览 2提问于2022-05-18得票数 0

1回答

机器人机器学习模型的正确方法

、、、

我正在寻找一个起点的模式或方法使用。情况如下：有9个输入的机器人： -6个能提供距离的传感器检测崩溃的-Sensor 左电机-The电流速度右电机-the电流速度输出:两个数字(或两个布尔)来控制两个马达(前进，左，右) 现在我在考虑让机器人想办法避免撞车。我将6个传感器连同一个“工作/不工作”的传感器作为数据输入到模型中，然后对模型进行训练，以确定当传感器值低于某一数字时，为了避免碰撞输入，电机需要比另一个更快。此外，我需要告诉模型，需要避免崩溃标志。现在，作为平台，我正在考虑一个覆盆子圆周率，可能有一个天蓝色的连接，所以我可以使用任何我想要的模型。但我要

浏览 1提问于2020-01-22得票数 1

回答已采纳

1回答

使用Python减去/比较两个音频文件之间的差异

、、、

我的目标是获取两个相同长度的.wav文件，一个原始的使用噪声+语音，另一个使用改进的语音处理，并比较这两个文件。这应该会给我留下两个wave文件的不同之处，那就是在处理过程中被删除的噪声。我想这样做是为了练习我的python编码技能，也是为了测试语音处理程序的效率。到目前为止，我已经找到了可以做到这一点的程序，但我真的很想用python构建我自己的简单版本。我考虑过的一些库是和，但它们似乎没有包含subtract函数。我有几个程序可以做到这一点，但我想创建一个简单的版本，并能够随着时间的推移，随着我的需求扩大定制它。

浏览 6提问于2021-07-20得票数 0

1回答

Google语音到文本的最优值

、、

我正在尝试优化语音以文本调用Node.js应用程序中的值。我正试图确定它们是否是目前的最佳实践。我理解语音推荐的LINEAR16编码16,000赫兹采样率，但这是不可能的VOIP，它是在8000‘t发送，目前Twilio只提供在MULAW编码。我想知道的是，用于“模型”"use_enhanced“和”信心“的值是好的？ if (this.newStreamRequired()) { if (this.stream) { this.stream.destroy(); } var request = { config: { encoding:

浏览 1提问于2021-02-26得票数 0

回答已采纳

1回答

自然语言理解调查论文

、、、

关于自然语言语法/句法结构的机器学习方法的研究现状，有哪些好的调查或评论论文？

浏览 0提问于2019-01-20得票数 1

1回答

提高语音检测算法精度的研究

、、、、

所以我有这个Mono音频文件，其中包括人们交谈，交谈暂停，然后他们再次交谈。当他们说话的时候，当他们不说话的时候，有孩子们不时地在背景中哭泣，汽车的休息声，你在外面听到的东西。我的目标是在他们说话的时候保留这些部分，当他们不说话的时候把这些部分剪掉。没有必要对背景噪声进行滤波。基本上，我的最终目标是有一个这样的削减清单 Start in seconds, End in seconds 我试过什么？我只通过将所有包含语音的部分装配在一起来手动创建一个语音文件。(10秒) 我手工创建了一个只有噪音的文件，将所有不包含语音的部分装配在一起。(50秒) 我用快速傅里叶变换得到了频率+

浏览 0提问于2013-11-25得票数 1

4回答