如何使用CNN和PyTorch处理音频分类的输入数据？_使用分类输入数据和图像输入数据的分类_如何使用动态输入创建用于图像分类的CNN - 腾讯云开发者社区

python、machine-learning、classification、pytorch、signal-processing

当一名工程系学生研究DSP和ML领域时，我正在做一个音频分类项目，输入是短剪辑(4秒)如贝斯，键盘，吉他等乐器(NSynth Dataset by the Magenta team at Google这个想法是将所有的短片(.wav文件)转换成光谱图或光谱图，然后应用CNN来训练模型。然而，我的问题是，由于整个数据集都很大(大约23 my )，我想知道是否应该先将所有的音频文件转换为PNG格式的图像，然后再应用CNN

浏览 16提问于2020-01-22得票数 1

回答已采纳

3回答

如何将音频数据输入深度学习算法？

deep-learning、classification、speech、audio-processing、generative-adversarial-network

我是深度学习的新手，我的目标是使用GAN (生成对抗网络)来识别情感语音。我只知道图像是大多数深度学习算法的输入，比如GAN。但我很好奇，除了使用光谱图的图像作为输入之外，音频数据如何成为它的输入。

浏览 98提问于2019-10-10得票数 2

1回答

使用Pytorch从.ckpt文件加载预训练(CNN)模型

pytorch

我正在使用Pytorch进行图像分类。我正在寻找在ImageNet以外的数据集上预先训练的CNN模型，我找到了一个指向".ckpt“文件的链接。我还找到了使用Tenserflow加载此文件的教程，但没有使用pytorch。如何从".ckpt“文件中使用Pytorch加载预先训练好的模型？

浏览 295提问于2019-11-25得票数 1

回答已采纳

1回答

为什么CNN不能在简单的MLP网络上提供更高的精确度？[来自Keras的例子]

machine-learning、deep-learning、nlp、keras

我仍然是机器学习的新手，刚遇到强大的深度学习库，Keras。我已经阅读过Keras文档，并且在Github 这里上尝试了很少的Keras示例。我还从几个来源学习了一些深入学习的基本知识和概念，但在CNN和RNN中还没有得到真正的理解，这两个网络看起来非常强大。因此，为了证明我的假设，我从Keras下载了reuters_mlp.py示例，该示例最初使用简单的MLP网络作为模型。我结合了从imdb_<

浏览 0提问于2017-05-17得票数 3

回答已采纳

1回答

是否有可能将火把和火炬的几何模型结合起来？

pytorch、pytorch-geometric

我正在处理一个使用图形数据的节点分类问题。通过简单地将网络应用于单个节点(例如，忽略图形结构)，我使用了PyTorch对节点进行分类，并使用PyTorch几何方法应用GNN (例如GCN)对节点进行分类。是否可以将PyTorch中的模型作为PyTorch几何中的最后一层？我对这将如何工作感到有点困惑，因为对to

浏览 0提问于2022-12-16得票数 1

回答已采纳

2回答

VGG或盗梦空间是否有语音或音频？

deep-learning、feature-engineering、transfer-learning、inception、vgg16

我想使用VGG16 (或VGG19)来完成语音集群任务。我用VGG19 (和weights='imagenet')试了一下。我得到了糟糕的结果，我假设这是因为我使用的VGG有错误的权重(图像权重(ima

浏览 0提问于2021-05-25得票数 0

2回答

如何利用声音进行说话人识别？

python、voice-recognition

我想知道你能不能用他们的声音探测到他们。例如，我们在程序中给feed一些数据，比如这是猫的声音，当它检测到它时，它会向猫打招呼。

浏览 15提问于2022-08-20得票数 -1

2回答

如何利用FFT和神经网络对声音进行分类？我该用CNN还是RNN？

tensorflow、keras、neural-network

为了教育目的，我正在做一个个人项目，学习Keras和机器学习。首先，我想分类一下，如果一个声音是拍手还是踢踏舞。我使用的是一个微控制器，是声音触发和采样声音@20 using。微控制器将这些原始的ADC数据发送到PC机进行Python处理。我目前采取1000点，并得到FFT使用numpy (使用rfft和它的绝对值)。现在，我想把拍到的FFT信号作为训练数据，用

浏览 1提问于2019-05-03得票数 2

回答已采纳

2回答

卷积神经网络中的随机裁剪和翻转

image-processing、neural-network、conv-neural-network

在我读到的许多关于卷积神经网络(CNN)的研究论文中，我看到人们从图像中随机裁剪一个正方形区域(例如224x224)，然后随机水平翻转它。为什么要进行随机裁剪和翻转？另外，为什么人们总是裁剪一个正方形的区域。Can不能在矩形区域上工作吗？

浏览 0提问于2015-09-29得票数 17

回答已采纳

1回答

什么是建立CNN模型的理想方法？

deep-learning、conv-neural-network、regression、classification

我试图执行检测某种类型的声音在音频文件。这些录音有可变的长度，我想要检测的声音类型通常在1~5秒长，而且我有数据集的标签(事件发生时的开始和偏移)。非常感谢。

浏览 1提问于2022-03-01得票数 1

回答已采纳

1回答

从理论上讲，使用CNN来处理分类数据和数字数据是否合理？

deep-learning、classification、theory、conv-neural-network

我试着用CNN来做二进制分类。由于CNN在特征提取方面的优势，它在图像和语音等模式数据中得到了广泛的应用。但是，我拥有的数据集不是图像或声音数据，而是分类数据和数字数据，它们与这种情况不同。我的问题如下。如果是合理的

浏览 1提问于2020-06-26得票数 1

1回答

如何防止模型识别错误类

neural-network、deep-learning、classification、keras、image-classification

假设我有一个能识别猫和狗的模型。然而，当我使用一个杯子或人类的图片时，它会产生一个在0.70置信度的随机预测。我应该用西格莫德而不是软卡吗？或者，是否有任何解决方法来防止对新类对象的大量信任？

浏览 0提问于2019-06-06得票数 3

回答已采纳

1回答

根据姓名对用户性别进行分类的最佳方法是什么？

python、python-3.x、nlp、deep-learning、kaggle

如果您检查我的，我已经成功地实现了CNN，KNN对信号故障进行分类。为此，我对信号进行了很少预处理的降维处理，并将其提供给网络，利用其类信息对网络进行训练，然后用测试样本对训练后的网络进行测试，确定分类并计算精度。我在这里的问题是如何将文本信息输入CNN或任何其他网络。作为输入，我从kaggle的Twitter数据库中选择了两个

浏览 0提问于2018-03-19得票数 0

回答已采纳

1回答

如何将numpy阵列(麦克风/回送输入)转换为PyTorch分类器的torchaudio波形

python、pytorch、wav、waveform、audio-processing

我目前正在用PyTorch和torchaudio训练分类器。为此，我遵循了以下教程：为此，我希望不必将记录保存到.wav文件中再次加载，而是直接向分类器提供内存中的记录。本教程使用torchaudio的<

浏览 27提问于2022-09-20得票数 1

1回答

图像分类Pytorch

deep-learning、computer-vision、conv-neural-network、pytorch

如何确定CNN的层数和最终模型，以提高预测的准确性。我正在对图像进行分类，目前用简单的模型获得了65%的准确率，我应该如何增强它才能达到最大的准确率。(Pytorch)

浏览 3提问于2018-12-02得票数 0

1回答

MLP有可能比CNN有更好的准确性吗？

neural-network、keras、cnn、mlp

我正在研究癫痫分类系统，它消耗脑电图信号，结果说如果使用某一时期，是否是癫痫发作。为了进行网络培训，我利用Keras。我正在尝试几种不同的神经网络配置，现在我想知道，在某些情况下，MLP在一维分类方面是否比CNN更好？我的问题不仅与脑电图或癫痫的检测有关，而且更多的是当MLP在准确性上比CNN表现得更好的时候。或者，在数学上证明了，对于给定的分类问题，总会有一些CNN</e

浏览 0提问于2021-05-15得票数 0

1回答

如何共享权重以“重用”现有网络

tensorflow、reinforcement-learning、tf.keras

Introduction这是“状态值函数”应该“使用两次”，因为它是同一个函数，V，是用两个不同的参数X和Y。网络本身是一个卷积神经网络，我已经实现了。我相信我已经为奖励网络正确地实现了所有必要的层，r(X)。值网络V(X)使用相同的卷积层，所以我认为原则上它是正确的，除了从V(X)到V(Y)之间的权重分担。目

浏览 2提问于2021-02-09得票数 0

1回答

使用CNN检测数据集中的不正确标签图像

python、cnn、image-classification、multiclass-classification、labels

我想要做的是训练一个模型来识别在我的数据集中被错误标记的图像，例如，在一种狗类中，我可以找到猫的图像，我想要一个模型来检测所有在错误类中的图像。有没有人试过这样做有更多的细节，或有人有任何想法？

浏览 0提问于2022-05-03得票数 0

3回答

为什么RNN通常比CNN有更少的隐藏层？

deep-learning、cnn、lstm、rnn、feature-extraction

can可以有数百个隐藏层，而且由于它们经常与图像数据一起使用，因此有许多层捕获更多的复杂性。然而，据我所见，RNN通常只有几个层，例如2-4层。例如，对于心电图(ECG)分类，我见过文献使用LSTM 4层，CNN 10-15层，结果相似。这是因为RNNs/LSTM如果更深(由于梯度消失问题)更难训练，还是因为RNNs/LSTM往往会快速适应顺序数据？

浏览 0提问于2019-06-09得票数 9

2回答

为什么在某些计算机视觉问题中使用RNN？

deep-learning、cnn、rnn、computer-vision

当我进行各种计算机视觉项目的实现时，一些OCR问题使用GRU或LSTM，而有些则没有。据我所知，RNN只用于输入数据是序列的问题，如音频或文本。因此，在kaggle上的MNIST核中，几乎没有内核使用RNN，几乎所有的基于GitHub的IAM数据集的OCR存储库都使用了GRU或LSTM。直观地说，图像中的书面文本是一个序列，因此使用RNN。但是，MNIST

浏览 0提问于2020-07-06得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云