我使用这个库https://code.google.com/p/libmfcc/从一个幅值平方功率谱中生成MFCC系数。
然而,据我所知,第一个系数应该代表整体能量。我的结果并非如此。这让我怀疑整个功能集。
F0:-3.77,F1:-2.78,F2: 2.13,F3: 4.47,F4: 2.76,F5:-0.00,F6:- 0.58,F7: 0.76,F8: 1.49,F9: 0.62,F10:-0.44,F11:-0.26,F12: 0.58
我想要这个系数的唯一原因是为了帮助消除我的项目中的问题。-我通过一个震级功率谱256实数长,(原来的512 FFT),采样在16000 at。我很确定FFT是正确的,因为我已经运行测试,以检查产生的频率。
我试图利用这些功能来进行说话人识别,但目前我一直被误报。我尝试使用神经网络生成的特征,矢量量化和简单的蛮力欧几里德和spearman的比较。我所做的任何事情似乎都无法提取出声音之间系数的唯一性。结果是假阳性。
我已经坚持了几个月了,我有一种感觉,这是我的特点的一个错误。任何帮助都将不胜感激!
发布于 2014-05-01 12:14:26
您的fft值是不寻常的,以下是来自语音帧的示例FFT:
12406.376 317135.746 995981.334 626224.382 2005596.535 4058142.702 1866254.816 3522858.721 340289.386 6767139.243 10894041.353 511321.852 27681515.387 32174731.584 229424472 3673880.557 47528528513928 10708.546 52644879.171 52644861298540317789.470 10781189.643 7169652.741 30153832.551 3933090.444 13867788.202 26961212.666 6052446.164 5232152.170 8754440.126 814935.042 42393.0.973 0.973 43209.234 869299.756 8493450.137 8647922.201 1814417.128 652202.156 934195.600 72344.850 59952.325 520781.731 94066.862 2497.524 30704.365 14786.379 961.829 25425.752 457.993 16805.918 21014.25724.724.724.724.64765.894 31916 316.339 60755 2677.9977.984 1585.312 4.105.13812742.130 27660.958 4208.045 104839.618 126015.679 126905.152 92657.454 5423.333 6252.982 26137.014 8101.993 23840.536 96350.180 155396.746 111640.103 67379.170 191046.213 53822.423 1996 623.939 521401.332 240488.616 26096.585 27258.739 56939.039 56939.077 33564.077 33565.473 17344.580 584.97 279058 72742.464 664 612.311 13451.726 5192.735 4261.550 439.073 18140.512 6855.97 26066.804 1993.2021091.290 33014.134 42059.955 11662.442 534.955 13736.420 13481.058 48308.510 33231.743 12317.196 48160.791 115668.828 211469.841 163739.245 359.914 47145.795 37145.795 37257.335 9065.769 756.579 8372.643 8419.709 1815.682 1017.977 64.215 17711.483 25315.887 44022.134 91004.399 49687.288 1524.393 19627.23474.66 90070 729.851 11901.670 16078.190 1688.190 26843.501 565.484 18436.22427086.375 31720.334 42472.198 143007.306 138588.920 87433.057 101891.401 73553.860 76565.005 31125.667 23054.414 75971.499 237864 68413.973 240216.065 148102.903 19623.293 8194.448 2725.753 32133.461 60279.038 21668.906 539.175 61133.80454.478 6585.491 21330.695 26129.337 8014 41091.336 66797.336 42455.636 203.426 973.230 2763.689 1136.641 5300.3128.7632635.018 15487.226 16915.816 5770.127 4770.271 16645.390 13957.322 27129.323 13908.576 2281.975 63947.522 50889.733 697.118 18690.955 12249.632 1006.608 12672.938 4463.555 4663.555 4663.555 46999 2048.688 1486.688 1486.160 12965.033 89367.085 57248.261 23332.704 18483.057 14557 4288.211 8512.221 9461.348 3105.038 975.822 26873.908 44851.560 305.822 26873.908 44851.560 3056.465 7607.291 452.811 252606.56012422.574 44612.224 74799.536 25034.774 197.800 2410.775 237.717 3106.175 7980.360 3960.008 8073.620 31488.422 8950.003 3459.935 666.708 7.372
而且,我担心你在写"FFT每句话“。言语必须逐窗分析,而不是作为一个整体来分析.你需要先在窗户上分割信号。
https://stackoverflow.com/questions/23392889
复制相似问题