我正在使用SoX连接多个(最多25个)音频文件
sox first.mp3 second.mp3 third.mp3 result.mp3
将给定的文件连接到一个文件中。但不幸的是,result.mp3中的这些文件之间有很小的时间间隔。有没有办法消除这一差距?
在通过合并多个音频(相同长度/格式/速率)将它们连接之前,我正在创建first.mp3、second.mp3等:
sox -m drums.mp3 bass.mp3 guitar.mp3 first.mp3
我如何检查并确保所有这些文件都没有时间间隔?(合并和连接)
我需要实现所有连接文件的无缝播放(在浏览器中一个接一个地播放它们,工作正常)。
谢谢你的帮助。
编辑:
我正在运行的命令的确切示例(没有真正的文件名)现在是:
sox "|sox -m file1.mp3 file2.mp3 file3.mp3 file4.mp3 -p" "|sox -m file1.mp3 file6.mp3 file7.mp3 -p" "|sox -m file5.mp3 file6.mp3 file4.mp3 -p" "|sox -m file0.mp3 file2.mp3 file9.mp3 -p" "|sox -m file1.mp3 file15.mp3 file4.mp3 -p" result.mp3
这将合并文件,并将它们直接连接到级联命令中。生成的mp3 (result.mp3)在连接的文件之间有如此微小的延迟。任何想法都很受欢迎。
发布于 2014-12-04 13:17:28
这是我对你的问题的猜测:
为了了解发生了什么,我建议您每次检查所有文件的持续时间(例如,可以使用soxi )来查看发生了什么。
如果它不起作用(在连接过程中增加了时间间隔),请让我再猜一猜:
要解决这个问题,您可以使用非常短的淡出-在您的文件淡出。
此外,要强制sox输出具有良好定义长度的文件,可以使用以下trim参数:
sox filein.mp3 trim 0 duration fileout.mp3
发布于 2015-02-14 22:48:13
要做到这一点,最好的方法--尽管帮助最少--就是不要将MP3文件用作源文件。WAV、FLAC或M4A文件没有这个问题。
MP3s不是由固定速率的样本组成的,因此,裁剪出任意长度的部分将不像您所期望的那样工作。除非编码器是智能的(如lame),否则通常会在MP3文件的音频开始或结束时出现空白。我做了一个样本0.98s长的测试(确切地说是73.5 CDDA帧,许多MP3编码器使用帧作为最小样本长度)。然后,我用三个不同的MP3编码器(lame、sox和古代发亮)对样本进行编码,然后用三个解码器(lame、sox和madplay)对这些文件进行解码。下面是示例长度与原始样本的比较方式:
Enc.→Dec. Length Samples CDDA Frames
----------------- --------- ------- -----------
shine→lame 0.95" 42095 71.5901
shine→madplay 0.97" 42624 72.4898
shine→sox 0.97" 42624 72.4898
lame→lame 0.98" 43218 73.5000
*Original 0.98" 43218 73.5000
sox→sox 0.99" 43776 74.4490
sox→lame 1.01" 44399 75.5085
lame→madplay 1.02" 44928 76.4082
lame→sox 1.02" 44928 76.4082
sox→madplay 1.02" 44928 76.4082
只有由lame编码和解码的文件才有相同的长度(主要是因为lame插入了一个长度标签来纠正这些太短的示例,并且知道如何解码它)。无论我用什么解码器,由sox编码的所有东西都有一个很小的缺口。因此,加入这些文件将导致微小的点击。
您的浏览器可能是混合和重叠的源文件非常轻微,这样你就不会听到点击。无缝隙回放很难正确地完成。
发布于 2014-08-13 12:13:32
首先你真的需要检查你的文件的开始和结束是否有沉默,我不知道sox是否能做到,但是你需要检查开始和结束音频信号的能量(均方根,dB),并切断开始和结束的沉默,要连接没有间隙的音频文件,你需要在你的信号中应用一个窗口函数来像fadein/fadeout那样工作,然后将一个开始和另一个结束交叉。
sox提供了一个用于交叉淡出的splice
函数:
splice [−h|−t|−q] { position[,excess[,leeway]] }
Splice together audio sections. This effect provides two things over simple audio concatenation: a (usually short) cross-fade is applied at the join, and a wave similarity comparison is made to help determine the best place at which to make the join.
检查文档这里
https://stackoverflow.com/questions/25280958
复制相似问题