我有一个音频文件和一个与这个音频文件中的演讲相对应的文本。
有没有办法将文本与音频相匹配,这样我就可以得到类似时间戳的信息,显示文本文件中的单词在音频中的位置。
发布于 2021-04-19 19:50:17
所以我找到了我要找的东西。
显然,将给定的文本与音频匹配并返回确切的时间戳的技术称为强制对齐。
下面是一个非常有用的链接,指向最好的强制对齐工具列表:https://github.com/pettarin/forced-alignment-tools
就我个人而言,我使用了埃涅阿斯,因为它对我非常有用。
发布于 2021-04-08 12:10:43
是的,这是可能的。我假设你知道关于音频技术的基本术语。
检查库https://www.geeksforgeeks.org/python-speech-recognition-on-large-audio-files/
库可以逐块读取任何音频文件。可以将音频文件传递给文本转换,并进一步逐块采集文本结果。
另外,如果音频文件的SampleRate是44100,那么8192块将代表大约185毫秒的时间单位。
https://stackoverflow.com/questions/67000827
复制相似问题