文章/答案/技术大牛

发布

社区首页 >问答首页 >如何匹配Python中的文本和音频？

问如何匹配Python中的文本和音频？
EN

Stack Overflow用户

提问于 2021-04-08 09:11:10

回答 2查看 1.1K关注 0票数 1

我有一个音频文件和一个与这个音频文件中的演讲相对应的文本。

有没有办法将文本与音频相匹配，这样我就可以得到类似时间戳的信息，显示文本文件中的单词在音频中的位置。

python

audio

speech-recognition

speech-to-text

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-04-19 19:50:17

所以我找到了我要找的东西。

显然，将给定的文本与音频匹配并返回确切的时间戳的技术称为强制对齐。

下面是一个非常有用的链接，指向最好的强制对齐工具列表：https://github.com/pettarin/forced-alignment-tools

就我个人而言，我使用了埃涅阿斯，因为它对我非常有用。

票数 2

Stack Overflow用户

发布于 2021-04-08 12:10:43

是的，这是可能的。我假设你知道关于音频技术的基本术语。

检查库https://www.geeksforgeeks.org/python-speech-recognition-on-large-audio-files/

库可以逐块读取任何音频文件。可以将音频文件传递给文本转换，并进一步逐块采集文本结果。

另外，如果音频文件的SampleRate是44100，那么8192块将代表大约185毫秒的时间单位。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67000827

复制

相似问题

问如何匹配Python中的文本和音频？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何匹配Python中的文本和音频？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何匹配Python中的文本和音频？
EN