首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何匹配Python中的文本和音频?

如何匹配Python中的文本和音频?
EN

Stack Overflow用户
提问于 2021-04-08 09:11:10
回答 2查看 1.1K关注 0票数 1

我有一个音频文件和一个与这个音频文件中的演讲相对应的文本。

有没有办法将文本与音频相匹配,这样我就可以得到类似时间戳的信息,显示文本文件中的单词在音频中的位置。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-04-19 19:50:17

所以我找到了我要找的东西。

显然,将给定的文本与音频匹配并返回确切的时间戳的技术称为强制对齐

下面是一个非常有用的链接,指向最好的强制对齐工具列表:https://github.com/pettarin/forced-alignment-tools

就我个人而言,我使用了埃涅阿斯,因为它对我非常有用。

票数 2
EN

Stack Overflow用户

发布于 2021-04-08 12:10:43

是的,这是可能的。我假设你知道关于音频技术的基本术语。

检查库https://www.geeksforgeeks.org/python-speech-recognition-on-large-audio-files/

库可以逐块读取任何音频文件。可以将音频文件传递给文本转换,并进一步逐块采集文本结果。

另外,如果音频文件的SampleRate是44100,那么8192块将代表大约185毫秒的时间单位。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67000827

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档