语音字幕_语音转字幕_字幕语音识别 - 腾讯云开发者社区

我有一个视频，我想创造字幕。是否有一个程序可以执行基本的语音到文本以便设置每个字幕的正确开始/停止创建基本的文本字幕(使用某种语音到文本) 我知道gnome-字幕的事。然而，手工创建这些字幕需要付出大量的努力。你需要为每句话选择开始和停止。 YouTube具有上述功能(使用语音到文本在正确的时间创建基本的文本字幕)。然而，我宁愿不上传视频到YouTube仅仅是为了得到我的字幕。有可能在Ubuntu上高效地制作字幕吗？更新:我计划只使用.srt字幕，不需要在视频上硬编码。我最大的要求是让程序自动找到每个句子的开始/停止，这样我就可以在其中写课文了。更新2:有用于Linux的语音到文本软件

浏览 0提问于2011-01-31得票数 20

回答已采纳

1回答

根据.srt中显示的时间分割电影音频

、

我从一部电影中提取了音轨。我有它的.srt格式的字幕文件。我想将音频切片到语音文件中，根据字幕文件中可用的时间，这样我就可以得到转录的语音数据。请提出任何方法来做到这一点。

浏览 0提问于2016-06-29得票数 0

回答已采纳

1回答

使用语音框架iOS从音频文件生成字幕

、、、、

在我的应用程序中，我在AvPlayer的帮助下使用url播放音频。现在我想在其中添加对字幕的支持。iOS 10引入了，它可以帮助我们识别实时语音和录音语音。根据苹果的说法： “您可以对实时音频和录制的音频执行语音转录。例如，您可以获得语音识别器并使用如下代码启动简单的语音识别： let recognizer = SFSpeechRecognizer() let request = SFSpeechURLRecognitionRequest(url: audioFileURL) recognizer?.recognitionTask(with: request, resultHandler: {

浏览 15提问于2016-07-25得票数 1

1回答

是否有方法编码由语言管理的多个音频和子流？

、、

所以，我有一个装满了..mkv的文件夹，我有一个可以将它们全部转换成MP4的文件夹--这些新文件现在有多个音频和字幕流，一个eng，一个ger，一个jap，对于同样的字幕，有什么方法可以很容易地指定使用f.e。德语音频和刻录英语字幕。我的一条衬里： for /R %f IN (*.mkv) DO ffmpeg -i "%f" -c copy "%~nf.mp4" 我要如何修改这个衬垫才能正常工作。我发现使用-vf subtitles=foo.ass可以硬编码字幕，但是如何从文件中选择一个音频和或字幕流呢？我该如何选择f.e。一个音频atream但没有字幕流我发

浏览 3提问于2020-07-17得票数 0

回答已采纳

1回答

通过语音识别从预先存在的脚本中生成字幕

、、、

假设我有音频和该音频的明文文本，我如何使用语音识别以编程方式从这两个字幕生成字幕？这与YouTube在编辑视频时在其字幕/字幕页面上提供的功能非常相似。有什么API可以做到这一点？它的一些挑战是什么？我精通Java/C#，但这是语言不可知的。

浏览 1提问于2012-07-01得票数 1

0回答

语音识别ASR (一句话、实时语音)能够实现声音与文字一一对应吗？

项目需求，需要实现在播放语音时同时将文字进行匹配，实现类似歌词字幕的效果。由于接口上没有看到文字相对于语音的时间参数或之类的参数。请教下各位大牛腾讯的语音识别ASR能够实现吗？

浏览 644提问于2018-10-23

1回答

使用Youtube作为语音识别数据集

、

DNNs是一种巨大的数据需求算法，尤其是双向LSTM算法.对于语音识别模型，对于特定的语言/口音，缺少语音语料库。然而，YouTube也是一个巨大的库。我需要使用一些脚本/软件，它可以自动下载YouTube视频(可能只有音频)和相关的字幕，然后将其分割成20秒的片段，这样就可以用作训练语音语料库。有没有任何方式可以下载来自Youtube的字幕？给出一个音频和脚本，我如何将一个音频分割成20秒的片段，并在文字记录中做同样的剪辑？

浏览 0提问于2018-12-21得票数 0

5回答

MP3/WAV到文本(语音识别)

、

我正在寻找一个软件( Windows或Linux)，可以将MP3/WAV文件转换为文本。可以通过语音识别自动生成文本的内容，如YouTube上的自动字幕，但可以将这些字幕输出到文本文件中。

浏览 0提问于2015-06-28得票数 13

3回答

如何做一个未经训练的语音到文本的转换器？

、、

我从很小的时候就有严重到很严重的耳聋，但幸运的是我可以像正常人一样说话。口头交流对我来说一直很困难，因为我的语音识别能力受到了损害，即使是读唇语也是如此。我读完了学校和大学，只是通过阅读黑板、powerpoint幻灯片、书籍和互联网。我在目前的软件工程工作中做得很好，但最近我觉得我必须努力让我的情况变得更好。字幕是我在这个国家理解电视电影/节目的救命稻草，我只是在过去的7年里才喜欢上字幕(我现在31岁了)。我强烈地感到有必要在现实生活中看到字幕，无论何时我与某些人交谈，甚至是陌生人。我想开发一个未经训练的语音到文本的转换器，作为开始，它甚至不需要为我拼写确切的单词，只需音节/语音提示就可以

浏览 3提问于2009-12-05得票数 6

1回答

语音识别，如何将结果生成字幕，正则表达式如何写？

、

语音识别，如何将结果生成字幕，正则表达式如何写？

浏览 253提问于2021-03-24

1回答

文字转语音，生成音频文件后，如何再生成字幕文件？

使用文字转语音功能后，在生成音频文件后，如何同时再生成字幕文件？

浏览 336提问于2022-06-09

回答已采纳

2回答

语音到文字Java应用程序的实时字幕可能吗？

、、

这是将Google语音转换为文本API：我想开发应用程序：该应用程序在本地主机上启动。我向打开浏览器该应用程序显示简单的用户界面，主窗口显示来自笔记本电脑扬声器的任何英语音频的实时字幕，这可能是放大视频呼叫，参与者正在发言，我也在本地的web应用程序中看到了实时字幕。使用滚动条的窗口中的屏幕上仍保留有活动标题。活动标题保存在文本文件中，而新标题则继续在文本文件中追加。重要的是，字幕要有最好的准确性和显示标题的速度，因为人是在说话。能否做到这一点？如果不可能使用Google，那么替代API是什么呢？

浏览 11提问于2022-04-12得票数 -4

回答已采纳

1回答

基于视频文件的Google语音识别

、、

我想使用谷歌语音服务不是麦克风，而是视频文件。例如，一个视频文件正在我的计算机上播放，谷歌语音识别程序正在识别视频的音频流。Youtube的自动字幕功能。我怎样才能使用G.S.R？

浏览 5提问于2017-08-03得票数 4

回答已采纳

1回答

如何纠正/移动SRT (SubRip)文件中的字幕时间？

、、

如何前后调整字幕时间？字幕时间格式如下所示：00:00:52,656 --> 00:00:56,326 如果字幕和音频不同步，例如，字幕出现在语音/音频之前，那么字幕行的所有时间(时间格式：00:00:52,656 --> 00:00:56,326)都应该更正。因此，如果所有字幕行的时间必须更改/移动2秒。因此，这一次字幕行：00:00:52,656 --> 00:00:56,326应该改为：00:00:54,656 --> 00:00:58,326。这指的是字幕文件中的所有时间，而不仅仅是一行文本/一次。 SubRip (.srt)文件的外观示例： 1 00:0

浏览 2提问于2012-10-12得票数 6

回答已采纳

2回答

ffmpeg :如何在一个命令行中从视频文件中提取第一个视频，英文音频和法语字幕？

我读过很多关于用ffmpeg提取每种语言的流的帖子，但似乎-map 0:m:language:xxx是全局的，适用于所有的流。假设我有一个视频文件，其中可能包含一个英语音频流和一些法语字幕流，以及可能的许多其他流。我想得到一个较小的文件与第一个视频轨道，(第一)英语音频流和所有的法语字幕流。如果我运行 ffmpeg -i "$file" -map 0:v:0 -vcodec copy -map 0:m:language:eng -acodec copy -map 0:m:language:fre -scodec copy -f matroska "${file%.*

浏览 50提问于2020-05-14得票数 1

回答已采纳

1回答

YouTube歌曲歌词识别

、、、、

许多YouTube视频都有歌词的自动字幕。我们相信他们正在使用谷歌语音识别API。然而，当我们使用谷歌语音识别API (或任何语音识别API)，我们没有得到准确的歌词。有时候，我们只能从这首歌中得到一行。为什么会这样？有没有人建议从一首歌中获得实时歌词？或者是用来训练音频的API/库？谢谢你的帮助!

浏览 10提问于2021-08-11得票数 0

回答已采纳

1回答

假设有一个音频文件，其中一个人在读一个句子。如何用C、C++或java程序知道演讲的开始和结束时间

我正在做自动字幕生成项目。我的方法是1.音频提取(使用ffmpeg完成) 2.语音到文本(可以使用sphinx 4完成，但不是很准确) 3.字幕生成。(这里我需要帮助) 假设有一个音频文件，其中一个人在读一个句子。如何在C、C++或java程序中知道演讲的开始和结束时间我们需要在字幕文件中的特定行的开始和结束时间。那么，这里如何检索谈话开始和结束的时间？有什么想法吗？有没有可能用声学公式来做。

浏览 0提问于2013-03-18得票数 0

6回答

有没有一个speech to text API或者一些"hack“，我可以通过它来使用Google的speech to text工具？

、

我认为谷歌的语音转文本功能(谷歌语音邮件的自动转录，YouTube上视频的自动字幕等)令人印象深刻。我确实查看了Google是否通过API提供了它，但似乎没有(我并不是在责怪他们！)。不过，提供语音到文本功能的云计算服务将非常酷。有没有什么“黑客”可以用来访问语音到文本。我的架构基本上归结为这一点--一个简短的15-20秒的wav/mp3/其他剪辑作为输入，输出是纯文本。大家有什么想法吗？

浏览 3提问于2010-05-12得票数 4

4回答

在FFmpeg中用语言映射流

、、

我有很多带有多种音频和字幕语言的文件，但是音轨号码不一致(英语音频流并不总是第一个)，所以使用如下命令： ffmpeg -i "input.mkv" -map 0 -map -0:a:1 -c:v copy -c:a copy "output.mkv" 不会产生预期的结果。在四处搜索之后，我发现可以使用以下命令根据语言映射流： ffmpeg -i "input.mkv" -map 0 -map -0:m:language:eng -c:v copy -c:a copy "output.mkv" 然而，-map -0:m:langu

浏览 7提问于2016-12-02得票数 7

回答已采纳

0回答

小程序能否实现直播智能字幕？

、、、、

我想问一下，小程序中调用了腾讯云的云直播功能后，能否在直播中再插入语音识别API来实现智能字幕。如果可以的话大概可以怎么实现这一功能呢？

浏览 268提问于2020-03-04

1回答

为语音识别创建上下文无关文法

、、

我们想要创建一个语法文件。除了(hello|goodmorning)(jack|jill)之外，有没有其他方法可以先指定第一个单词的可能集合，然后指定第二个单词的集合？我们使用它来识别视频中的语音，以生成字幕。

浏览 2提问于2012-03-16得票数 0

1回答

如何正确地淡出带有subs和两个音频流的视频？

我是结合一个视频流，一个音频流(音乐)，另一个音频流与偏移(语音)和字幕。现在我正试图把所有的东西都淡出最后。我没有字幕就开始工作了。一旦我添加字幕，结果就不再正确地消失了。以下是我所尝试的： ffmpeg -ss 00:00:00 -i galaxy.mp4 -i acoustic.m4a -itsoffset 00:00:03 -i speech.m4a -to 00:00:15 \ -vf "fade=t=out:st=10:d=5" \ -vf "subtitles=speech-resync.srt" \ -af "afade=t=

浏览 6提问于2022-08-28得票数 0

回答已采纳

3回答

Android上的实时呼叫转录

、、

我是一名Android开发人员，患有听力障碍，目前我正在探索在Android中使用speech Recognizer API制作语音转文本应用程序的选项。在我的国家，隐藏字幕电话和Innocaption在中不可用。潜在的应用可能类似于电话呼叫期间的字幕。该API用于捕获语音命令，而不是用于实时实时转录。我甚至可以将它作为一个服务来实现，但在它交付了一个结果或部分结果后，我需要不断地重新启动它，这在会话设置中是不可行的(服务重新启动时会丢失单词)。请注意，我不需要100%的准确性为这个应用程序。许多听力受损的人发现，有一些对话的上下文来帮助他们是有用的。所以我实际上不需要评论这是如何不准确

浏览 4提问于2014-09-12得票数 5

1回答

同步视频中的字幕

、、

我有一个文本文件，所有的话都在视频中说在正确的顺序，但没有时间参考。有没有办法使用这个文本文件在视频中放置字幕？我能想到的一种方法是使用语音识别，但大多数算法都不太准确，无法完成这项任务。

浏览 3提问于2016-01-20得票数 2

1回答

如何将WebRTC录制的音频流传送到Google Speech api进行实时转录？

、、

我想做的是用webRTC在浏览器中实时录制视频。用例基本上是实时字幕，就像谷歌的hangouts一样。因此，我在浏览器中运行了一个WebRTC程序。它将webm对象发送回服务器。它们是linear32音频编码。谷歌语音到文本只接受linear16或Flac文件。有没有办法将linear32实时转换成linear16？否则，有没有人能够将webRTC与谷歌语音连接起来，以使实时转录工作？任何关于如何解决这个问题的建议都是很棒的。

浏览 22提问于2020-03-23得票数 4

1回答

基于Dart的实时语音转录

、、、、

我在实时语音记录方面有问题。在我的应用程序中，人们可以根据自己的语言选择打电话给对方，我想实时向用户展示对话的字幕。我使用Agora作为视频通话功能。可以添加实时转录吗？我找到了Google ，但是没有足够的文档支持dart。如果你能给我一些起点，我会很高兴的

浏览 5提问于2020-04-27得票数 4

1回答

HTML5 p2p通信

、、、、

我需要构建一个web应用程序来在一个实时流上注入实时字幕。字幕将由带有语音识别软件(或打字员)的操作员生成，在浏览器上填充文本区域。使用者将是浏览器中的HTML5视频标记。理由很简单，可能比网络聊天更简单(这是一种单向交流)。这是我目前的实现：在生产者(当有新文本时)，我通过AJAX调用服务器上的一个编写脚本，该脚本将文本写入文件。在使用者上，我不断地通过ajax (使用"comet“轮询)调用服务器上的一个读取器脚本，这给我返回新的文本，我在视频标记上插入这个文本来呈现字幕。这个实现很有效，但是看起来很复杂，我对它不太满意.有任何关于“更聪明”或更干净的架构

浏览 2提问于2012-04-05得票数 1

回答已采纳

1回答

如何将mkv (带字幕)转换为Nexus One友好的内容？

、、、、

我有这个ffmpeg一行代码，它可以很好地为我的Nexus One生成视频文件： ffmpeg -i infile.mkv -acodec aac -s 572x238 -vcodec libx264 -vpre ipod640 -ab 128k -b 512k -f mp4 -strict experimental outfile.mp4 但是它可以忽略infile.mkv中的字幕--通常不成问题，除非我正在处理一部非英语电影。在这种情况下，我想使用日语音轨和英文字幕。有趣的是，我可以通过-alang和-slang使用mplayer来播放它，但不知道如何使用mencoder来制作Nexus

浏览 3提问于2011-12-21得票数 0

回答已采纳

1回答

从一个mkv到另一个mkv的FFMPEG音频流/层和SRT

、、

我有个FFMPEG问题要问你！问题我有两个文件(X265) 01.具有多个音频蒸气和多个字幕的mkv(具有精确的名称层) 02.具有多个音频蒸汽和多个字幕的mkv(具有精确的名称层) 我想添加特定的音频层(GER)和特定字幕(GER)从02.mkv到01 mkv，如果可能的话。(元数据在文件02.mkv中的位置几乎总是随机的，所以我不能说它是"-map 0:s:2 for ger subtitle“) 我已经搜索并尝试了多种解决方案. 这种方法可以处理多个步骤，但在处理过程中会丢失音频和字幕元数据(Title)。从02.mkv到aac的德语音频层提取 ffmpeg -i 02.m

浏览 7提问于2022-07-13得票数 -1

1回答

通过自定义检查器编辑字符串列表不起作用

、

我正在制作一个语音线路+字幕系统，使用自定义检查器使它更容易使用。所有的一切都是完美的，直到我试图展示一个副标题EditorGUILayout.TextField类似于我是如何使用EditorGUILayout.ObjectField的声音音频剪辑。这是可行的(没有字幕功能)： showAudioClipList = EditorGUILayout.BeginFoldoutHeaderGroup(showAudioClipList, new GUIContent("Audio Clips", "Audio clips available to play when int

浏览 2提问于2020-01-04得票数 0

回答已采纳

1回答

有什么工具可以生成带有候选场景更改的空白SRT文件？

、、、

我想在不存在SRT文件的视频文件中添加字幕。是否有任何工具可以自动扫描视频的音频，并创建一个只包含时间戳的空白SRT文件？我尝试了VisualSubSync，但是内置的扫描场景更改工具显然只适用于现有的SRT文件。基本上，我正在寻找一个开源离线等价的 (没有语音识别功能)。

浏览 4提问于2017-11-04得票数 0

2回答

使用Microsoft.CognitiveServices.Speech从网络流中获取实时文字记录

、、

我们正在计划一个POC，在那里我们向SpeechRecognizer提供一个多播流，比方说，一个新闻发布会，希望得到一个“实时”的文字记录，然后我们可以用来进行实时字幕。到目前为止，我看到了两个挑战：第一个问题是，我不知道如何“抓取”多播流并将其提供给SpeechRecognizer。如果有人愿意分享一个代码示例来说明如何做到这一点(最好是用C#)，那将是非常有帮助的。另一件事是与时间相关的。我已经使用麦克风输入做了一些初步测试，当语音或多或少是连续的时，服务一次处理相当大的语音块，导致在我得到任何东西之前有相当大的延迟，这在实时字幕场景中不是理想的。有没有一些设置我可以用来改变“粒度”

浏览 28提问于2020-03-23得票数 0

2回答

Youtube Live流媒体字幕

、、、、

我目前正在开发一个rtsp流语音转录器，作为一项测试任务，我正在考虑为youtube流发送字幕。根据，我用Python编写的代码是： post_fields = datetime.utcnow().strftime('%Y-%m-%dT%H:%M:%S.%f')[:-3] + ' region:reg1#cue1' + "<br>" + word + '<br>' headers = {'content-type': 'text/plain'} url = self.yout

浏览 13提问于2017-04-05得票数 1

回答已采纳

2回答

如何在Mozilla DeepSpeech中将文本保存到文本文件中？

、、

此命令正在工作，并显示输出。但是，我找不到命令将输出保存为文本文件。我有什么选择？我想要生成语音文本来上传youtube视频的字幕(是的，youtube算法无法自动生成) deepspeech --model deepspeech-0.8.2-models.pbmm --scorer deepspeech-0.8.2-models.scorer --audio audio/a.wav 这里有上面的命令输出，但是我不能将输出保存到我需要的文件中。

浏览 9提问于2020-10-07得票数 1

1回答

实时流的WebVTT文件

、、、、

我正在尝试实现实时流的隐藏字幕。视频从源文件中生成，经过编码器转换成m3u8 + ts文件后放入服务器。视频采用3比特率进行自适应流传输。语音到文本转换器提供语音的XML文件以及UTC (我可以更改为任何时区)的时间戳，该时间戳与为其生成的视频流绑定。是否可以使用WebVTT文件中的XML数据？在我的理解中，WebVTT由字幕组成(以hh:mm:sss.mmm格式)，它将在视频中出现的时间。喜欢 WEBVTT X-TIMESTAMP-MAP=MPEGTS:900000,LOCAL:00:00:10.000 00:00:30.006 --> 00:00:30.706 Insta

浏览 0提问于2016-06-21得票数 2

1回答

ffmpeg添加两个字幕文件到同一个mp4

、

我有两个字幕曲目文件：spanish.ass和english.ass。我想把它们插入到mp4中。我可以做其中的一个，但不能两个都做。我正在使用： ffmpeg -i Clean.mp4 -i spanish.ass -c:s mov_text -c:v copy -c:a copy -metadata:s:s:0 language=spa With1CC.mp4 然后 ffmpeg -i With1CC.mp4 -i english.ass -c:s mov_text -c:v copy -c:a copy -metadata:s:s:0 language=eng With2CC.mp4 .

浏览 0提问于2016-02-01得票数 1

1回答

电影或视频VTT的语音识别

、、、、

我试着用timespan获得结果，主要的想法是使用Google对VTT(字幕)进行自动语音识别，但问题是它同时给了我所有的结果，所以我无法知道时间范围。 var speech = SpeechClient.Create(); var config = new RecognitionConfig { AudioChannelCount = 2, Encoding = RecognitionConfig.Types.AudioEncoding.Flac, SampleRateHe

浏览 3提问于2022-09-24得票数 1

0回答

用HLS实现bluemix实时语音转文本

、、、

我有一个工作的应用程序，使用Bluemix语音到文本API，为Http Live流媒体来源提供隐藏字幕。但是，在解析ts文件中的声音时会有一些延迟。我的代码如下： videoProps.stream = WatsonSpeechToText.recognizeElement({ element: myMediaElement, token: videoProps.ctx.token, muteSource: false, autoPlay: false, model:videoProps.ctx.currentModel, timestamps:

浏览 13提问于2016-07-13得票数 0

1回答

Windows上的动态字幕API

、、、、

我正在构建一个Win环球应用程序，它具有观看学生目前正在观看或亲自参加的讲座的现场字幕的功能。我正在寻找一个内置的免费解决方案来做音频到文本操作。 macOS有我们将要使用的语音库，但是在Windows上找不到类似的。在Windows.Media包上找到了文档，但无法确定它是否实际具有audio2text api或仅仅是命令识别。也许有人有在Windows上建立这样的功能的经验？

浏览 7提问于2022-08-31得票数 0

回答已采纳

1回答

是否可以查看mp4的音频波形

、、、

我一直在寻找一种方法来显示mp4文件的音频强度。我找到了很多关于如何处理wav文件甚至正在录制的音频的指南，但我找不到任何关于mp4s的东西。我有一个C#窗口窗体，播放视频，并允许您为其添加字幕。我下一步要做的是添加音频强度的可视表示，这样用户就可以看到下一段语音的位置。要使用Windows Media Player播放视频

浏览 0提问于2014-07-08得票数 0

2回答

音频字幕转录- C++

、、、

我正在做一个项目，在其他与视频相关的任务中，最终应该能够提取视频的音频，并对其应用某种语音识别，并获得视频上所说内容的转录文本。理想情况下，它应该输出某种字幕格式，以便文本链接到视频上的某个点。我在考虑使用Microsoft Speech API (又名SAPI)。但据我所知，它使用起来相当困难。我为语音识别找到的极少数示例(大多数是用于文本到语音的转换，这可能更容易)表现不是很好(他们不能识别任何东西)。例如这个：一些例子使用了一些叫做语法文件的东西来定义识别器正在等待的单词，但是由于我没有对Windows语音识别进行过彻底的训练，所以我认为这可能是在混淆结果。所以我的问题是。对于这样

浏览 0提问于2011-08-28得票数 1

1回答

使用吐司作为CC与文本到发言

、

我想知道是否有一种方法使用演讲稿作为CC (字幕)时使用文字讲话。问题不在于具体的文本，它可以同时显示，而是在正确的时间显示CC。我认为TTS队列可能会有所帮助，但不知道它是如何工作的。蒂娅！米尔顿编辑1我想用吐司作为字幕(CC)。显示相同的文本发送到tts，在吐司味精。编辑2 Ok，让我解释一下这个想法:假设我有一个来自服务的文本，我将从该服务获得的所有文本排成队列，并对用户进行os语音。没关系，而且很管用。现在我想添加tts的字幕。假设我得到了来自服务["This is the first text", "This is the second text

浏览 0提问于2014-05-21得票数 0

2回答

从Facebook视频中读取流

、、、

我想要创建一个服务器，为Facebook上的实时视频创建字幕。我使用谷歌语音把声音转换成文字。然而，为了做到这一点，我需要阅读facebook的直播流。使用Facebook，使用me/live_videos，我得到以下响应： { "status": "LIVE", "stream_url": "rtmp://rtmp-api.facebook.com:80/rtmp/{id}", "secure_stream_url": "rtmps://rtmp-api.facebo

浏览 5提问于2016-12-17得票数 1

回答已采纳

1回答

HTML5视频:从TextArea添加字幕文本

、、

HTML中字幕跟踪的来源是否可能是一个JavaScript字符串？例如，TextArea的上下文？概念HTML： <div> <video id="video" controls preload="metadata" style="float:left;width:17em;"> <source src="http://clips.vorwaerts-gmbh.de/VfE_html5.mp4" type="video/mp4"> </vid

浏览 2提问于2017-03-21得票数 1

回答已采纳

1回答

使用Swift & Xcode显示字幕(标签更改文本)和音频

、、、、

我试图在播放音频的同时显示语音字幕。虽然我设法做到了这一点，但我觉得这并不是我应该做的事情，这就是为什么我必须寻求帮助的原因，因为我在互联网上没有发现任何类似的问题。基本上，我想在非常特定的时刻显示17个句子，这就是为什么我创建了使用延迟的循环，如下文所示。这些句子只是放置在底部的一个标签(@IBOutlet弱var introDisplay: UILabel!)，它每次延迟都会更改文本。我真的没有什么更好的主意，除了currentTime之外，我还没有找到任何特定的currentTime函数，但是当我尝试使用它时，它似乎没有效果。我创造的是： for i in 1...17

浏览 7提问于2017-08-02得票数 0

回答已采纳

3回答

在音频文件中是否有快速找到(不一定识别)人类语音的方法？

、

我想写一个程序，自动同步取消同步字幕。我想出的解决方案之一就是用算法找到人类的语言，并将其调整到它的子项。我发现的API (Google，Yandex SpeechKit)与服务器一起工作(对我来说不太方便)，并且(可能)做了很多不必要的工作来确定到底说了什么，而我只需要知道已经说了些什么。换句话说，我想给它音频文件，并得到这样的东西： [(00:12, 00:26), (01:45, 01:49) ... , (25:21, 26:11)] 是否有一种解决方案(最好在python中)只找到人工语音并在本地机器上运行？

浏览 5提问于2015-09-15得票数 13

回答已采纳

1回答

YouTube的自动字幕比产生了更好的效果(模型:视频，UseEnhanced: true)。这怎么可能？

、、、、

这里我的谷歌语音设置给AI发短信以下是语音到文本AI：的输出文件以下是YouTube自动标题的输出文件：这是视频链接：这是提供给Google：的视频的音频文件。这里我提供分配给SRT文件的时间。 YouTube的SRT： Google to Text的SRT (由YouTube分配的时间)：我比较了一些句子，当然YouTube的自动翻译更好例如 Google文字演讲: Represent the **doctor** representation is one of the hardest part of computer AI you will learn about

浏览 5提问于2020-10-12得票数 4

2回答

将System.Speech与Kinect结合使用

、、、、

我正在为一个大学项目开发一个原型语音到文本字幕应用程序。我将在稍后的项目中使用手势识别，所以我认为使用Kinect作为麦克风源是一个好主意，而不是使用额外的麦克风。我的应用程序的想法是识别自发的语音，比如长而复杂的句子(我知道语音听写不会不完美)。我见过许多Kinect语音样本，其中提到了Microsoft.Speech，但没有提到System.Speech。由于我需要训练语音引擎并将DictationGrammar加载到语音识别引擎中，因此Microsoft.Speech是我唯一的选择。当我使用Kinect作为直接麦克风音频源时，我已经设法让它工作了，但由于我正在加载Kinect以进行视频

浏览 7提问于2011-12-04得票数 30

1回答

Azure言语翻译中每一行的限制长度

、、、

我正在使用Azure语言翻译中的这个代码示例(在C#中)来构建一个用于缩放调用的多语言字幕。我已经很久没有做任何编码了，所以我试着重新开始，但我无法理解的是，是否有办法改变语音识别器拆分行的方式。目前，它等待到有几秒钟的沉默，然后最后确定一个答案。我希望它这样做，但也设定了一个时间，它将打破线，比如说5秒左右，如果人的发言时间更长。有可能吗，有人知道吗？很抱歉，如果这是一个愚蠢的问题，我保证，我让寻找自己，但找不到正确的词。

浏览 9提问于2022-03-18得票数 0