抖音上会议语音转文字 - 腾讯云开发者社区

文章/答案/技术大牛

发布

6回答

目前国内的语音识别技术达到了什么水准？还存在哪些问题？

语音识别

现在技术越来越厉害了，前几年还感觉语音打字特别不靠谱，各种语音助手也相当蠢萌，想问下现在国内语音识别发展到什么水平了？实时且准确的将语音转化成相对应的文本已经达到了什么样的水准？

浏览 2454提问于2018-08-06

1回答

如何在Skype中使用合成语音进行呼叫

pulseaudio、skype、jack、pavucontrol

我的目标是在Skype通话中使用合成语音。这可以用于一种场景，例如同时举行两次会议(一次本地会议，一次远程会议)，而不能大声发言(在本地会议中)。这是可行的，但在远程会议产生的声音，然后立即返回给我，进入耳机的监视器音频流，然后返回到Skype作为输入！所以，这是个回声问题。我需要更直接的东西。我怎么能把合成声音的声音直接输入Skype呢？

浏览 0提问于2014-09-02得票数 2

回答已采纳

3回答

如果我的所有端点都有回波消除，那么在ISDN板中回波消除器的用途是什么？

asterisk、voip、freeswitch

大多数数字电话板(BRI/PRI)都有可选的硬件回波消除器，以替代以星号和FreeSWITCH提供的cpu密集型软件回波消除。如果使用IP电话或软电话与PSTN通信，则不应该有任何回波。即使来电者使用扬声器，回声也应由电话移除。它应该从PSTN的远端移除回声吗？64毫秒或128毫秒回波尾足够远尾回波吗？

浏览 0提问于2013-12-15得票数 1

回答已采纳

2回答

在语音生成中添加重音

algorithm、audio、signal-processing、text-to-speech、language-theory

这个问题的第一部分现在是它自己的，在这里：我想出的是：这实际上更像是一个通用的DSP问题，但我想提出一个编程算法来完成这个任务，而不是一般的想法。

浏览 11提问于2012-03-15得票数 8

回答已采纳

4回答

可用性:语音识别与键盘

usability、speech-recognition、voice、ivr

我们看到越来越多的语音识别实现了，并且对能够做好语音识别的库的需求越来越大。与键盘或小键盘相比，它背后的理由是什么(就可用性而言)？你会出于什么原因投资于这个开发项目？谢谢!

浏览 5提问于2009-05-22得票数 1

回答已采纳

1回答

我正在使用一个语音识别程序(cmusphinx)，它可以从我的数据中返回一个短语。它返回UTF-8字符，当返回一个中文字符(三个字节)时，它将其分成三个单独的字符。例如:当我想要人时，我看到：‰∫∫。实际上，我的函数是以NSString的形式接收短语(由于回绕)，它使用UTF-16。我尝试使用Objective-C的内置转换方法(到UTF-8和从UTF-16转换)，但这些方法使我的字符串保持为三个字符。如何将这三个独立的字符解码为一个utf-8码点的中文字符？

浏览 1提问于2011-10-29得票数 0

回答已采纳

5回答

用语音识别软件编程

productivity

几年前，我很简单地用了“龙”这个词，当时我在想，这是否是一个可行的编程解决方案？同样的问题的回答是这样的，但没有得到答复。

浏览 0提问于2012-05-16得票数 10

回答已采纳

1回答

不读咏叹调内容的声音--行选表的标签

javascript、reactjs、accessibility、wai-aria、voiceover

我在chrome和safari浏览器上都进行了测试，Voice一直忽略了选中行上的aria标签内容。请帮我解决这个问题。但是，这会导致语音而不是以Cell contents follow

浏览 1提问于2019-04-04得票数 0

8回答

有没有办法记录Google相会现场字幕？

google-workspace-for-business、google-hangouts、google-meet

有没有办法记录(并保存)这个全部/全部会议记录记录？

浏览 0提问于2019-10-18得票数 6

2回答

将上面的逗号和尖锐的重音与拉丁语的基本字符结合起来。

html、vba、unicode、ms-word、diacritics

我正在为MS Word (使用VBA)和网站(使用HTML/CSS/JS)开发一个解决方案，以便高效地键入由多个符号组成的字符组合，例如œ̣̄̃́。我需要显示，它由上面的“组合逗号”(U+0313)和“组合尖锐重音”(U+0301)组成。目前我得到的结果是一个堆叠的版本c̓́，虽然我需要的对话是并排的。例如，对于ἄ(03B1+0313+0301)这样的希腊基字符来说，这是可能的，但对于拉丁语字符则不可能。我该如何解决这个问题？

浏览 1提问于2019-10-16得票数 0

回答已采纳

2回答

文字边界的音频挖掘

c#、algorithm、word-boundaries

现在我认为，和必须知道语言，而肌肉记忆和现有的语音字母表将构成语音。随着时间的推移，口音是通过语音字母同化而自然形成的。使用谷歌我发现，，可以潜在地用于语音符号同化。事实上，它看起来是如此的复杂，以至于我不会费心去自动化它，而只使用作为基线。没有侵犯版权的意图。

浏览 3提问于2011-04-25得票数 2

8回答

腾讯刚刚发布的听听音箱运用了哪些人工智能技术及优势何在？

人工智能

4.20号腾讯推出了第一款人工智能硬件产品——听听音箱，其开创了腾讯在AI工程方面的一次重要探索，那么听听音箱运用了哪些人工智能技术还有相比目前市场上的智能音箱体现了哪些优势呢？

浏览 1405提问于2018-04-25

1回答

想要在我的颤音项目中使用Whisper，并且不确定从哪里开始

python、flutter、cross-platform、openai-whisper

关于我想要的应用程序的一些注释:基本上是一个笔记应用程序，记录一个讲座或会议或其他什么，并为你抄写课文，加上一些额外的功能。我希望在本地处理所有的语音，以确保其脱机工作，并减少应用程序对云服务的依赖。目前，我认为这款应用程序只能在pc上运行，但如果可能的话，我也希望它能在Android和IOS上运行。

浏览 12提问于2022-10-12得票数 -1

2回答

使用卡尔曼滤波器进行多边形航迹平滑？

java、geolocation、smoothing、kalman-filter

关于通过多边化进行飞机跟踪，我有以下问题:我们设法实现了一些算法，使用3或4个接收器来计算基于多边化的飞机位置。问题是，这首曲目看起来相当“摇摇欲坠”(请看链接中的图片，很抱歉我不能在这里添加它，因为声誉。) 什么是平滑赛道的好方法？我偶然发现了卡尔曼滤波器。我不是一个数学家，也没有任何机器人或类似的经验。这个级别的数学对我来说是非常难理解的(我很高兴我很好地处理了多边化)。航迹的计算采用闭式算法。也许切换到迭代算法也会有所帮助？那么，在

浏览 2提问于2013-02-06得票数 3

回答已采纳

2回答

如果SIP(会话发起协议)能够获得用户IP，那么为什么需要眩晕或转向呢？

sip

如前所述，SIP可以用用户的SIP地址定位用户IP，那么我们为什么需要眩晕或掉头呢？

浏览 0提问于2014-05-08得票数 2

1回答

单击“演讲到文本转换”

flutter、speech-to-text

我正试图在我的颤音应用程序上实现语音到文本的功能，方法是遵循youtube教程。然而，对于应用程序下一次收听，我必须按两次按钮(以停止上一次会议，然后再次按下重新开始收听)。我想要一个按钮的单一按钮，以转换发言为文字。

浏览 6提问于2022-04-28得票数 0

1回答

基于dropdown提取数据

google-sheets、google-sheets-formula、google-query-language

我想有一个教师姓名的下拉列表，只显示学生和班级出勤率为该选定的教师，但我有问题的行，该教师的名字在出席表上。我尝试使用嵌入在查询公式中的间接公式，并在行引用两边使用&，但一直收到错误消息。

浏览 2提问于2020-11-13得票数 0

1回答

将mp4转换为wav后使用python语音识别获取文件读取错误

python、speech-recognition、text-to-speech、mp4

我一直在使用以下脚本将mp4文件批量转换为wav，使用第二个脚本将语音写入文本。我已经成功地运行了一段时间，并转换了大约2000音频文件。所有文件的长度都小于60秒。这是我将mp4转换为wav的代码： audio.export(wavpath, format = "WAV") 这是我的功能，音频到文字我删减了它，因为我有很多语音识别引擎的选项，但它并没有走

浏览 16提问于2022-02-25得票数 -1

回答已采纳

1回答