前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >FunASR语音识别GUI界面应用

FunASR语音识别GUI界面应用

作者头像
夜雨飘零
发布2023-10-09 08:24:14
8240
发布2023-10-09 08:24:14
举报
文章被收录于专栏:CSDN博客CSDN博客

前言

本文将介绍一个基于FunASR开发的语音识别界面应用,这个应用可以选择本地音频,也可以录音识别。支持多种音频格式和视频格式,可以对识别的结果加上时间戳做成字幕。

安装环境

  1. 安装Pytorch,根据自己机器的情况可以选择安装CPU版本或者GPU版本的Pytorch。
代码语言:javascript
复制
# 安装CPU版本的Pytorch
conda install pytorch torchvision torchaudio cpuonly -c pytorch
# 安装GPU版本的Pytorch
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
  1. 安装ffmpeg和pyaudio。
代码语言:javascript
复制
conda install ffmpeg pyaudio
  1. 安装其他依赖库。
代码语言:javascript
复制
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

使用

执行main.py即可启动程序,一共有四个功能,分别是短语音识别、长语音识别、录音识别、播放音频。

  1. 短音频识别,可以选择一个较短的音频或者视频,便可得到结果,这个长度没有固定的限制,一般把小于30秒或者50秒的作为短音频。
在这里插入图片描述
在这里插入图片描述
  1. 长音频识别,长音频识别有两种模型,第一种是不添加时间戳的,全部结果拼接起来。长音频识别的方式其实就是使用VAD模型把长音频裁剪成多段的短音频,然后再识别的。
在这里插入图片描述
在这里插入图片描述
  1. 长音频识别(时间戳),第二种是显示时间戳,可以知道每句话开始的时间和结束的时间,可以用于制作字幕。
在这里插入图片描述
在这里插入图片描述
  1. 录音识别,录音识别是一边说话一边出结果,这种识别方式是流式的。当点击停止录音之后,是使用全部的录音再次执行识别,提高最终的准确率。
在这里插入图片描述
在这里插入图片描述
  1. 播放音频,当选择了音频或者录音识别了,可以点击播放音频按钮播放音频,只能播放音频格式,不支持播放视频格式。
在这里插入图片描述
在这里插入图片描述
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2023-10-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 安装环境
  • 使用
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档