腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
CSDN博客
本人的CSDN博客:https://yeyupiaoling.blog.csdn.net/
专栏作者
举报
151
文章
243808
阅读量
35
订阅数
订阅专栏
申请加入专栏
全部文章
深度学习
人工智能
神经网络
https
python
android
网络安全
编程算法
语音识别
tensorflow
java
图像识别
人脸识别
机器学习
xml
打包
声纹识别
模型
pytorch
c++
云数据库 SQL Server
ide
github
api
linux
腾讯云测试服务
http
数据
语音
bash
node.js
android studio
数据库
sql
ubuntu
文字识别
网站
开源
卷积神经网络
windows
程序
日志
php
c#
json
phpmyadmin
flask
git
tomcat
centos
容器镜像服务
访问管理
TDSQL MySQL 版
语音合成
容器
存储
opencv
lan
服务
系统
音频
源码
负载均衡
servlet
jsp
jquery ui
css
html
mvc
matlab
负载均衡缓存
nginx
bash 指令
spring
黑石物理服务器
文件存储
视频处理
serverless
游戏
缓存
爬虫
html5
强化学习
正则表达式
gui
numpy
监督学习
线性回归
keras
tcp/ip
迁移学习
powershell
数据分析
腾讯云开发者社区
sdk
验证码
detection
function
overflow
random
system
time
transform
voice
web
并发
服务器
工具
框架
视频
调试
搜索文章
搜索
搜索
关闭
实时指令唤醒
time
程序
模型
日志
数据
本文将介绍一个实时指令唤醒的程序,可以添加任意的指令,实时录音一旦检测到指令语音,激活程序。同时还支持指令微调、提高指令的准确率。
夜雨飘零
2023-12-18
116
0
语音指令控制坦克大战
游戏
程序
模型
日志
数据
本文将介绍一个可以通过语音指令来控制坦克大战游戏的程序,用户只需要添加几个疾病区然后控制坦克进行向上、向下、向左、向右、开火、停止等操作。同时还支持指令微调、提高指令的准确率。
夜雨飘零
2023-12-18
130
0
识别准确率竟如此高,实时语音识别服务
语音识别
并发
服务
框架
源码
本文将介绍一个准确率非常高的语音识别框架,那就是FunASR,这个框架的模型训练数据超过几万个小时,经过测试,准确率非常高。本文将介绍如何启动WebSocket服务和Android调用这个服务来实时识别,一边说话一边出结果。
夜雨飘零
2023-10-23
524
0
轻松快速搭建一个本地的语音合成服务
语音合成
服务
服务器
模型
源码
本文将介绍一个可以快速搭建本地语音合成的服务,模型和代码已全部提供,不需要联网运行。项目使用的是VITS模型结构,能够很轻松地启动服务。
夜雨飘零
2023-10-23
367
0
FunASR语音识别GUI界面应用
gui
语音识别
模型
视频
音频
本文将介绍一个基于FunASR开发的语音识别界面应用,这个应用可以选择本地音频,也可以录音识别。支持多种音频格式和视频格式,可以对识别的结果加上时间戳做成字幕。
夜雨飘零
2023-10-09
689
0
基于PaddlePaddle实现的声纹识别系统
声纹识别
模型
系统
音频
语音
本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接,除此之外,还支持AMLoss、ARMLoss、CELoss等多种损失函数。
夜雨飘零
2023-08-21
294
0
基于Pytorch实现的声纹识别系统
声纹识别
pytorch
数据
系统
语音
本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接,除此之外,还支持AMLoss、ARMLoss、CELoss等多种损失函数。
夜雨飘零
2023-08-21
421
0
微调Whisper语音识别模型和加速推理
语音识别
pytorch
transform
OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调,目前开源了好几个模型,具体可以在openai查看,下面列出了常用的几个模型。另外项目最后还对语音识别加速推理,使用了CTranslate2加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。
夜雨飘零
2023-06-04
2.8K
0
微调Whisper模型和加速推理
语音识别
程序
模型
数据
语音
OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调,目前开源了好几个模型,具体可以在openai查看,下面列出了常用的几个模型。另外项目最后还对语音识别加速推理,使用了CTranslate2加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。
夜雨飘零
2023-04-30
1.9K
0
基于PaddlePaddle实现的目标检测模型PP-YOLOE
android
python
json
本项目是基于PaddleDetection实现的PP-YOLOE,PP-YOLOE是单阶段Anchor-free模型,其精度(COCO数据集mAP)和推理速度均优于YOLOv5模型,PP-YOLOE在COCO test-dev2017数据集上精度达到49.0%,在单卡V100上FP32推理速度为123.4FPS, V100上开启TensorRT下FP16推理速度为208.3FPS。其中还包含了X/L/M/S四种模型类型,适合部署在多种多样的硬件上,在手机上部署,推理速度也是极快的。
夜雨飘零
2022-11-30
569
0
使用VAD将长语音分割的多段短语音
detection
voice
web
工具
语音
今天来介绍一个VAD的工具,VAD(Voice Activity Detection)语音活动检测,是可以把一段长语音以静音位置把语音分割成多段短语音,常见的就用WebRTC VAD工具,目前很多项目都是用这个工具,但是今天作者介绍的是另一个工具,这个工具是PPASR的一个小功能,这个功能是基于深度学习实现的。
夜雨飘零
2022-11-28
1.3K
0
基于PaddlePaddle训练中文标点符号模型
深度学习
神经网络
人工智能
语音识别
本想是基于PaddleSpeech开发的中文标点符号模型,默认使用的预训练模型为ernie-3.0-medium-zh。该模型可以用于语音识别结果添加标点符号,使用案例PPASR。
夜雨飘零
2022-09-30
1.2K
0
使用PaddlePaddle轻松实现语音合成
语音合成
android
flask
神经网络
深度学习
使用PaddlePaddle轻松实现语音合成,提供了简单的示例代码,GUI界面操作,还有Flask的Web接口,可以给Android调用。
夜雨飘零
2022-09-07
1.1K
0
使用PaddlePaddle搭建一个可以识别数千中动物
android
flask
神经网络
深度学习
人工智能
使用PaddlePaddle实现的数千种动物识别,提供了简单的示例代码,GUI界面操作,还有Flask的Web接口,可以给Android调用。
夜雨飘零
2022-09-07
249
0
基于Pytorch实现的语音情感识别
pytorch
在语音情感识别中,我首先考虑的是语音的数据预处理,按照声音分类的做法,本人一开始使用的是声谱图和梅尔频谱。声谱图和梅尔频谱这两种数据预处理在声音分类中有着非常好的效果,具体的预处理方式如下,但是效果不佳,所以改成本项目使用的预处理方式,这个种预处理方式是使用多种处理方式合并在一起的。
夜雨飘零
2022-09-07
1.7K
0
基于Pytorch实现的EcapaTdnn声纹识别模型
神经网络
深度学习
人工智能
python
声纹识别
本项目使用了EcapaTdnn模型实现的声纹识别,不排除以后会支持更多模型,同时本项目也支持了多种数据预处理方法,损失函数参考了人脸识别项目的做法PaddlePaddle-MobileFaceNets ,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接。
夜雨飘零
2022-05-10
2.3K
0
给语音识别文本加上标点符号
神经网络
深度学习
人工智能
语音识别
https
在语音识别中,模型输出的结果只是单纯的文本结果,并没有根据语法添加标点符号,本教程就是针对这种情况,在语音识别文本中根据语法情况加入标点符号,使得语音识别系统能够输出在标点符号的最终结果。
夜雨飘零
2022-05-10
2.6K
0
常见公开人脸数据集的获取和制作自定义人脸数据集
人脸识别
python
https
http
网络安全
开发人脸识别系统,人脸数据集是必须的。所以在我们开发这套人脸识别系统的准备工作就是获取人脸数据集。本章将从公开的数据集到自制人脸数据集介绍,为我们之后开发人脸识别系统做好准备。
夜雨飘零
2022-05-10
4.1K
0
基于PaddlePaddle实现的DeepSpeech2端到端中文语音识模型
神经网络
深度学习
人工智能
语音识别
windows
本项目是基于PaddlePaddle的DeepSpeech 项目开发的,做了较大的修改,方便训练中文自定义数据集,同时也方便测试和使用。DeepSpeech2是基于PaddlePaddle实现的端到端自动语音识别(ASR)引擎,其论文为《Baidu’s Deep Speech 2 paper》 ,本项目同时还支持各种数据增强方法,以适应不同的使用场景。支持在Windows,Linux下训练和预测,支持Nvidia Jetson等开发板推理预测。
夜雨飘零
2022-01-13
2.2K
0
基于Pyramidbox实现的大规模人脸检测
人脸识别
神经网络
深度学习
人工智能
黑石物理服务器
今天来水一片文章,基于开源的Pyramidbox大规模人脸检测编写的PaddlePaddle教程,为了方便训练预测,本教程做了一定的修改。这个模型虽然大,但是符合大规模人群中也可以准确地检测到人脸,就是遮挡比较严重也能正确检测。
夜雨飘零
2021-12-07
591
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
点击查看
热点技术征文第五期
新风口Sora来袭,普通人该如何把握机会?
立即参加
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档