首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签语音识别

#语音识别

专业智能高效的语音处理服务

【教程】极简Python接入免费语音识别API

小锋学长生活大爆炸

语音识别(speech recognition)技术,也被称为自动语音识别(英语:Automatic Speech Recognition, ASR)、电脑语音...

2310

鸿蒙应用开发-录音并使用WebSocket实现实时语音识别

夜雨飘零

录音并实时获取RAW的音频格式数据,利用WebSocket上传数据到服务器,并实时获取语音识别结果,参考文档使用AudioCapturer开发音频录制功能(Ar...

3700

语音转字幕:Whisper模型的功能和使用

知识浅谈

总的来说,Whisper模型是一个功能强大、多任务的自动语音识别系统,其开源免费的特点使得它具有很高的灵活性和可扩展性,适用于各种语音识别和语音翻译等场景。

6600

十分钟掌握在 PyTorch 中构建一个深度神经网络,基本组件、步骤和代码实现,从导入模块和定义网络结构到训练和评估网络性能。

叶庭云

深度神经网络(Deep Neural Networks, DNNs),也被称为人工神经网络(Artificial Neural Networks,ANNs),已...

6200

概述小样本学习的具体应用场景

叶庭云

小样本学习(Few-shot Learning,FSL)作为机器学习的一个重要分支,特别强调从极少量的标注数据中学习和泛化的能力。这在众多领域都有广泛的应用,主...

5600

两行代码实现翻译梦?!Argmax全新神器WhisperKit引领开发者跨越语言障碍,一窥未来无界沟通的新时代!

Dlimeng

仙翁科技 · 数据架构 (已认证)

在当今这个智能语音技术飞速发展的时代,自动语音识别(ASR)模型的性能成为了开发者和企业关注的焦点。如何在保证识别精度的同时,提升系统性能并减小模型体积,是摆在...

1900

C#实战:使用腾讯语音识别服务轻松完成音频文件识别功能

IT技术分享社区

今天给大家分享一下使用腾讯语音识别服务轻松完成音频文件识别功能。这里使用的是C#编写的窗体应用。希望对大家了解和快速接入腾讯语音识别服务的朋友提供一些帮助!

16440

搞定语音识别,畅享高效处理 | 开源专题 No.78

小柒

FunASR 是一个基础的语音识别工具包,提供了多种功能,包括语音识别(ASR)、语音活动检测(VAD)、标点还原、语言模型、说话人验证、说话人分离和多讲者 A...

13610

免费GPT-4o来袭,音频视觉文本实现「大一统」

AI科技评论

在音频方面,GPT-4o 的语音识别(ASR)也比 OpenAI 的语音识别模型 Whisper 性能更佳(越低越好)。

10910

『GitHub项目圈选22』推荐5款 深受好评 的AI开源项目

Python兴趣圈

OpenGlass 这个项目可以让你使用不到 25 美元的现成组件,即可将任何眼镜变成可破解的智能眼镜。

24610

【python的魅力】:教你如何用几行代码实现文本语音识别

用户11062259

PocketSphinx 是一个轻量级的语音识别库,它是 CMU Sphinx 开源语音识别系统的一个子集。CMU Sphinx 由卡内基梅隆大学开发,是一个功...

17310

使用Python实现语音识别与处理模型

人类群星闪耀时

通过本文的介绍,我们了解了语音识别与处理的基本原理和实现方法,并使用Python实现了一个简单的语音识别模型。在实际应用中,我们可以根据需求选择不同的特征提取方...

18510

AI:安装Nemo并进行自动语音识别

Freedom123

注意: base 与 studyNemo 的环境相互独立,并不互通,在不同环境中install的包不能相互使用

8310

Python 语音录制与识别

dandelion1990

本文介绍一些 Python 中常用的语音能力的包,以及如何通过调用云服务商的 API 进行语音识别

15210

盘点一个语音识别库报错的问题

Python进阶者

甚至你可以给客户说,离线版的本身就有语音识别率的问题,会有一些识别错误。在线版的会识别率更高,看看客户是否愿意更改为联网版。先给客户一个心理暗示,让他有个准备。...

8410

AI+低代码+语音识别,让用户闭着眼睛开发

否子戈

腾讯 · 前端开发工程师 (已认证)

上篇文章中提到利用 AI 配合低代码平台,可以让用户快速搭建页面和应用。本文将会对这个问题展开聊聊,不讲概念,直接上干货。

11810

openai whisper 语音识别,语音翻译

崔哥

Whisper 是openai开源的一个通用的语音识别模型,同时支持把各种语言的音频翻译为成英文(音频->文本)。

28410

【RV1126】移植sherpa实时语音识别和TTS文字转语音功能

呱牛笔记

参考:【RV1126】移植kaldi实时语音识别 https://blog.csdn.net/qq_28877125/article/details/13037...

26710
领券