首页
学习
活动
专区
圈层
工具
发布

#语音

从东北小城走出的AI语音破局者——魏佳星与云蝠智能的 “背水一战”

数据猿

近日,在南京VoiceAgent实时语音大会上,云蝠智能带着VoiceAgent 2.0惊艳亮相!虽在众声喧哗的智能语音赛道中音量不算最大,但这家公司的资历与积...

200

AI智能体的“五官”与“四肢”:多模态感知与行动技术深度解析

用户6320865

语音感知使AI能够“听”懂人类语言,甚至理解语音中的情感和意图。语音感知技术主要包括语音识别和自然语言处理(NLP)两大方向。

3210

中国AI Agent产业化参考范本:斑马口语攻克的四大技术难关

机器之心

不过现实很骨感。一个完整的语音交互链路包括 ASR 语音识别(500-800ms)、大模型推理(700-1200ms)、TTS 语音合成(300-500ms),...

8710

Voices 能够让 Java 应用程序快速实现文本到语音转换

深度学习与Python

Coles: 我需要从 Java 生成语音,而大多数现代文本转语音(Text to Speech,TTS)库都是用 Python 编写的。最初,我将 piper...

8510

阶跃星辰语音模型负责人杨学锐确认出席 QCon 上海,分享从语音表征到模型架构的端到端语音模型实践

深度学习与Python

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+ 可落地的实践案例!

10410

读懂5G新通话:可能是AI落地千行万业的首个全民级场景

Alter聊科技

如果你打过客服电话,大概率会有这样的体验:机械的语音提示一遍又一遍,“业务咨询请按1……人工服务请按0”,层层语音导航后,好不容易接通了人工,却又被告知“请您关...

13510

智元发布LinkCraft,针对人形机器人的“剪映”APP

点云PCL博主

除了将人类动作转化为机器人动作外,LinkCraft 还提供语音表演功能。用户可以通过三种方式与之交互:上传音频、在线录音或使用语音合成。

7910

一部爆燃MV,窥见国产大模型的天花板:音乐界DeepSeek背后的“思维链”核心技术解读

AI生成未来

Mureka 最新版本还上线了 TTS(Text To Speech,即文本转语音)功能,用户可以在 Mureka 同时体验 AI 音乐与 AI 语音生成,AI...

15810

AI的倾听艺术与语音交互温度教学——从语料清洗到唤醒响应的系统实践

安全风信子

四、系统拓扑(Mermaid) 引子:声音是一条不稳定的河流。我们在语料的沙砾间清洗、在唤醒的涟漪里判断,在ASR与NLU的桥上与人交谈,再用TTS把冷静而温...

12810

开源TTS语音克隆神器GPT-SoVITS_V2版本地整合包部署与远程使用生成音频

用户8589624

随着AI配音技术不断迭代,我们现在在视频平台经常能看到使用各种名人或是明星的声音,通过AI制作后达到以假乱真效果的各种搞笑视频或是音乐作品等娱乐内容。这个技术的...

51210

超好用的PC端语音转文字工具CapsWriter-Offline结合内网穿透实现远程使用

用户8589624

本文主要介绍如何在Windows系统电脑端使用这款超好用的PC端语音转文字工具CapsWriter-Offline,并结合cpolar内网穿透轻松实现使用客户端...

17810

32_语音到文本:Whisper与LLM集成_深度解析

安全风信子

OpenAI的Whisper作为一款开源的语音识别系统,在过去几年中经历了显著的演进。2025年的Whisper技术已经从最初的基础语音转文本功能,发展成为具备...

17010

2025年多模态AI系统中的语音处理与跨模态转换技术

安全风信子

多模态AI是指能够同时处理和理解语音、文本、图像、视频等多种模态信息的人工智能系统。语音处理是多模态AI的重要组成部分,它涉及语音识别、语音合成、语音理解等多个...

16210

Spring Boot快速集成MiniMax、CosyVoice实现文本转语音

程序猿DD

在一些需要高质量文本转语音(TTS)的场景中(比如:有声书配音、播客等)。之前介绍的EdgeTTS方案可能效果没有那么好。此时就比较推荐使用 MiniMax、C...

14710

Spring Boot集成免费的EdgeTTS实现文本转语音

程序猿DD

在需要文本转语音(TTS)的应用场景中(如语音助手、语音通知、内容播报等),Java生态缺少类似Python生态的Edge TTS 客户端库。不过没关系,现在可...

13110

社交系统开发,社交系统源码,社交系统技术架构与技术方案

钠斯音视频开发-林经理

所有写入操作走幂等与限流策略(用 Redis lock / token),关键操作(发帖、支付)做事务与重试。

11900

马斯克的思维利器:用第一性原理重构产品路线图的8大实战法则

半吊子全栈工匠

【引】在自己的职业生涯里, 有一段时间从事CPO的工作,于是才有了更多的关于AI产品经理的对话。尽管那是一段不成功的经验,但仍然有所收获。对于产品设计而言,知道...

29010

服务机器人选择屏幕的逻辑

用户2423478

例如:酒店接待机器人需高颜值与语音交互,选OLED单屏+语音跟踪;仓库巡检机器人需强抗振与低成本,选工业级LCD+电容触控。

11610

语聊app开发,从0开发语聊app方案,语聊系统开发过程,实时音视频社交系统源码开发

钠斯音视频开发-林经理

本文全面解析语聊APP开发架构设计方案,涵盖RTC语音通话、IM消息系统、礼物互动、后台管理与高并发部署思路,适用于语聊平台与社交系统开发参考。

13510

多模态智能体开发的关键技术解析:从感知融合到自主决策

gavin1024

多模态智能体正成为AI发展的核心方向,其通过融合文本、图像、语音等多元信息,实现近似人类的感知与决策能力。本文深入剖析多模态智能体的关键技术,并结合腾讯云智能体...

34310
领券