首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Fish Agent :最新开源AI实时语音对话代理!音色克隆,模仿情感,声音自然

Fish Agent :最新开源AI实时语音对话代理!音色克隆,模仿情感,声音自然

作者头像
AI进修生
发布2024-12-02 19:44:32
发布2024-12-02 19:44:32
1.4K0
举报
文章被收录于专栏:AI进修生AI进修生

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

以前写过一个叫 Fish Speech 的TTS项目,效果还不错,也是第一梯队的TTS模型。

Fish Speech:最新开源tts项目,Chat-tts和Seed-tts平替,热门角色音色模型,一键使用,可克隆自己声音

现在他有一个衍生项目:Fish Agent

由Fish Audio开源,支持实时语音对话,能够模仿情感并生成自然声音。

特点为:端到端架构、零样本声音克隆、30亿参数的紧凑模型,支持多语言和快速响应。训练数据包括70万小时的多语言音频。基于Qwen-2.5-3B-Instruct继续预训练而来。

模型名称为 Fish Agent 3B版,自动集成了ASR和TTS组件,无需外部模型,实现了真正的端到端处理,区别于传统的三阶段(ASR + LLM + TTS)流程。

他的音色克隆效果还不错,我用Openai TTS的一个常用男声:onyx

作为被克隆音色,你查看下面的视频可以发现他可以语音对答,克隆的音色也还不错:

对了,上面视频提供的被克隆音频出自昨天写的一个AI播客的项目。

开发时,用了以前的文章写的众多AI编码代理中的一些,总共不到半天时间,基于Next.js完成的全栈开发( 对Next.js不熟悉 )。

虽然界面呈现是Demo效果,不过我主要想实现的AI播客功能是有了,总得来说可能 我以前低估了AI编程 / 自然语言编程的实力。

最后想说,跟进最新的AI技术,有趣又有意义。

代码语言:javascript
复制
github:https://github.com/fishaudio/fish-speech Agent
Demo:https://huggingface.co/spaces/fishaudio/fish-agent
模型:https://huggingface.co/fishaudio/fish-agent-v0.1-3b
Fish Speech论文:https://arxiv.org/abs/2411.01156

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。

👽Submission:kristjahmez06@gmail.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Aitrainee | 公众号:AI进修生
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档