
🍹 Insight Daily 🪺
Hi,这里是Aitrainee,欢迎阅读本期新文章。
以前写过一个叫 Fish Speech 的TTS项目,效果还不错,也是第一梯队的TTS模型。
Fish Speech:最新开源tts项目,Chat-tts和Seed-tts平替,热门角色音色模型,一键使用,可克隆自己声音
现在他有一个衍生项目:Fish Agent

由Fish Audio开源,支持实时语音对话,能够模仿情感并生成自然声音。
特点为:端到端架构、零样本声音克隆、30亿参数的紧凑模型,支持多语言和快速响应。训练数据包括70万小时的多语言音频。基于Qwen-2.5-3B-Instruct继续预训练而来。
模型名称为 Fish Agent 3B版,自动集成了ASR和TTS组件,无需外部模型,实现了真正的端到端处理,区别于传统的三阶段(ASR + LLM + TTS)流程。
他的音色克隆效果还不错,我用Openai TTS的一个常用男声:onyx
作为被克隆音色,你查看下面的视频可以发现他可以语音对答,克隆的音色也还不错:
对了,上面视频提供的被克隆音频出自昨天写的一个AI播客的项目。
开发时,用了以前的文章写的众多AI编码代理中的一些,总共不到半天时间,基于Next.js完成的全栈开发( 对Next.js不熟悉 )。
虽然界面呈现是Demo效果,不过我主要想实现的AI播客功能是有了,总得来说可能 我以前低估了AI编程 / 自然语言编程的实力。


最后想说,跟进最新的AI技术,有趣又有意义。
github:https://github.com/fishaudio/fish-speech Agent
Demo:https://huggingface.co/spaces/fishaudio/fish-agent
模型:https://huggingface.co/fishaudio/fish-agent-v0.1-3b
Fish Speech论文:https://arxiv.org/abs/2411.01156🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。

👽Submission:kristjahmez06@gmail.com