最近想找一个粤语TTS,这需要整理 2024 年下半年以来中文 - 粤语 TTS 开源模型。现在这种货,当然是交给AI。
首先我找上了天工,跟它详细说明了需求:
“帮我整理目前能够有效实现中文 - 粤语 TTS 发音,并且发布日期在 2024 年下半年到目前为止的最新 TTS 开源模型,要附上 github 和 huggingface 地址。”
天工秒回,确认接收任务,还让我补充些信息,像调研报告题目、写作语言、篇幅啥的。
然后,它开始干活,主要是大量的搜索网页。
没过多久,天工就交活儿了。打开生成的《2024 下半年至今中文 - 粤语 TTS 开源模型调研报告》,引言部分把粤语 TTS 的需求和开源动向分析得头头是道。
接着看,从模型介绍到技术架构,再到优势局限,一应俱全。尤其总结与推荐部分,清晰列出总体发现和模型选型考量。像 Ekho(余音)和 IndexTTS 等模型,特点、适用场景都安排得明明白白。
从文档来看,它确实是非常规范的干活,如果你请的人不太懂AI,未必干的比它好。
当然,它也还有不足之处。比如,虽然洋洋洒洒整了一大篇,但是如果真正去了解,结论上的两个主要方案EKHO和IndexTTS并不是真正的SOTA模型(真正好的模型它确实没找到!)
用天工干这种活,基本上就是一句话,当然,你最好像吩咐手下一下,尽可能把要干的事情说完整说清楚,这是作为主人对AI应该有的责任。
不过,我回想了一下,如果能够给他提供一些思路,比如从找排行榜,比如先列出今年的新模型再逐个读模型说明,它也许可以表现得更好,这和吩咐人干活是一样的,你只说要什么结果的话,他的工作过程未必是最优的,但是如果你也懂点工作流程,告诉他一些技巧,他的表现显然会更好。
喜欢本文,请在右下角给我们点下“好看”