首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#语音

TTS它又又又来了!17.8k Star!OpenVoice V2只需一小段参考音频即可实现高效的声音克隆!

Python兴趣圈

引用下我之前写的TTS文章中的话,2023年被大家称为人工智能元年,而在2024年的当下人工智能技术已然在各行各业都展露头角。各种AI工具也层出不穷,其中 语音...

400

为什么要做长文本、长图文、长语音的大模型?深度解读讯飞星火V3.5春季上新

机器之心

4 月 26 日,科大讯飞发布讯飞星火大模型 V3.5 的功能上新,其中一个重点就是面向用户各种场景中高效获取信息需求,发布首个长文本、长图文、长语音的大模型,...

100

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

机器之心

继 1 月推出国内首个基于 MoE 架构的千亿参数量大语言模型 abab6 后,上周,通用人工智能创业公司、中国估值最高的大模型公司之一 MiniMax 推出了...

200

在线教程丨刘强东数字人首秀交易额破5千万!用GeneFace++ 生成实时说话数字人

HyperAI超神经

近日,京东创始人刘强东化身「采销东哥 AI 数字人」,在京东家电家居和超市的采销直播间开启了自己的直播首秀。此次直播活动观看人次超 2 千万,交易总额超 5 千...

600

五一Python抢票神器来了

Python小二

还在为五一回家抢不到火车票发愁吗?今天介绍一个Python抢票神器,希望对你有帮助。

1400

ElevenLabs:创新语音技术的个性化体验

程序那些事儿

ElevenLabs 是一个创新的在线平台,它将人工智能技术与个性化语音合成相结合,为用户提供了一个全新的语音克隆和语音生成体验。无论是创建有声读物、音频内容还...

600

ICCV 2023 | Imitator:个性化语音驱动的 3D 人脸动画

用户1324186

上海交通大学 · 研究员 (已认证)

图 1:Imitator 是一种用于个性化语音驱动 3D 人脸动画的新方法。给定音频序列和个性化风格嵌入作为输入,我们生成特定人物的运动序列,并为双唇辅音('m...

1200

CVPR2024 | ProbTalk:变化且协调的整体语音运动生成

用户1324186

上海交通大学 · 研究员 (已认证)

用语音驱动来生成逼真的全身动作对于提供更沉浸式和互动式用户体验至关重要。这个任务引起了相当多的研究兴趣。Habibie等人提出的早期方法使用确定性回归模型将语音...

1700

基于RT-Thread的智能家居助手

二哈侠

智能家居助手主要基于RT-Thread开发的,该系统主要分为语音子系统,环境监测子系统,智能控制子系统,智能网关子系统,音乐播放器,云端以及应用软件七大部分。语...

700

体验AI革命:探索各种改变游戏规则的生成式AI工具

用户3578099

在AI的世界里,每一秒都充满了无限可能。从游戏开发到电影制作,从虚拟现实到音乐生成,AI工具正以前所未有的速度改变着我们的生活方式。在本文中,将探索一系列令人印...

2310

使用Python实现语音识别与处理模型

人类群星闪耀时

语音识别与处理是指将语音信号转换成文本形式的过程,通常包括语音信号的预处理、特征提取、模型训练和识别等步骤。语音识别与处理技术广泛应用于语音助手、语音搜索、语音...

10610

[AI OpenAI-doc] 文字转语音

从零开始学AI

音频 API 提供基于我们的 TTS(文本到语音)模型的语音端点。它配备了 6 种内置语音,并可用于:

15110

GPT-SoVITS - 1分钟人声样本,完成声音克隆

崔哥

集成了语音伴奏分离、训练集自动分割、中文ASR、文本标注等工具,帮助初学者创建训练数据集和GPT/SoVITS模型。

15510

脑电合成自然语音!LeCun转发Nature子刊新成果,代码开源

量子位

具体来说,来自纽约大学的研究团队开发了一个新型的可微分语音合成器,可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数(如音高,响度,共振峰频率等)...

8610

什么是SD NAND?

洁洁

SD NAND,贴片式TF卡,贴片式SD卡,北京君正,nor flash,存储,芯片,主控,小尺寸emmc,大容量SLC Nand,语音芯片,语音识别,语音控制...

5210

Hugging Face 新开源了一款 TTS 模型: Parler-TTS!一行命令即可安装!可自主训练定制声音!

Python兴趣圈

与其他 TTS 模型相反,这款轻量级 TTS 模型将所有数据集、预处理、训练代码和权重来了个一次性大公开。

41710

Nature子刊 | 纽约大学团队提出基于深度学习和语音生成技术的脑电-语音解码

脑机接口社区

神经信号的语音解码面临着两大挑战。首先,用于训练个性化神经到语音解码模型的数据在时间上是非常有限的,通常只有十分钟左右,而深度学习模型往往需要大量的训练数据来驱...

10810

AI下一个重大飞跃是理解情感!第一个具有情商的对话型AI来了

新智元

这些数据还用于创建了一个「语音韵律模型」(speech prosody model),用于测量语音的调子、节奏和音色,并整合到EVI中。

11010

Omnivore:打造您的个性化稍后阅读体验

程序那些事儿

对于希望在移动中或需要休息眼睛的用户,Omnivore 的 iOS 应用提供了文本转语音(TTS)功能。这项功能使用真实、自然听起来的 AI 语音,可以朗读任何...

9910

ChatGPT 现在可以看、听和说话了!

猫头虎

新的语音功能由一个新的文本转语音模型提供支持,它能生成非常自然、类似人类的声音。OpenAI 甚至与专业配音演员合作,为我们提供了多种声音选择。同时,OpenA...

12410
领券