ChatGPT丨自然语言处理丨人工智能丨语言生成技术丨文本生成丨机器翻译丨AI聊天机器人丨GPT-3在过去,我们往往认为人类才能唱歌。 然而,随着技术的不断发展,现在已经有人工智能能够通过自然语言处理技术学习唱歌。作为其中的佼佼者,ChatGPT更是展现出了其惊人的音乐才华。那么,ChatGPT的音乐水平如何呢?答案是:惊人!
作者 | Just 编辑 | 阿司匹林 出品 | AI科技大本营 人们曾一度认为艺术是免受 AI 侵袭的最后一块净土,却没成想它很快就在这里“撒了个野”。 AI科技大本营查找这一作词 AI 来源发现,改编词一栏里写着 DeepMusic,这是一支于 2017 年 4 月加入清华大学 x-lab 的 AI 团队的产品。 实际上,它主要以 AI 作曲为研究方向,因为作词对 AI 而言可以说是小菜一碟。 根据其官网介绍,他们利用独创的深度学习模型,通过对大量音乐数据的学习及训练,使得 AI 可以写出以假乱真的音乐作品。 不光是小创业团队,今年 7 月的百度 AI 开发者大会上,说唱歌手孙八一用百度“爱说唱”的智能小程序说了一段 Rap,人们只需选择一段背景音乐,然后说出歌词,就可自动生成一段像模像样的 Rap 歌曲。 当然,有人会质疑人类与 AI 的思考和创造能力不可等量齐观,但在某种意义上,人们对 AI 和人类创作出相似特质的事物又抱有复杂的情感,这种情感或恐惧或不屑一顾。 AI 却在艺术领域不断掘进。
整理 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 清华大学计算机系知识工程实验室,开发的中国首个原创虚拟学生——华智冰,与近日亮相。她的声音、肢体动作全部由人工智能完成。 “华智冰”有个孪生姐妹叫做:小冰 “小冰”是一个算法驱动的 AI 少女,因长期在网络上和网友们唠嗑走红。“华智冰”中的“冰”指的就是研发她的机构当中,也包含了研发“小冰”的企业。 谈及“华智冰”为何被设定为清华学生,唐杰解释道,“我们研发团队的大部分人是清华人,大家觉得如果设计一个AI(人工智能)主体进入清华,让她不断成长,这是一件很让人引以为豪的事。” 往 期 回 顾 资讯 AI被当做炒作工具? 资讯 Gartner 发布人工智能技术曲线 资讯 机器学习可以忘记吗?是个好问题 资讯 AI不可以作为专利认证发明人 分享 点收藏 点点赞 点在看
关键词:虚拟歌手 虚拟偶像 最近,一位来自美国的 AI 说唱歌手 FN Meka ,发布了最新单曲《Speed Demon》,在 TikTok 上大火,也引发了媒体及各界的关注。 不止会唱「yo yo yo」的 AI 说唱歌手 FN Meka 的虚拟形象,非常符合美国说唱歌手的装扮:一头绿色小脏辫,瞳孔闪着神秘诡异的绿色光芒,金色鼻环,大金链子也泛着绿光。 国外媒体 Virtual Humans 对 FN Meka 进行了采访,这位 AI 说唱歌手言谈间充满了自信,以及对人类社会现状的不满。 ? 被问及「AI 会失控么,人类是否应该保持警醒?」,他回答: AI 可能会失控,毕竟我们已经抢走了一些人的工作,也被很多人抵制, AI 内部也有很多问题。 洛天依登上春晚舞台 也意味着国家对虚拟偶像产业的尊重与认可 这些成功破圈的虚拟歌手,业务其实早已不再局限于唱歌跳舞,他们开始参加综艺、代言商品、走进直播间,真正应用起 AI 开展业务。
# 刷新缓冲区图像 pygame.display.flip() # 控制帧率为30帧 clock.tick(30) 注:如需实现上述代码中的文件,可在公众号中回复“Python唱歌
举个例子,只要让AI听林俊杰的三张专辑,AI就可以用林俊杰的声音,唱出周杰伦、五月天、孙燕姿他们的任何一首歌。 并且,你会完全听不出电子合成的痕迹。 ? Techno Speech和日本卡拉OK公司Joysound合作,希望AI不仅能学会唱歌,将来还能教会人类唱歌。它不同于一般的用原唱声,而是实时合成语音,目前已经支持几乎所有日文歌曲。 ? “唱歌跟说话不同,对情感表达的要求非常高,嗓音、气息都会影响到最后的效果,所以如何更具情感是唱歌合成的难点。” 除了小冰,AI语音公司思必驰去年也在央视《机智过人》节目中亮相过AI唱歌项目。 思必驰联合创始人、首席科学家俞凯当时对AI合成歌声系统有过解读。 歌声合成是语音合成领域的一个分支,是给定文字和乐谱,生成唱歌语音的过程。 One More Thing 目前,国内AI唱歌最知名的还是微软小冰。 自2016年小冰以歌手身份出道以来,已发布了十几首接近人类质量的单曲。
这几年,AI 模型在特效方向的技能似乎已被拉满。因此,我们在有生之年见到了会说话的蒙娜丽莎、cos 油画的周杰伦以及可以让人一秒变秃的「东升发型生成器」。 在一款短视频应用上,我们惊喜地看到,最近火遍全网的「深度怀旧」、「照片唱歌」都已经可以一键生成了: ? 这些特效都来自腾讯微视,用户只需要下载微视 APP,上传一张照片就可以得到想要的特效效果。 这就不得不提把 AI 模型从论文搬上手机的那些难处了。 把特效搬上手机难在哪儿? 我们知道,近年来兴起的很多 AI 特效都是基于 GAN(生成对抗网络)的,上文中的大部分特效也不例外。 数据对 AI 模型的重要性不言而喻,但对于一些基于 GAN 的人脸特效来说,模型不光需要数据,还需要大量的成对数据,这给数据采集工作带来了新的挑战。 ,几十张图像就能实现不错的效果,使得更多特效的实现成为可能; 在图像质量提升、模型压缩等方面积累了一些自己的技术,可以保障 AI 模型在各种移动端平台上成功部署。
教AI理解这些声音是训练中很重要的一步,这些系统可以取代生物学上的人类声音。 与人类自然的从「想到」到「说出」模式相比,当前最先进的语音转换系统也很慢。 AI需要时间处理你的语音,它要确定每个单词对它来说意味着什么,是否在它的能力范围之内,然后找出哪些软件包或程序可以访问和部署,最后再输出理解结果。 在这项新的研究中,研究小组在12只斑胸草雀的大脑中植入电极 ,然后开始记录它们唱歌。 ? 因此,研究人员训练了另一个系统,将实时歌曲减少到AI可以识别的模式。 唱歌时,多种HVC神经元亚型的活动受到调节:针对X区和RA区的投射神经元(HVCx/RA)在某个主题歌曲期间表现出短、精确、稀疏的活动爆发,而抑制性中间神经元(HVCI)在唱歌时显示出更多的tonic活动
1.什么是XML? XML (eXtensible Markup Language)指可扩展标记语言,标准通用标记语言的子集,简称XML。是一种用于标记电子文件...
上周六晚,爱奇艺的独家综艺《乐队的夏天》总决赛终于落下了帷幕,虽然决赛过程有些“曲折”,但是我最喜欢的刺猬乐队,仍然凭借自己的硬实力,最终排在第二名!
那么将 Whisper 与 Stable Diffusion 结合,可以直接完成语音生成图像的任务。用户可以语音输入一个短句,Whisper 会自动将语音转化为...
这个新AI不再是篡改视频了,而是直接把一张静态的照片变成视频。 像这样,一张施瓦辛格: ? 开始说话了: ? 饶舌歌手Tupac Shakur: ? 也能张嘴了: ? 只要有一张静态的人脸照片,甭管是谁,在这个新AI的驱动下,任意配上一段语音,就能张嘴说出来。 当然,上面的gif动图没有声音,你可以点开下面视频听听效果,里面有川普、施瓦辛格,还有爱因斯坦。 △ 总共2M,流量党请放心食用 当然,除了说话之外,唱歌也毫无问题,比如让生活在一百多年前的“俄罗斯妖僧”拉斯普京唱碧昂丝的Halo: 虽然声音和性别不太匹配,但是画面和歌曲组合起来有种莫名的鬼畜感呢。 你也别以为这个AI只能给照片对口型,它还可以让这个说话的人拥有喜怒哀乐各种情绪。 开心的: ? 难过的: ? 炸毛的: ? 连体态都符合不同情绪的状态,你打开视频听听看,是不是很符合说话的情绪? 也就是说,这些AI生成的“真假美猴王”,足以蒙骗人类了。 相比此前的斯坦福输入任意文本改变视频人物口型的研究,以及三星的说话换脸,实现难度可以说高了很多。 不少网友闻之色变: ?
最近在知乎里看到一个问题挺有意思的,问题是说如何看待海淀区的妈妈们表示Python太简单了是小学生学的?
加州大学圣地亚哥分校(Universityof California, San Diego, UCSD)的神经科学研究人员通过使用基于脑机接口的人工智能 (AI) 翻译鸟类的大脑活动来重现了鸟类的歌声, 直接记录大脑活动 研究人员使用植入电极阵列(具有 16 或 32 个通道的 Si 探针)收集了4只成年雄性斑胸草雀(Taeniopygiaguttata)大脑控制唱歌肌肉的感觉运动区(运动前核HVC)的神经活动 生物力学模型和 AI 机器学习 为了有效地将大脑活动映射到声音模式并降低维度,研究人员训练了 AI 机器学习算法,将大脑活动映射到数学方程模型中,而不是将神经活动映射到歌曲中,这些数学方程模拟了鸣叫时雀鸟的发生器官 然后,该团队使用 AI 来创建听起来像真正的雀类的合成发声。 来自神经活动的直接频谱图合成 研究人员报告说,这项研究“对声音运动技能的学习、执行和维持背后的多种机制和回路有了普遍的了解”,鸟类唱歌的生物力学“与人类和一些非人类灵长类动物的生物力学相似。”
improve the performance of the lyrics transcription system. https://arxiv.org/abs/2102.08575 端到端歌词识别与语音到唱歌风格的转换 这种称为唱歌的声音(V2S)的方法通过将自然语音的F0轮廓与唱歌声音的轮廓进行调制来执行语音样式转换。
全民K歌,作为一款围绕唱歌的兴趣社交产品,其核心离不开三件事情:创造内容、消费内容、社交关系。这三件事情在我们的产品里相辅相成,让用户产生了对这个社区的粘性。 B.
给你一段 Rap,你能看出这是 AI 写的吗? ? 仔细品味,也能发现这段词中的美中不足之处,但这作词水平可以说是不错的。 同样的第一句,可以迅速生成完全不同的段落: ? 只需要给定一句输入,AI 就能生成整首歌词。从押韵、流畅度、节奏方面,基本不逊于人类 Rapper。 一开始,研究者先从网上抓取了许多包含歌词和音频的说唱歌曲,并对每一首抓取的说唱歌曲进行一系列数据预处理步骤。 为了获得大规模的预训练数据,研究者还使用了数据挖掘 pipeline 收集了另外两个数据集: 1)节拍对齐的非说唱歌曲,它可以比说唱数据集更大,因为非说唱歌曲比说唱歌曲更通用; 2)纯歌词,同样比非说唱歌曲数据集更大 客观评估和主观评估的实验结果都证实了 DeepRapper 在生成押韵和节奏的说唱歌词方面的优势。
甚至可以像虚拟主播一样摇晃脑袋唱歌: ? 不仅如此,动漫头像还能模拟你的口型和头部动作,实时“唱”出想要的效果来(作者亲自上场): ? 简直是老二刺螈玩家的福音。 还能用已有的视频人物控制它“说话”、“唱歌”,化身“虚拟主播”: ? 不过,单从3D模型的渲染效果来看,偶尔会出现一些失误,需要适当进行调整。 例如……这位黄发少年身上的剑,就会“随头移动”: ?
如果说在上一轮人机大战的人脸识别对决中,由于小度对阵了并不擅长人脸识别的王峰,令比赛意义打了折扣,那么昨天进行的第二轮声音识别的人机大战,虽然最终只是战平,但对于AI 界的意义却似乎更大。 看完比赛规则后,连专业人士也认为这对目前的声纹识别技术有较大的难度,极限元联合创始人、声纹识别专家马骥告诉 AI 科技评论: 影响声纹识别的声音特征参数比如韵律、节奏、基频、速度等等因素,这些在说话和唱歌时是完全不同的 据以往对声纹识别技术的了解,AI 科技评论发现百度小度此次至少面临声纹识别领域中的3个困扰: 一、收集正常说话声,却需要辨别唱歌 我们知道,声纹识别的基本原理其实是特征值比对,通过之前收集的声音中提取特征值来形成特征库 在此基础上,我们收集少量的,比如1000个人在特殊场景下的声音,比如说唱歌。 在比赛之前我们知道有唱歌内容,但是不知道要唱什么歌,于是去收集一些歌来训练模型,让模型能够更准确的识别说话和唱歌时的声音差异。 ?
腾讯云神图·人脸融合通过快速精准地定位人脸关键点,将用户上传的照片与特定形象进行面部层面融合,使生成的图片同时具备用户与特定形象的外貌特征,支持单脸、多脸、选脸融合,满足不同的营销活动需求……
扫码关注腾讯云开发者
领取腾讯云代金券