学习
实践
活动
专区
工具
TVP
写文章

AI算法可以通过声音片段分辨出鸟类

AI算法可能会像雀类一样挑剔,通常需要对每个新的位置或物种进行手动校准和重新训练。 使用机器学习,计算机从数据中学习,30个团队用一组提供标记的录音训练他们的AI,然后用没有标记的录音进行测试。这些大多依赖于神经网络。 在这种情况下,更高的数字表示该算法设法避免将非鸟类声音(人类,昆虫或雨)标记为鸟类声音并避免错过真正的鸟类声音(通常是因为微弱的录音),而他们测试的最佳算法之前的AUC得分为79。 在啄食顺序上的算法甚至可以很好地推广到84个在夜间鸟类的叫声中,这些叫声非常简短,很难分析,而且与训练的声音有很大的不同。 这种算法的表现虽然没有超过人类(他们习惯于在一开始就给数据贴上标签),但是机器可以昼夜不停地工作,而且不会受雨的影响,从这场比赛中孕育出更完美的AI只是时间问题。

24740
  • 广告
    关闭

    热门业务场景教学

    个人网站、项目部署、开发环境、游戏服务器、图床、渲染训练等免费搭建教程,多款云服务器20元起。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    华为利用AI将面部表情转化为声音

    为此,华为利用AI帮助盲人“看到”与他们说话的人的面孔。 华为推出了Facing Emotions,这是华为Mate 20 Pro的一个应用程序,可以将七种普遍的情绪——愤怒,恐惧,厌恶,快乐,悲伤,惊讶和蔑视,转化为相应的声音。 该公司声称这些见解有助于塑造应用程序的用户体验,甚至包括其颜色和声音。 华为表示,“此应用是为了推动AI技术的可能性。这使得盲人和视障者有可能在与他人交流时获得更丰富的经验和理解。” 离线的、设备上的机器学习算法将检测到的情绪解释为声音,并通过手机扬声器上播放出来。 盲人作曲家Tomasz Bilecki的声音片段由上述盲人顾问团队进行测试,华为认为这段声音“短,简洁,简单,无害”。

    35420

    腾讯警告:你的声音正在被AI「偷走」

    :小心您的声音安全》的分享。 腾讯朱雀实验室分享的最新研究成果表明,VoIP 电话劫持与 AI 语音模拟技术的结合将带来极大潜在风险。 在分享中,实验室创造性地展示了用 AI 进行声音克隆并劫持电话的攻击场景。 区别于此前脚本类的电信诈骗,这一新技术可实现从电话号码到声音音色的全链路伪造,攻击者可以利用漏洞劫持 VoIP 电话,实现虚假电话的拨打,并基于深度伪造 AI 变声技术生成特定人物的声音进行诈骗。 通过基于 AI 的深度伪造变声技术,可以利用少量用户的声音生成他想要模仿的声音。这种技术给用户带来新奇体验的同时,也潜在安全风险。 深度伪造 AI 变声技术也可能成为语音诈骗的利器。 研究发现,利用漏洞可以解密窃听 VoIP 电话,并利用少量目标人物的语音素材,基于深度伪造 AI 变声技术,生成目标人物声音进行注入,拨打虚假诈骗电话。 ? 图 1.

    25730

    成为Beatbox大佬:AI助力将声音转化为节奏

    为了帮助崭露头角的音乐家为他们的歌曲创造最佳节奏,来自日本AI创业公司的开发人员开发了一种名为Neural Beatboxer的深度学习系统,可将日常的声音转换为数小时自动编译的节奏。 他对当前AI音乐生成的研究方向感到沮丧,并希望他的神经网络能够提供帮助。 “我使用了在线提供的鼓机声音数据集,并训练了卷积神经网络,根据其频谱图对音频进行分类,”他解释道。 “最初,我考虑使用相同的技术来制作我在DJ集中播放的音乐混音,”Tokui解释道,“我一直在为AI DJ的项目努力,在那里我和AI DJ一起播放音乐。” Tokui表示,“我的目的是制作有趣,怪异的节奏,使用通过麦克风录制的原始声音材料,这个系统可能能够产生令人兴奋的或新颖的节奏,在没有任何AI帮助的情况下没有人想要手动编写。”

    23930

    Python 深度学习AI - 声音克隆、声音模仿、模拟特朗普声音唱《See You Again》,Real-Time-Voice-Cloning项目的安装与使用

    Python 深度学习AI - 声音克隆、声音模拟 第一章:环境准备与安装 ① Real-Time-Voice-Cloning 项目源码下载 ② requirments 必要库安装 ③ TensorFlow PyTorch 安装 ⑤ FFmpeg 下载环境变量配置 ⑥ 下载训练包 第二章:效果测试 ① 命令行合成音频测试:输入音频源和文本,合成目标 ② 工具箱合成音频测试,工具箱的使用方法介绍 ③ 特朗普声音克隆 这是项目里给的声音源示例,可以用这个来进行测试。 ? 合成后的音频文件。 ? ② 工具箱合成音频测试,工具箱的使用方法介绍 ? ③ 特朗普声音克隆,模拟特朗普讲话,特朗普唱《See You Again》 特朗普音频资源获取: 小蓝枣的 csdn 资源仓库 这是歌曲 《We Cant’t Stop》,合成的效果还不错,有的歌涉及断句的

    5.6K31

    AI化身空间站故障排查小助手​!借助AI声音实现未雨绸缪

    考虑到通过非语音声音传输的数据量,人类在利用声音信息方面做得很有限。 我们非常擅长在相对较短的时间范围内对声音(尤其是新的声音或响亮的声音)做出反应,但除此之外,我们的大脑只是擅长将大多数响声归为“背景音”而忽略它们。 比人类耐心得多的计算机似乎在这方面要做得好很多,但是大多数开发人员的重点一直放在离散的声音(例如检测烟雾警报器或碎玻璃的智能家居设备),而不是持续时间较长的声音模式。 这些声音是否属于正常运行时发出的声音,我并不太清楚,而且我也完全记不清上次洗衣机运行时是否发出相同的奇怪声音。 如果汽车中拥有一个类似SoundSee的系统,并且已经被正常运转时的声音数据训练过,那么在你发现故障声音之前,它就能预测维护需求并准确识别新出现的机械问题。 “声音包含着有关环境的丰富信息。”

    30410

    《轮到你了》的菜奈AI是如何克隆声音的?

    最近在追日剧《轮到你了》,最新的15集里,二阶堂给翔太制作了一个菜奈的AI,是个手机app,界面非常简单,采用的是聊天机器人的界面,只不过是语音聊天的方式,此AI学习了菜奈的声音跟语言风格。 ? 03 使用 如果想自己动手训练一个属于自己的文本转语音AI,可以查找谷歌Tacotron的开源代码,自己修改训练。 如果不想这么麻烦,我们可以选择API调用的方式,百度ai或者讯飞都提供了类似的功能,声音也有多种风格可选。 04 风格迁移 这只是文本转语音,如果我们想要让这个语音可以按照某个人的声音输出,应该怎么办呢? 图像领域有风格迁移技术,受此启发,谷歌发布了一个可以克隆任何人声音的模型。 综上,一款可以克隆任何人声音AI即将诞生。

    1.3K20

    声音,无限可能

    by design-ai-lab eva (O_O)? 提供某人的一段讲话音频,你可以从两张人脸图像中判断出哪个是说话人吗? 声音和其他模态信息的关联度,或者互动,真的非常有意思~~ @知识库 shadow 知识库 来啦~~ 我们先从声音与健康说起~~ 国际期刊《柳叶刀》有一篇《通过你的声音能诊断疾病吗?》 利用AI技术,可以通过个人设备,如手机、平板电脑等快速诊断疾病。关键技术是AI识别和处理人类的各种声音模式,包括音高、音调、节奏,呼吸轻缓、咳嗽等。 罗马Tor Vergata大学教授Giovanni Saggio开发了VoiceWise,该系统分析用户的声音,通过AI将6300个声音值与某些病理状态的声音值进行比较,从而诊断所患的病理。 “DeepSlayerXL创作的曲目,听来还真有点意思,非常符合外行人对摇滚乐的印象” 谷歌Body Synth Make music just by moving your body 用摄像头和AI

    21220

    只需6秒,AI就能根据你的声音预测你的相貌

    人的听力能够根据声音判断对方的性别、年龄或者来自哪个地方, 但是我们不能够判断出对方的面部特征。但AI可以,而且只需6秒。 麻省理工学院的研究院最新开发了一套只需听取声音即可重建说话人的面部特征的人工智能系统。 这个名为Speech2Face的智能系统基于一个深度神经网络框架,通过收集数百万个YouTube视频中说话者的面部及其语音数据,训练他们识别声音和面部特征之间的相关性。 ? 正是通过这些视频,团队的Speech2Face AI能够“学习”某人的面部特征与这些特征最有可能产生的声音之间的相关性。 Speech2Face同时还使用一个“语音编码器”,它使用卷积神经网络(CNN)来处理长度为3到6秒的声音片段频谱图以提取语音信号的音频信息。

    88030

    Sceince子刊:利用AI+脑电波,锁定你想听的声音

    助听器由AI驱动,可作为自动过滤器,监控佩戴者的脑电波并增强他们想要关注的声音,从而能够让佩戴者无缝并高效地与周围的人交流。 论文发表在Science Advances上。 Zuckerman Mind Brain Behavior Institute的主要研究员和该论文的资深作者Nima Mesgarani博士说,处理声音的大脑区域非常敏感,也非常强大,可以毫不费力的放大一个特定声音而不牵扯其他声音 哥伦比亚工程公司电气工程副教授Mesgarani博士说:“助听器会立刻放大所有人的声音,你仍然无法将你的谈话对象和其他人区分出来” 用脑电波来放大特定声音 为什么会想到利用脑电波呢? 于是该团队将语音分离算法与神经网络、以及模仿大脑自然计算能力的复杂数学模型相结合,开发了一款脑控助听器,使用脑电波来判断哪些声音应该被放大,哪些声音应该被抑制。 一旦某人的声音模式与听者的脑电波匹配度最高,他的声音就会被放大。 其实团队早在2年前就发布了这项技术的初代版本,但限于预训练数据集,效果刚开始不是很理想。

    32440

    开发之声音

    部分代码位置Github-VoiceDemo Pre 与图片中默认的格式为PNG格式一样,iOS开发中声音的格式也有默认格式,为wav格式,本文中的产生的格式均为wav格式,其他格式则需要转换。 有第三方的框架,进行转换成amr等格式 一、声音录制 要先引入AVFoundation的框架 #import <AVFoundation/AVFoundation.h> self.voiceRecorder ,Path和Setting Path:声音文件录制后存储的路径 Setting:一个录制参数的字典,设置一些录制的必要的参数,需要进行调整到合适的值 _recorderSetting = AVAudioRecorder在录制的时候可以暂停和恢复 暂停 - (void)pause; /* pause recording */ 恢复/开始 - (void)record; 录制完成 - (void)stop; 二、声音播放 注意:如果在播上一段录音,同时再点播放的话,两个声音会一起播放 if (_player) { // 如果正在播放上一段录音,则停止 [_player stop]; }

    10110

    你说话时的肢体动作,AI仅凭声音就能预测 | CVPR 2019

    来源:arXiv、Science 编辑:肖琴 【新智元导读】来自UC Berkeley和MIT的研究人员开发了一种AI算法,可以根据说话声音来预测说话人将作出怎样的肢体动作。 最近,来自UC Berkeley和MIT的研究人员开发了一种AI算法,可以根据说话声音来预测说话人将作出怎样的肢体动作。 研究人员称,只需要音频语音输入,AI就能生成与声音一致的手势。 然后他们用这些数据训练了自己的算法,这样AI就可以根据说话者的新音频来预测手势。 ? 图1:从语音到手势的转换的示例结果。 请看下面的demo视频: 研究团队表示,他们的下一步是不仅根据声音,还根据文字稿来预测手势。该研究潜在的应用包括创建动画角色、动作自如的机器人,或者识别假视频中人的动作。

    65540

    关于声音采集和声音处理的一些建议

    相机录制的过程除了采集画面,还有采集音频数据的过程,我们今天就主要介绍一下声音采集的过程以及采集的声音是怎么处理的。 声音采集 声音采集是系统提供的接口采集环境声,AudioRecord就是Android平台上提供的采集声音的系统API。 在采集声音之前,需要设置声音的采样率和声道数,通常情况下采样率是44100Hz,声道数是2。 采用回来的声音是short数组。 我们知道声音有两个重要的属性:sample_rate(采样率)和channel(采样频道),声音的标准化就通过这两个决定,当我们编码和播放解码出来的音频数据时,就需要将声音的两个属性标准化一下,使得处理之后的音频能够正常的编码或者播放

    21520

    MacBook 屏幕录制 soundflower 只录内屏声音 无外界声音

    自带的QuickTimePlayer录制屏幕的时候(或者按快捷键⇧+⌘+5),只有三个选项: 1)无声音 2)选外置扬声器。 电脑外放,确实能录到内屏声音,但是扬声器收录的人声、环境音也会录进来 3)插耳机后,可以选择耳机。 这里的“聚集设备”是输入,录屏时候想录入哪些声音,这里就选择相应的设备。“多输出设备”用于在录屏时候的自己想听到哪些声音,二者搭配使用(2ch搭配2ch,64ch搭配64ch)。 选择聚集设备和多输出设备后,不能调音量,要在使用电脑扬声器或者耳机的时候就把音量调好 只录制内屏声音(电脑发出的声音),不录制外屏声音(电脑麦克风或者耳机麦克风的收音),且录制的时候听不见内屏声音(不适用于我 :点小喇叭 选择soundflower(2ch)/soundflower(64ch) 只录制内屏声音,不录制外屏,且录制的时候能听见内屏声音(上网课录屏适用): 录制选择:option ->

    56210

    谷歌AI黑科技曝光:合成语音与真人声音难以区分

    这可并不是笔者在这儿危言耸听,而是谷歌本月开创性地推出了一款名为“Tacotron 2”的全新文字转语音系统,它具有惊人的发音准确性,且实际文本阅读效果几乎同真人声音无法区分。 其中一个负责将文本转换为可视化的图谱(通常是PDF格式),然后再将这个生成的这个可视化图谱载入第二个深度神经网络WaveNet(这个神经网络是从DeepMind实验室孵化而来),并将其还原为一个真实的声音 目前,该系统只进行了英语女声的训练(如要需要它发出男性声音的话,谷歌则需要对其进行重新“培训”)。 同谷歌正在研发的其他核心AI技术不同,“Tacotron 2”不仅仅是某种一直停留在实验室阶段的技术,而是将对公司其他产品起到立竿见影的作用。

    78870

    关注

    腾讯云开发者公众号
    10元无门槛代金券
    洞察腾讯核心技术
    剖析业界实践案例
    腾讯云开发者公众号二维码

    相关产品

    • 声音工坊

      声音工坊

      声音工坊( TTSW )提供定制音色的能力,满足客户定制化需求。通过先进的深度学习技术,根据客户实际业务情况,提供不同的定制方案,从而更有效、更专业地服务实际业务需求。普遍适用于智能客服、智能硬件、在线教育、有声阅读、新闻播报等场景,通过训练专属业务音色,从而更好的服务业务场景,提升交互体验。

    相关资讯

    热门标签

    活动推荐

    扫码关注腾讯云开发者

    领取腾讯云代金券