PyTorch自2017年推出以来,就迅速占领GitHub热度榜榜首,一度有赶超Tensorflow的趋势。
---- 新智元报道 来源:Facebook AI Blog 编辑:LQ、yaxin 【新智元导读】2017年,PyTorch诞生,成为当下最流行的深度学习框架。近日,Facebook宣布让PyTorch成为构建AI和机器学习模型的默认框架,为工程师们提供更好的开发体验。 PyTorch自2017年推出以来,就迅速占领GitHub热度榜榜首,一度有赶超Tensorflow的趋势。 这是一个开源的Python机器学习库,基于Torch,底层由C++实现。 近日,Facebook宣布要将所有的人工智
近期,电视剧《狂飙》的爆火,激起了一些UP主的二创激情,将剧中的“CP”角色通过AI换脸移植到其他影视片段中,形成让网友惊呼“眼前一黑”的戏剧化效果,同时也收获了满满流量。乍一看这只是单纯的娱乐行为,但有时诸如”AI换脸“等深度造假技术(Deepfakes)可不只是”逗你笑“这么简单,背后的安全隐患不容忽视。 《狂飙》中安欣和高启强的角色人脸被AI换脸至《西游记》女儿国的桥段中 什么是深度造假? 深度造假是指将真实图像、视频甚至音频进行替换、伪造,以此可以实现对信息的操纵。要创建质量足以用于深度造假的音视
多语言识别翻译的研究一直都是学术界研究的重点。目前全球有几千种语言,在全球化背景下不同语言人群之间的交流越来越密切,然而学习一门外语的成本是非常大的。前两年的研究主要集中在一对一、一对多的研究,然而当面对这么多的语言时,既需要「考虑模型准确率,还需要考虑语种的识别」。最近,随着人工智能大型自然语言模型的发展,利用统一模型实现多语种识别翻译来实现不同语种之间交流逐渐的变成了可能。
思影科技专注于脑影像数据处理,涵盖(fMRI,结构像,DTI,ASL,EEG/ERP,FNIRS,眼动)等,希望专业的内容可以给关注者带来帮助,欢迎留言讨论,也欢迎参加思影科技的课程,可添加微信号siyingyxf或19962074063进行咨询。(文末点击浏览)
为什么芯片设计需要很长时间?能不能加速芯片设计周期?能否在几天或几周之内完成芯片的设计?这是一个非常有野心的目标。过去十年,机器学习的发展离不开系统和硬件的进步,现在机器学习正在促使系统和硬件发生变革。
近年来,深度神经网络在 NLP 和语音处理的各项任务上取得了巨大成功,但在一般设备或内存有限的云服务上训练和部署这些网络,会带来巨大的计算成本以及其他挑战。比如超过 1700 亿参数的 GPT-3,训练了超过 500 GB 的数据,这个过程需要 10 多个 Tesla V-100 GPU。不过,通过增加参数量和合并更多数据来改进 NLP 和语音模型,依旧被认为是这一领域中非常普遍的做法。 在今年 12 月的 NeurIPS 大会上,一场以「高效的自然语言和语音处理」为主题的 Workshop 也将同时召开。
Meta AI公司的研究人员最近开发出了一种很有前途的非侵入式方法,可以从人的大脑活动中解码语音,这可以让无法说话的人通过计算机界面传达自己的想法。他们在《Nature Machine Intelligence》杂志上提出的这一方法融合了成像技术和机器学习。
我们生活在这样一个世界:无论好坏,我们总是被深度学习算法所包围。从社交网络过滤到自动驾驶汽车,再到电影推荐,金融欺诈检测,药物发现……深度学习影响着我们的生活和决策。
音频编解码器的用途是高效压缩音频以减少存储或网络带宽需求。理想情况下,音频编解码器应该对最终用户是透明的,让解码后的音频与原始音频无法从听觉层面区分开来,并避免编码 / 解码过程引入可感知的延迟。
★导语★ 英国演员Alexa Lee通过动捕设备实时驱动数字人Siren,这标志着实时高保真数字人技术迈向了一个新的高度。技术的进步为Siren赋予了逼真的3D形象,我们能否进而为她赋予精致的“灵魂”呢?腾讯互娱NEXT技术中心和AI Lab的研究团队携手进行了一次尝试,让Siren在没有真人驱动的情况下,自主和人类交互。虽然,该技术尚处于试验阶段,我们已经可以看到“高保真可交互虚拟人”这一领域的美好前景。值得一提的是,本次Siren AI参加SIGGRAPH Asia2018,是其首次亮相国际舞
自ChatGPT横空出世以来,围绕GPT的话题只增不减,属于AI+的时代已经悄然来临。科技在进步,人类在发展。近期,各大厂商纷纷推出了自己的产品和服务并在持续的更新迭代优化当中。如,微软的New Bing、谷歌的Bard、百度的文心一言等等。如何使技术落地,结合应用场景开发出更多产品出了,是接下来需要思考研究的问题。
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
最近,Meta团队提出一种通过非侵入式脑磁(电)图(magneto- or electro- encephalography, M/EEG)解码语言的方法。具体地,首先使用深度学习方法对语音输入和对应的脑电(磁)图信号进行解码,得到深层次的特征表示;然后,应用对比学习策略匹配两种模态的潜在特征表示;最终,在四个公共数据集上评估了该模型,该模型可以从3s的MEG信号中识别相应的语音段进行识别,TOP-10的准确率高达72.5%(TOP-1的正确率为44%),在EEG信号的TOP-10准确率为19.1% (允许测试集中存在训练集中不存在的短语)。
编者按:本文原作者 Cindi Thompson,美国德克萨斯大学奥斯汀分校(University of Texas at Austin)计算机科学博士,数据科学咨询公司硅谷数据科学(Silicon Valley Data Science,SVDS)首席科学家,在机器学习、自然语言处理等领域具有丰富的学术研究和产业界从业经验。AI 研习社编译。 作为 SVDS 研究团队的成员,我们会经常接触各种不同的语音识别技术,也差不多见证了语音识别技术近几年的发展。直到几年之前,最先进的语音技术方案大多都是以语音为
基于文本的语言模型如BERT、RoBERTa和GPT-3,借助Transformer的春风,近年来取得了巨大的进步。
就像在学校上课一样,神经网络在“训练”阶段得到的教育跟大多数人一样——学会去做一份工作。
近日,Meta AI 宣布在生成式 AI 语音模型领域取得了突破:开发出了首个可泛化至多种语音生成任务的模型 Voicebox,无需专门训练即可达成顶尖性能表现。Meta AI 研究人员分享了多段音频样本和一篇研究论文,其中详细介绍了他们采用的方法和取得的成果。
仅凭声音就能知道人的长相,这似乎只存在于科幻小说中。现在麻省理工学院的研究人员通过人工智能取得了惊人的成就。
安妮 编译自 Github 量子位出品 | 公众号 QbitAI 说话人确认(Speaker Verification)是一种以语言特性确认说话人身份的技术。 近日,西弗吉尼亚大学的博士生Amirsi
作者:Pranoy Radhakrishnan 翻译:wwl校对:王可汗 本文约3000字,建议阅读10分钟本文讨论了Transformer模型应用在计算机视觉领域中和CNN的比较。 在认识Transformers之前,思考一下,为什么已经有了MLP、CNN、RNN,研究者还会对Transformers产生研究的兴趣。 Transformers起初是用于语言翻译。相比于循环神经网络(比如LSTM),Transformers支持模拟输入序列元素中的长依赖,并且支持并行处理序列。 Transformers利用
AI 科技评论按:在近二十年来,尤其是引入深度学习以后,语音识别取得了一系列重大突破,并一步步走向市场并搭载到消费级产品中。然而在用户体验上,「迟钝」可以算得上这些产品最大的槽点之一,这也意味着语音识别的延迟问题已经成为了该领域研究亟待解决的难点。日前,谷歌推出了基于循环神经网络变换器(RNN-T)的全神经元设备端语音识别器,能够很好地解决目前语音识别所存在的延迟难题。谷歌也将这项成果发布在了官方博客上,AI 科技评论进行编译如下。
没有人喜欢站在那里等公共汽车到达,尤其是当你需要准时到达某个地方时。如果您能预测下一班公共汽车何时到达,那不是很好吗? 今年年初,亚美尼亚开发人员 Edgar Gomtsyan 有一些空闲时间,他就对这个问题感到困惑。他没有等待政府实体实施解决方案,也没有打电话给公交车调度员确认公交车到达时间,而是开发了自己的解决方案。基于机器学习,它可以高度准确 地预测公交车到达时间。 碰巧的是,埃德加的公寓正对着公交车站所在的街道。为了跟踪公交车的进出,他在阳台上安装了一个小型安全摄像头,该摄像头使用图像识别软件。“
不管你是身处 AI 圈还是其他领域,或多或少的都用过大语言模型(LLM),当大家都在赞叹 LLM 带来的各种变革时,大模型的一些短板逐渐暴露出来。
GPT-3,GPT-4仅仅局限于文字对话,GPT-4加入了多模态,也还是在对话范畴,只是加入了图片语音视频的对话。还不能直接处理数字世界的任务。
人工神经网络是如今最成功的人工智能(AI)算法,它的基本构成是按照我们大脑真实神经网络的处理模式,一般来说,隐藏层越多,越复杂,网络精度就越高。但基于计算机运行的人工神经网络会消耗惊人的能量和时间,而且它的效率远不及人类的大脑运算能力。为了提高AI算法的效率,科学家们将目光转向如何令AI系统能够像人脑一样处理信息,即如何让这个系统在结构成分上更像大脑?
oil.nvim 是一个类似于 vim-vinegar 的文件浏览器,允许您像普通 Neovim 缓冲区一样编辑文件系统。其主要功能包括支持常见插件管理器、通过适配器抽象进行所有文件系统交互以及提供 API 来执行各种操作。该项目的关键特点和核心优势包括:
【新智元导读】特征学习和深度学习重要会议 ICLR 2016 最佳论文,DeepMind 团队开发了一个“神经编程解释器”(NPI),能自己学习并且编辑简单的程序,排序的泛化能力也比序列到序列的 LSTM 更高。机器,已经可以取代部分初级程序员的工作了。 题目:神经程序解释器(Neural Programmer-Interpreters) 作者:Scott Reed & Nando de Freitas,Google DeepMind 摘要 我们提出了一种神经编程解释器(Neural Programmer-
导读 美国密歇根大学开发出由忆阻器制成的神经网络系统,也称为储备池计算系统。它教会机器像人类一样思考,并显著提升效率。 背景 神经网络,是一种应用类似于大脑神经突触联接的结构,模仿动物神经网络行为特征,进行分布式信息处理的数学模型。神经网络中的算法可以通过训练,模仿人脑识别语音和图片的方式。但是,运行这种人工智能系统,往往会耗费很多的时间和能量,这也成为了这一技术的主要瓶颈。 之前,笔者介绍过法国科学家利用忆阻器开发出一种神经网络芯片,对于神经网络系统来说,不仅降低了能耗,而且还提升了速度。 神经网络受到了
近年来,机器学习得到了很大的发展和兴趣,在语音和图像识别方面取得了可喜的成果。本文分析了一种深度学习方法——LSTM在以标普500指数为代表的美国股市中的应用效果。结果表明:LSTM在语音识别等其他领域取得了良好的效果,但在金融数据应用中效果不佳。事实上,它的特点是高噪声信号比,这使得机器学习模型很难找到模式来预测未来价格。
第二届AI HW峰会于9月17日至18日在硅谷中心举行,近五十位发言人向500多位与会者进行了演讲(几乎是去年首届听众人数的两倍)。所有的信息来自于峰会。
机器之心原创 作者:李亚洲、李泽南、虞喵喵 在 Google I/O 首日的 Keynote 中,Google 公布了一系列新的硬件、应用和基础研究。自去年提出 AI First 战略,今年的大会上 Google 同样安排了不少与机器学习开发相关的内容,比如《教程 | 如何使用谷歌 Mobile Vision API 开发手机》。 今天是 Google I/O 的最后一天,一场讨论机器学习前沿研究与未来方向的 Session 同样不容错过。谷歌云人工智能与机器学习首席科学家李飞飞将与谷歌云部门主管 Dian
选自谷歌博客 作者: Jeff Dean 机器之心编译 编辑:杜伟、陈萍 今日,谷歌研究院高级研究员及高级副总裁 Jeff Dean 代表谷歌研究社区,发表了一篇博客,回顾了 2022 年在语言模型、CV、多模态模型和生成 ML 模型等领域取得的新进展,并对 2023 年及之后的发展进行了展望。 机器之心对博客内容进行了简要的编译整理,全文如下: 我一直对计算机很感兴趣,它能够帮助人们更好地了解周围的环境。过去十年,谷歌所做的大部分研究都在追求类似的愿景,帮助人们更好地了解周围的世界并完成工作。我们希望制
场景描述:人工诊断车辆故障的方法并不少,但流程相对繁琐费时。基于大数据,利用计算机视觉技术以及传感器监测手段,对车辆故障进行诊断,能够减少人工工作时间以及检测准确率。
机器学习:构建自动根据数据开展学习的模型的技术。可以分为“传统机器学习” 和 “深度机器学习”。 传统机器学习
今日,那个被很多网友称为「ChatGPT 最强竞品」的人工智能系统 Claude 迎来了版本大更新。
对于人类的语音识别,目前有很多不同的项目和服务,像Pocketsphinx,谷歌的语音API,以及其他等等。这样的应用程序和服务能够以一种很不错的质量识别语音然后转换成文本,但没有一个能够对麦克风所捕
本文介绍了一种使用机器学习技术绕过网站验证码的方法。首先,作者通过分析网站验证码图像,提取出每个字符的图像特征,然后使用这些特征训练一个分类器。之后,作者使用一个预先训练的模型,在10分钟内对10,000个验证码图像进行分类。最后,作者使用训练好的模型对真实验证码进行解码,发现该模型能够成功地绕过大多数网站上的验证码。
最近,具身智能成为人工智能领域关注的一个焦点。从斯坦福大学的 VIMA 机器人智能体,到谷歌 DeepMind 推出首个控制机器人的视觉 - 语言 - 动作(VLA)的模型 RT-2,大模型加持的机器人研究备受关注。
这个天才老爸又出手了! 还记得我们已经报道过他给娃做的两个项目么? 看这个天才老爸如何用Jetson NANO做一个带娃机器人 老爸用Jetson AGX Xavier开发套件给娃插上翱翔的翅膀 这次,他用GPT-3 和计算机视觉,利用Jetson NANO,将儿子 Dexie 的泰迪熊 Ellee 改造成了一个号称“具备人类智慧”的机器人! 它不仅可以识别一个人以进行更个性化的对话,还能从对话中提取无法识别的人的名字,并注册他们的名字和面孔以备将来遇到,自动扩展她的社交网络! 是不是很有意思?让
在本文中,我们研究深度神经网络(DNNs)在小型文本相关的说话者验证任务的应用。在开发阶段,DNN经过训练,可以在帧级别对说话人进行分类。在说话人录入阶段,使用训练好的的DNN用于提取来自最后隐藏层的语音特征。这些说话人特征或平均值,d-vector,用作说话人特征模型。在评估阶段,为每个话语提取d-vector与录入的说话人模型相比较,进行验证。实验结果表明基于DNN的说话人验证与常用的i-vector相比,系统在一个小的声音文本相关的说话人验证任务实现了良好的性能表现。此外,基于DNN的系统对添加的噪声更加稳健,并且在低错误拒绝操作点上优于i-vector系统。最后,组合系统在进行安静和嘈杂的条件分别优于i-vector系统以14%和25%的相对错误率(EER)。
在海量信息中,不乏非法分子利用网络骗取用户信任并从中获利,钓鱼网站就是其中之一。“钓鱼”网站的网址、网页内容、布局等与真实网站极其相似,没有安全意识的网民容易因此上当受骗,造成严重后果。
本文介绍了一种使用TensorFlow物体检测API寻找特定人物位置的方法。首先,作者通过创建一个包含目标人物位置信息的二维图像,然后使用TensorFlow物体检测API训练一个CNN模型,将图像中的目标人物识别出来。该模型可以用于在其它图像中定位和识别特定人物,具有较好的精度和实时性。
YouTube博主Art from the Machine正式发布Mantella,能够让「上古卷轴5」中的NPC们复活的全新AI Mod。
【新智元导读】 麦肯锡近日发布了一份长达136页的报告——《分析时代:数据驱动世界中的竞争力》。报告正文分为5个部分:1. 数据和分析的革命的动力;2.仍然还没抓住的机遇;在数据系统中描绘价值;4.由数据和分析推动的巅峰模型;5. 深度学习,下一波浪潮。新智元挑选了报告中的深度学习部分,编译后呈现如下: 下一波浪潮:深度学习 为了对这场变革有一个深入的理解,我们通过两种方式调查机器学习带来的潜在影响。首先,我们调查了12个不同的行业,了解机器学习能解决这些行业里的那些问题。第二,我们调查了目前由人类来掌控
1.Directed Diffusion: Direct Control of Object Placement through Attention Guidance
百度开发了新的AI系统,名为同声传译和预期与可控延迟(STACL),百度声称这代表了自然语言处理的重大突破。
【新智元导读】 大家都知道神经网络目前还不能“编程”,但现在一项新的工作“Neual Complete”,朝着这个方向迈出了第一步。程序员 Pascal van Kooten训练了一个神经网络,可以自动补全另一个神经网络的代码,相当于神经网络在“编程”。现代码已在 Github 开源。 人工智能具有解决软件开发中的一个古老问题的潜力——代码编写或操纵其他代码的能力的概念已经存在了很长时间,一般称为元编程(它实际上起源于20世纪50年代末的Lisp),它解决的难题,大多数目前都还在人们的想象之中。 使用人工
https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/
领取专属 10元无门槛券
手把手带您无忧上云