TensorFlow 是广泛被用于开发大型深度神经网络 (DNN) 的开放源机器学习 (ML) 库,此类 DNN 需要分布式训练,并且在多个主机上使用多个 GPU。Amazon SageMaker 是一项托管服务,可通过主动学习、超参数优化、模型分布式训练、监控训练进展,部署培训模型作为自动扩展的 RESTful 服务,以及对并发 ML 实验进行集中式管理,从标签数据开始简化 ML 工作流。
2017 年,Facebook 开源了针对深度学习的框架 PyTorch。PyTorch 可以帮助开发者和研究人员更加轻松的构建和训练模型。凭借其简单易用、功能强大、用途广泛等特点,PyTorch 广受欢迎,且至今仍是最火的深度学习框架之一。 近年来,随着数据集和模型规模的日益庞大,出于效率考虑,开发者通常采用分布式训练的方式,提⾼训练速度以加快模型迭代。流行的深度学习框架 PyTorch 也为分布式训练提供了内置支持。PyTorch 的分布式训练方式主要有 DP (DataParallel)、DDP (
众所周知,在三大云提供商中 AWS 拥有最丰富的机器学习能力组合。随着 Sagemaker Studio 于 2020 年初公开发布,他们创建了一个全集成的 ML 开发环境——这是业界首创。
作者 | Vishnu Prathish 译者 | 王强 策划 | 冬梅 本文最初发布于 Medium 网站,经原作者授权由 InfoQ 中文站翻译并分享。 众所周知,在三大云提供商中 AWS 拥有最丰富的机器学习能力组合。随着 Sagemaker Studio 于 2020 年初公开发布,他们创建了一个全集成的 ML 开发环境——这是业界首创。 在所有 ML 产品的中心锚定一个 IDE 是一个明智的举动——只要你的相关服务正确地填补了关键运维层面的空白。如果一切顺利,亚马逊将有机会一劳永逸地重塑行业中机
AI 圈里很多人都听说过开源 AI 作画扩散模型 Stable Diffusion,见识过 AI 图片横扫朋友圈。最近大模型兴起除了造梗图之外,应用前景也在逐渐清晰,AIGC(人工智能生成内容)成为了众多科技公司正在尝试的领域。
如果你从事软件开发,你就会知道 Bug 是生活的一部分。当你开始你的项目时,Bug 就可能存在,当你把你的产品交付给客户时,Bug 也可能存在。在过去的几十年中,软件开发社区已经开发了许多的技术工具、IDE、代码库等来帮助开发者尽早地发现 Bug,以避免在产品交付的时候仍旧存在 Bug。
今天,我们要讲的是人工智能和机器学习,以及亚马逊 SageMaker 等产品如何改变数据科学家的工作方式。
例如Meta家的Llama 2 70B、Antropic家的Claude 2.1等等:
现在AI最火的方向是什么?那必须是AIGC(AI Generated Content,利用人工智能技术来生成内容)。
作者 | Sanket Gupta 译者 | 王强 策划 | 刘燕 本文最初发布于 Medium 网站,经原作者授权由 InfoQ 中文站翻译并分享。 当你的数据集变得越来越大,迁移到 Spark 可以提高速度并节约时间。 多数数据科学工作流程都是从 Pandas 开始的。 Pandas 是一个很棒的库,你可以用它做各种变换,可以处理各种类型的数据,例如 CSV 或 JSON 等。我喜欢 Pandas — 我还为它做了一个名为“为什么 Pandas 是新时代的 Excel”的播客。 我仍然认为 Pandas
6 月 26 日,亚马逊云科技 Community Day 在上海举办。亚马逊云科技首席开发者布道师、资深数据科学家、资深应用科学家以及亚马逊云科技 Machine Learning Hero 悉数到场,针对 AI 开源的技术趋势及落地实践项目进行分享和讨论。 1王宇博:亚马逊在开源机器学习领域的贡献和实践 开源的概念源于上世纪 80 年代,近年来,随着机器学习和云计算的不断发展,开源逐渐成为众多开发者谈论的核心,其重要性显著提升。目前,前五大开源贡献者中,四家是云计算厂商,前十大开源贡献商中,七家是云计算
选自thenewstack 作者:David Cassel 机器之心编译 编辑:小舟、张倩 在手机快没电时,管理软件往往会提醒我们关掉某些耗电量高的应用。可见,除了硬件厂商外,软件厂商也应该重视能耗问题。在这篇文章中,研究者分析了一下各种编程语言的能耗对比。 当能耗也成为了一个重要指标,我们要怎么选择编程语言?2017 年,由 6 名葡萄牙研究者组成的团队决定对这一问题进行调查并发表了一篇名为《Energy Efficiency Across Programming Languages》的论文。他们用
如何在 DataOps、MLOps 和 AIOps 之间进行选择?大数据团队应该采取哪种 Ops?
Amazon SageMaker 是一项完全托管的服务,可以帮助机器学习开发者和数据科学家快速构建、训练和部署模型。Amazon SageMaker 完全消除了机器学习过程中各个步骤的繁重工作,让开发高质量模型变得更加轻松。 为了帮助开发者更快上手Amazon SageMaker,机器之心联合AWS在6月开设了6期公开课,详细讲解了如何使用 Amazon SageMaker 完成构建生成对抗网络、运行中文命名实体识别、简化 Kubernetes 上的机器学习任务管理等任务,超过1000名开发者共同参与了学
一周前,亚马逊启动了 SageMaker Studio 的免费简化版 SageMaker Studio Lab,提供了一个时限为12小时的 CPU 实例和一个时限为 4 小时的 GPU 实例。SageMaker Studio Lab 成为继 Google Colab、Kaggle 和 Paperspace 之后的又一个免费深度学习计算空间。
Sysdig 的研究人员发现了一种新的云原生挖矿攻击行动,并将其命名为 AMBERSQUID。攻击针对不太常用的 AWS 服务,如 AWS Amplify、AWS Fargate 和 Amazon SageMaker。这些不常见的服务往往意味着其安全性也会被忽视,AMBERSQUID 可能会让受害者每天损失超过 1 万美元。
机器之心报道 机器之心编辑部 UC 伯克利大学计算机科学博士胡戎航(Ronghang Hu)的博士论文新鲜出炉,内容涉及视觉与语言推理的结构化模型。 视觉 - 语言任务(如基于图像回答问题或按照自然语言指令在视觉环境中导航)需要对图像和文本两种模态的数据进行联合建模和推理。视觉和语言联合推理方面已经取得了很大进步,但通常使用的是在更大的数据集和更多计算资源帮助下训练的神经方法。 视觉 - 语言任务的解决是否只是堆参数堆数据那么简单?如果不是,如何构建更好的推理模型,既能提高数据效率又具备不错的泛化性能呢?
选自TechTalks 作者:Ben Dickson 机器之心编译 编辑:Panda 修图靠 Photoshop,修视频靠英伟达。 前段时间,Adobe 推出了一个名为「Neural Filters 」的工具包,将 AI 论文中常见的上色、换表情、改年龄、超分辨率等效果统统打包,集成到了 Photoshop 中,让用户动动鼠标就能用上这些功能。当时就有人问:「视频能 p 吗?」 作为一款主打图像处理的软件,Photoshop 或许没有办法很好地回答这一问题。但同样深耕于计算机视觉、计算机图形学的英伟达用行动
责编 | 王子彧 出品 | CSDN(ID:CSDNnews) 最近的 AI 圈,真是“热闹得一塌糊涂”: 输入一句话就能生成图像的 Stable Diffusion 火爆数月;这边大家不亦乐乎地和智能语音助手聊天…AI 正在开启新时代——从高深莫测的黑科技,变身为辅助工作、生活不可或缺的重要组成部分。 模型变大,算法繁杂 AI 技术开发平台是关键 如果说,简单的 AI 功能试用是新手,熟练掌握 AI 开发是出师,深入行业应用就是真正的大师了。然而,AI 开发过程中如果没有合适的平台,开发过程就会繁琐,
亚马逊一直在为其云计算子公司AWS添加AI功能。今天,亚马逊宣布了一系列对SageMaker的改进,SageMaker是用于构建,训练和部署机器学习模型的端到端平台。
近期,AI领域不断涌现出重大的变革和创新,其中包括大规模模型的问世和AIGC技术的快速迭代发展。每天都有新技术、新算法不断涌现,更大型的模型也层出不穷。AI技术已经渗透到了各行各业,对开发者、设计师、文字工作者等职业都产生了深刻影响。AI正在改变着我们的工作生产方式,这已成为行业的共识。因此,了解和掌握AI的重要技术变革和趋势对于开发者来说至关重要。 为了让更多的开发者了解和真正参与到技术的开发与应用中,我们推出了一项名为【云上探索实验室】的活动,希望可以和开发者一起从实践中探索技术的边界。本期实验室主题围
千百年来,当洪水、龙卷风和野火等自然灾害发生时,往往会造成难以预期的损失。而伴随云计算、大数据、AI等新兴技术的协同发力,这些灾害的破坏性更有可能得到控制,甚至在萌芽之初就被扼杀在摇篮里。
选自medium 作者:Daniel Anderson 机器之心编译 编辑:陈萍 在代码中用一堆嵌套,花大量时间写出漂亮的代码但最后才发现无法运行,不给任务留缓冲时间…… 这是很多新手程序员都踩过的雷。在这篇文章中,一位全栈首席开发者总结了高级开发人员的 19 个编码原则,可以帮助新手少踩些坑。 进行软件开发,整天敲代码、好不容易调试成功,但是代码的质量堪忧,可读性不是很高,反过头来还得对代码进行完善。也许这不是你的编码能力问题,很有可能在你进行代码编写时,一些看似不重要的编码注意事项没有遵守。这有一份高级
选自arXiv 作者:Adrian de Wynter、Daniel J. Perry 机器之心编译 机器之心编辑部 提取 BERT 子架构是一个非常值得探讨的问题,但现有的研究在子架构准确率和选择方面存在不足。近日,来自亚马逊 Alexa 团队的研究者细化 BERT 子架构提取过程,并提取了一个最优子架构 Bort,它的大小仅为 BERT-large 的 16%,CPU 上的推理速度却提升到了原来的八倍。 在自然语言处理领域,BERT 是一个里程碑式的进展。只需要添加一个单层线性分类器和一个简单的微调
Ambarella公司总部位于加州圣克拉拉,以芯片闻名。近日,它宣布了一个新的机器人平台,该平台基于其用于人工智能处理的CVflow架构。此外,它还与亚马逊网络服务签署了一项协议,以简化用其芯片设计产品的过程,有助于训练机器学习模型。
亚马逊宣布推出一款由AWS设计的芯片Inferentia,专门用于部署带有GPU的大型AI模型,该芯片预计于明年推出。
机器之心报道 机器之心编辑部 走机器的路,让你看一下。 在机器人研究领域,给定某一特定任务之后,如何规划机器人的运动方式至关重要。 最近,GitHub 上开源了一个存储库,该库实现了机器人技术中常用的一些路径规划算法,大部分代码是用 Python 实现的。值得一提的是,开发者用 plotting 为每种算法演示了动画运行过程,直观清晰。 项目地址: https://github.com/zhm-real/PathPlanning 该开源库中实现的路径规划算法包括基于搜索和基于采样的规划算法,具体目录如下
这大概就是为什么亚马逊开发了AutoGluon,这是一个开放源代码库,旨在使开发人员仅用几行代码即可编写AI嵌入的应用程序。它已经在GitHub上公开发布。
作者 | 赵钰莹,郑思宇 如今,有越来越多的企业将机器学习引入到不同的流程中,对机器学习模型的期待也越来越高。与这种期待相反的是,我们对机器学习治理的关注度显然不够,还没有找到好的方式让整个流程运转地更加流畅、透明度更高,甚至连最佳实践可能的样子都十分模糊。在刚刚结束的 2022 re:Invent 大会上,亚马逊云科技数据与机器学习副总裁 Swami Sivasubramanian 博士针对 Amazon SageMaker 发布的一系列更新,扩大了机器学习在模型生命周期中的治理规模,让模型开发初步告别
十多年来,得益于GPU等硬件性能的提升,大规模、高度复杂的深度学习应用成为了可能。但对于普通开发者来说,上手深度学习并不总是一件容易的事。 开发者或许会烦恼于构建、训练模型,部署模型和超参调优等繁琐步骤,或许还会受到算力条件的限制,诸多因素都会让深度学习的实战阻碍重重。 在这样的背景下,Amazon SageMaker应运而生,为万千开发者们带来了便捷。Amazon SageMaker 是一套强大的完全托管服务,覆盖深度学习全流程的工作体验,可以帮助开发者和数据科学家快速构建、训练和部署AI模型,大幅度消除
在机器学习中,目前主流的方法是利用LSTM等递归神经网络来对未来数据进行预测,这次介绍的DeepAR模型也不例外,不过不同的是,DeepAR模型并不是直接简单地输出一个确定的预测值,而是输出预测值的一个概率分布,这样做的好处有两点:
为了成功采用人工智能技术,组织的IT团队需要开发一些机器学习技能,并了解如何将这些转化为主要云平台所需的技能。
机器之心报道 编辑:魔王、小舟 斯坦福教授 Christopher Manning 用一页纸的篇幅介绍 AI 领域的核心概念。 在「AI」随处可见的当下,你真的理解人工智能领域核心概念吗? 刚刚,斯坦福大学教授、人工智能实验室(SAIL)负责人、HAI 副主任 Christopher Manning 用一页纸的篇幅定义了 AI 领域的核心术语。他表示希望这些定义能够帮助非专业人员理解 AI。 在这一页纸中,Manning 介绍了十多个术语的定义,包括「智能」、「人工智能」、「机器学习」、「深度学习」等。
机器之心报道 作者:张倩、魔王 get 了这个网站,今年万圣节 C 位就是你的! AI 是一个盛产阴间产品的领域,这一点似乎已经毋庸置疑。前不久,有人做了个用来生成「大眼萌」漫画形象的网站「Toonify」,但很快就有人走向了另一个极端:用类似技术做一个丧尸生成器! 利用 Toonify 生成的威尔 · 史密斯漫画形象。 利用「丧尸生成器」生成的威尔 · 斯密斯丧尸形象。 被玩坏的两位美国总统候选人。 这种搞笑又惊悚的风格似乎和即将到来的万圣节很般配。 为了让大家都用上这个效果,作者还专门做了一个名
选自Medium 作者:David Lee 机器之心编译 编辑:魔王、杜伟 计算机视觉可以学习美式手语,进而帮助听力障碍群体吗?数据科学家 David Lee 用一个项目给出了答案。 如果听不到了,你会怎么办?如果只能用手语交流呢? 当对方无法理解你时,即使像订餐、讨论财务事项,甚至和朋友家人对话这样简单的事情也可能令你气馁。 对普通人而言轻轻松松的事情对于听障群体可能是很困难的,他们甚至还会因此遭到歧视。在很多场景下,他们无法获取合格的翻译服务,从而导致失业、社会隔绝和公共卫生问题。 为了让更多人听到
Root 假装发自 拉斯维加斯 量子位 出品 | 公众号 QbitAI 机器学习现在已经在多个领域爆发出惊人的能量,企业通过获取有效的用户数据,可以高效锁定用户的需求,针对性地提供服务,营收利润的拉升效果立竿见影。 但对于大多数急着上车的企业来说,自身业务结合人工智能技术最难的地方在于,没有办法迅速找到资深的AI专家来分析业务链,并搭建相应的机器学习模型解决核心问题,提升生产或者服务环节的效率。 亚马逊敏锐地捕捉到了这个痛点,在今天的创新大会AWS Re:INVENT上,亚马逊云服务AWS的CEO,Andy
机器之心报道 编辑:张倩、陈萍 我们见过很多神经网络上色、换表情、修改年龄的研究和应用,但它们往往只存在于 GitHub 上,距离「人人能用」还有一段距离。但最近,推出 Photoshop 的 Adobe 这次终于有所表示了:你们论文里的效果,我们打包实现了。 这两年,我们从很多论文中看到过一些令人惊艳的 demo,比如老照片自动上色、低画质图像秒变高清图像、普通图像一键变梵高风格等。 但对于不写代码、不玩模型的普通人来说,这些 demo 展示的应用还是非常遥远,或者只能从某个 APP 中找到其中一种。因
在这篇文章[1]中,我们讨论 PyTorch 对创建自定义运算符的支持,并演示它如何帮助我们解决数据输入管道的性能瓶颈、加速深度学习工作负载并降低训练成本。
机器之心报道 机器之心编辑部 看过宫崎骏动画电影《天空之城》的小伙伴,想必偶尔会向往那座神秘的空中岛屿拉普达吧。近日,密歇根大学安娜堡分校博士后研究员 Zhengxia Zou 进行了一项研究,不仅可以创建空中堡垒,更可以转变场景中的天气和光照,让你有身临其境的感觉。此外,这项研究完全基于视觉,能够很好地应用于在线或离线场景,且可以执行实时处理。 哈尔的移动城堡?天空之城?这幅图是否让你想起了这两部电影中的场景…… 上:《天空之城》剧照;下:《哈尔的移动城堡》剧照。 是电影场景变为现实了吗?真的有人建造
机器之心报道 机器之心编辑部 在今年 5 月份的 Stack Overflow 2020 全球开发者调查报告中,JavaScript 连续八年荣登最常用编程语言榜首。在 7 月份的 IEEE 2020 编程语言排行榜中,JavaScript 位列 top 10 编程语言榜单的第五名。近日,分析公司 SlashData 公布了 2020 年第 3 季度的《开发者报告》(第 19 版),对全球 159 个国家或地区的 17000 多名开发者展开了调查。 根据 SlashData 的调查结果显示,JavaScr
但受限于当时算法的性能和效率,画出来的内容还不够完整,只是在AI研究者内部小范围被津津乐道。
机器之心报道 编辑:张倩、袁铭怿 Dramatron似乎在一定程度上克服了AI大模型写长剧本前后不连贯的问题。 你是否有过这种体验:某一天逛街的时候,脑子里突然冒出来一个好玩的故事,但你一时想不到更多的细节,也没有一块完整的时间去把它写出来? DeepMind 新出的一款剧本写作 AI——Dramatron 或许可以帮到你。 Dramatron 是一个所谓的「联合写作」工具,你给它一句话(log line)描述中心戏剧冲突(比如 James 在有 Sam 鬼魂出没的后院发现了一口井),它就能自动写出标题、
机器之心报道 编辑:小舟 机器学习面试宝典,有这一本就够了。 在机器学习和数据科学岗位的面试中,机器学习领域的概念是经常考察的内容。一位近期经过 27 次 AI 领域面试(包括 Google 等大型公司和一些初创公司)的开发者根据自己的面试实战经验撰写了一份机器学习资料。 这份资料适用于机器学习初学者,包含机器学习中经典常用的基础概念。值得一提的是,每个章节的末尾还附带教程和练习题,帮助读者进一步掌握书中讲解的概念知识。 下载地址:https://www.confetti.ai/assets/ml-pri
图算法最早来源于图论和组合优化相关算法,在风控里面应用比较多的基本上都是传统的图算法或比较偏数学理论的算法,如最短路径发现,不同的账号和交易之间存在异常的最短路径,某些账号或设备存在异常的关联。另外,还有图的识别,比如洗钱,会涉及到异常的环路。
机器之心报道 机器之心编辑部 CMU 机器人研究所张昊(Hao Zhang)博士论文新鲜出炉,主要围绕着机器学习并行化的自适应、可组合与自动化问题展开。 随着近年来,机器学习领域的创新不断加速,SysML 的研究者已经创建了在多个设备或计算节点上并行机器学习训练的算法和系统。机器学习模型在结构上变得越来越复杂,许多系统都试图提供全面的性能。尤其是,机器学习扩展通常会低估从一个适当的分布策略映射到模型所需要的知识与时间。此外,将并行训练系统应用于复杂模型更是增加了非常规的开发成本,且性能通常低于预期。 近日,
大噶吼,不说废话,分享一波我最近看过并觉得非常硬核的资源,包括Python、机器学习、深度学习、大模型等等。
机器之心专栏 机器之心编辑部 近期,字节跳动发布全球最大的古典钢琴数据集 GiantMIDI-Piano,包括来自 2,784 位作曲家 10,854 首作品的 MIDI 文件,总时长为 1,237 小时。研究者为完成该数据集的构建,开发并开源了一套高精度钢琴转谱系统。 钢琴转谱是一项将钢琴录音转为音乐符号(如 MIDI 格式)的任务。在人工智能领域,钢琴转谱被类比于音乐领域的语音识别任务。然而长期以来,在计算机音乐领域一直缺少一个大规模的钢琴 MIDI 数据集。 近期,字节跳动发布了全球最大的古典钢琴数据
机器之心原创 作者:吴昕 「互联网 + 消费者」模式所创造的价值已经充分释放并趋于平缓,亚马逊希望从机器学习即服务市场(MLaaS)中受益,该市场正依靠基于云技术的日渐增长。 根据 Mordor Intelligence 的一份报告,预计全球 MLaaS 市场在 2020 年至 2025 年之间的复合年增长率为 43%,到 2025 年将达到 84.8 亿美元。 新服务以工业和制造业客户为中心,有望帮助 AWS 在其中获得强大的吸引力。亚马逊在将其零售业务中的技术应用于其它行业方面将更加积极,不过
之前的很多研究其实跟工程化是比较脱节的,模型在小环境中工作得很好,并不意味着它在任何地方都可以工作得很好。 各类开源项目其实很大程度上满足了我这样的调包工程师的需求,那么工程化就非常有必要了。 之前《DataOps、MLOps 和 AIOps,你要的是哪个Ops?》文章提到:DataOps、MLOps 和 AIOps的一些异同:
领取专属 10元无门槛券
手把手带您无忧上云