作者 | Sanket Gupta 译者 | 王强 策划 | 刘燕 本文最初发布于 Medium 网站,经原作者授权由 InfoQ 中文站翻译并分享。 当你的数据集变得越来越大,迁移到 Spark 可以提高速度并节约时间。 多数数据科学工作流程都是从 Pandas 开始的。 Pandas 是一个很棒的库,你可以用它做各种变换,可以处理各种类型的数据,例如 CSV 或 JSON 等。我喜欢 Pandas — 我还为它做了一个名为“为什么 Pandas 是新时代的 Excel”的播客。 我仍然认为 Pandas
大噶吼,不说废话,分享一波我最近看过并觉得非常硬核的资源,包括Python、机器学习、深度学习、大模型等等。
一周前,亚马逊启动了 SageMaker Studio 的免费简化版 SageMaker Studio Lab,提供了一个时限为12小时的 CPU 实例和一个时限为 4 小时的 GPU 实例。SageMaker Studio Lab 成为继 Google Colab、Kaggle 和 Paperspace 之后的又一个免费深度学习计算空间。
机器之心报道 机器之心编辑部 看过宫崎骏动画电影《天空之城》的小伙伴,想必偶尔会向往那座神秘的空中岛屿拉普达吧。近日,密歇根大学安娜堡分校博士后研究员 Zhengxia Zou 进行了一项研究,不仅可以创建空中堡垒,更可以转变场景中的天气和光照,让你有身临其境的感觉。此外,这项研究完全基于视觉,能够很好地应用于在线或离线场景,且可以执行实时处理。 哈尔的移动城堡?天空之城?这幅图是否让你想起了这两部电影中的场景…… 上:《天空之城》剧照;下:《哈尔的移动城堡》剧照。 是电影场景变为现实了吗?真的有人建造
众所周知,在三大云提供商中 AWS 拥有最丰富的机器学习能力组合。随着 Sagemaker Studio 于 2020 年初公开发布,他们创建了一个全集成的 ML 开发环境——这是业界首创。
机器之心报道 编辑:魔王、小舟 斯坦福教授 Christopher Manning 用一页纸的篇幅介绍 AI 领域的核心概念。 在「AI」随处可见的当下,你真的理解人工智能领域核心概念吗? 刚刚,斯坦福大学教授、人工智能实验室(SAIL)负责人、HAI 副主任 Christopher Manning 用一页纸的篇幅定义了 AI 领域的核心术语。他表示希望这些定义能够帮助非专业人员理解 AI。 在这一页纸中,Manning 介绍了十多个术语的定义,包括「智能」、「人工智能」、「机器学习」、「深度学习」等。
作者 | Vishnu Prathish 译者 | 王强 策划 | 冬梅 本文最初发布于 Medium 网站,经原作者授权由 InfoQ 中文站翻译并分享。 众所周知,在三大云提供商中 AWS 拥有最丰富的机器学习能力组合。随着 Sagemaker Studio 于 2020 年初公开发布,他们创建了一个全集成的 ML 开发环境——这是业界首创。 在所有 ML 产品的中心锚定一个 IDE 是一个明智的举动——只要你的相关服务正确地填补了关键运维层面的空白。如果一切顺利,亚马逊将有机会一劳永逸地重塑行业中机
选自Medium 作者:David Lee 机器之心编译 编辑:魔王、杜伟 计算机视觉可以学习美式手语,进而帮助听力障碍群体吗?数据科学家 David Lee 用一个项目给出了答案。 如果听不到了,你会怎么办?如果只能用手语交流呢? 当对方无法理解你时,即使像订餐、讨论财务事项,甚至和朋友家人对话这样简单的事情也可能令你气馁。 对普通人而言轻轻松松的事情对于听障群体可能是很困难的,他们甚至还会因此遭到歧视。在很多场景下,他们无法获取合格的翻译服务,从而导致失业、社会隔绝和公共卫生问题。 为了让更多人听到
机器之心报道 机器之心编辑部 走机器的路,让你看一下。 在机器人研究领域,给定某一特定任务之后,如何规划机器人的运动方式至关重要。 最近,GitHub 上开源了一个存储库,该库实现了机器人技术中常用的一些路径规划算法,大部分代码是用 Python 实现的。值得一提的是,开发者用 plotting 为每种算法演示了动画运行过程,直观清晰。 项目地址: https://github.com/zhm-real/PathPlanning 该开源库中实现的路径规划算法包括基于搜索和基于采样的规划算法,具体目录如下
机器之心报道 编辑:小舟 机器学习面试宝典,有这一本就够了。 在机器学习和数据科学岗位的面试中,机器学习领域的概念是经常考察的内容。一位近期经过 27 次 AI 领域面试(包括 Google 等大型公司和一些初创公司)的开发者根据自己的面试实战经验撰写了一份机器学习资料。 这份资料适用于机器学习初学者,包含机器学习中经典常用的基础概念。值得一提的是,每个章节的末尾还附带教程和练习题,帮助读者进一步掌握书中讲解的概念知识。 下载地址:https://www.confetti.ai/assets/ml-pri
Amazon SageMaker 是一项完全托管的服务,可以帮助机器学习开发者和数据科学家快速构建、训练和部署模型。Amazon SageMaker 完全消除了机器学习过程中各个步骤的繁重工作,让开发高质量模型变得更加轻松。 为了帮助开发者更快上手Amazon SageMaker,机器之心联合AWS在6月开设了6期公开课,详细讲解了如何使用 Amazon SageMaker 完成构建生成对抗网络、运行中文命名实体识别、简化 Kubernetes 上的机器学习任务管理等任务,超过1000名开发者共同参与了学
选自towardsdatascience 作者:Saptashwa Bhattacharyya 机器之心编译 编辑:陈萍 损失函数是机器学习里最基础也是最为关键的一个要素,其用来评价模型的预测值和真实值不一样的程度。最为常见的损失函数包括平方损失、指数损失、log 对数损失等损失函数。这里回顾了一种新的损失函数,通过引入鲁棒性作为连续参数,该损失函数可以使围绕最小化损失的算法得以推广,其中损失的鲁棒性在训练过程中自动自我适应,从而提高了基于学习任务的性能。 这篇文章对 CVPR 2019 的一篇论文《A
机器之心专栏 机器之心编辑部 近期,字节跳动发布全球最大的古典钢琴数据集 GiantMIDI-Piano,包括来自 2,784 位作曲家 10,854 首作品的 MIDI 文件,总时长为 1,237 小时。研究者为完成该数据集的构建,开发并开源了一套高精度钢琴转谱系统。 钢琴转谱是一项将钢琴录音转为音乐符号(如 MIDI 格式)的任务。在人工智能领域,钢琴转谱被类比于音乐领域的语音识别任务。然而长期以来,在计算机音乐领域一直缺少一个大规模的钢琴 MIDI 数据集。 近期,字节跳动发布了全球最大的古典钢琴数据
今天,我们要讲的是人工智能和机器学习,以及亚马逊 SageMaker 等产品如何改变数据科学家的工作方式。
机器之心报道 机器之心编辑部 CMU 机器人研究所张昊(Hao Zhang)博士论文新鲜出炉,主要围绕着机器学习并行化的自适应、可组合与自动化问题展开。 随着近年来,机器学习领域的创新不断加速,SysML 的研究者已经创建了在多个设备或计算节点上并行机器学习训练的算法和系统。机器学习模型在结构上变得越来越复杂,许多系统都试图提供全面的性能。尤其是,机器学习扩展通常会低估从一个适当的分布策略映射到模型所需要的知识与时间。此外,将并行训练系统应用于复杂模型更是增加了非常规的开发成本,且性能通常低于预期。 近日,
国内无法访问Google Colab,所以有时候跑Python notebook比较麻烦,得倒腾到本地,如果自己的机器(比如笔记本)性能不行的话跑起来也很痛苦
机器之心报道 作者:张倩、魔王 get 了这个网站,今年万圣节 C 位就是你的! AI 是一个盛产阴间产品的领域,这一点似乎已经毋庸置疑。前不久,有人做了个用来生成「大眼萌」漫画形象的网站「Toonify」,但很快就有人走向了另一个极端:用类似技术做一个丧尸生成器! 利用 Toonify 生成的威尔 · 史密斯漫画形象。 利用「丧尸生成器」生成的威尔 · 斯密斯丧尸形象。 被玩坏的两位美国总统候选人。 这种搞笑又惊悚的风格似乎和即将到来的万圣节很般配。 为了让大家都用上这个效果,作者还专门做了一个名
选自medium 作者:Daniel Anderson 机器之心编译 编辑:陈萍 在代码中用一堆嵌套,花大量时间写出漂亮的代码但最后才发现无法运行,不给任务留缓冲时间…… 这是很多新手程序员都踩过的雷。在这篇文章中,一位全栈首席开发者总结了高级开发人员的 19 个编码原则,可以帮助新手少踩些坑。 进行软件开发,整天敲代码、好不容易调试成功,但是代码的质量堪忧,可读性不是很高,反过头来还得对代码进行完善。也许这不是你的编码能力问题,很有可能在你进行代码编写时,一些看似不重要的编码注意事项没有遵守。这有一份高级
如果你从事软件开发,你就会知道 Bug 是生活的一部分。当你开始你的项目时,Bug 就可能存在,当你把你的产品交付给客户时,Bug 也可能存在。在过去的几十年中,软件开发社区已经开发了许多的技术工具、IDE、代码库等来帮助开发者尽早地发现 Bug,以避免在产品交付的时候仍旧存在 Bug。
这大概就是为什么亚马逊开发了AutoGluon,这是一个开放源代码库,旨在使开发人员仅用几行代码即可编写AI嵌入的应用程序。它已经在GitHub上公开发布。
机器之心报道 机器之心编辑部 考虑到 Transformer 对于机器学习最近一段时间的影响,这样一个研究就显得异常引人注目了。 Transformer 有着巨大的内存和算力需求,因为它构造了一个注意力矩阵,需求与输入呈平方关系。谷歌大脑 Krzysztof Choromanski 等人最近提出的 Performer 模型因为随机正正交特性为注意力矩阵构建了一个无偏的估计量,可以获得线性增长的资源需求量。这一方法超越了注意力机制,甚至可以说为下一代深度学习架构打开了思路。 自面世以来,Transforme
AI 圈里很多人都听说过开源 AI 作画扩散模型 Stable Diffusion,见识过 AI 图片横扫朋友圈。最近大模型兴起除了造梗图之外,应用前景也在逐渐清晰,AIGC(人工智能生成内容)成为了众多科技公司正在尝试的领域。
机器之心报道 编辑:魔王、小舟 iO(Indistinguishability Obfuscation,不可区分混淆)是密码学中黑科技一样的存在,但很多人认为它并不存在。最近,一些研究人员提出了新的 iO 协议。 2018 年,加州大学洛杉矶分校博士生 Aayush Jain 前往日本演讲,介绍他和同事正在开发的一款强大的加密工具。在他陈述团队在 iO 方面的努力时,有观众提问:「我认为 iO 不存在。」 当时,这种看法较为普遍。如果 iO 确实存在,它不仅可以隐藏数据集合,还可以隐藏计算机程序的内部工作机
选自TechTalks 作者:Ben Dickson 机器之心编译 编辑:Panda 修图靠 Photoshop,修视频靠英伟达。 前段时间,Adobe 推出了一个名为「Neural Filters 」的工具包,将 AI 论文中常见的上色、换表情、改年龄、超分辨率等效果统统打包,集成到了 Photoshop 中,让用户动动鼠标就能用上这些功能。当时就有人问:「视频能 p 吗?」 作为一款主打图像处理的软件,Photoshop 或许没有办法很好地回答这一问题。但同样深耕于计算机视觉、计算机图形学的英伟达用行动
选自thenewstack 作者:David Cassel 机器之心编译 编辑:小舟、张倩 在手机快没电时,管理软件往往会提醒我们关掉某些耗电量高的应用。可见,除了硬件厂商外,软件厂商也应该重视能耗问题。在这篇文章中,研究者分析了一下各种编程语言的能耗对比。 当能耗也成为了一个重要指标,我们要怎么选择编程语言?2017 年,由 6 名葡萄牙研究者组成的团队决定对这一问题进行调查并发表了一篇名为《Energy Efficiency Across Programming Languages》的论文。他们用
机器之心报道 编辑:张倩、陈萍 我们见过很多神经网络上色、换表情、修改年龄的研究和应用,但它们往往只存在于 GitHub 上,距离「人人能用」还有一段距离。但最近,推出 Photoshop 的 Adobe 这次终于有所表示了:你们论文里的效果,我们打包实现了。 这两年,我们从很多论文中看到过一些令人惊艳的 demo,比如老照片自动上色、低画质图像秒变高清图像、普通图像一键变梵高风格等。 但对于不写代码、不玩模型的普通人来说,这些 demo 展示的应用还是非常遥远,或者只能从某个 APP 中找到其中一种。因
2017 年,Facebook 开源了针对深度学习的框架 PyTorch。PyTorch 可以帮助开发者和研究人员更加轻松的构建和训练模型。凭借其简单易用、功能强大、用途广泛等特点,PyTorch 广受欢迎,且至今仍是最火的深度学习框架之一。 近年来,随着数据集和模型规模的日益庞大,出于效率考虑,开发者通常采用分布式训练的方式,提⾼训练速度以加快模型迭代。流行的深度学习框架 PyTorch 也为分布式训练提供了内置支持。PyTorch 的分布式训练方式主要有 DP (DataParallel)、DDP (
机器之心报道 机器之心编辑部 UC 伯克利大学计算机科学博士胡戎航(Ronghang Hu)的博士论文新鲜出炉,内容涉及视觉与语言推理的结构化模型。 视觉 - 语言任务(如基于图像回答问题或按照自然语言指令在视觉环境中导航)需要对图像和文本两种模态的数据进行联合建模和推理。视觉和语言联合推理方面已经取得了很大进步,但通常使用的是在更大的数据集和更多计算资源帮助下训练的神经方法。 视觉 - 语言任务的解决是否只是堆参数堆数据那么简单?如果不是,如何构建更好的推理模型,既能提高数据效率又具备不错的泛化性能呢?
机器之心报道 机器之心编辑部 在今年 5 月份的 Stack Overflow 2020 全球开发者调查报告中,JavaScript 连续八年荣登最常用编程语言榜首。在 7 月份的 IEEE 2020 编程语言排行榜中,JavaScript 位列 top 10 编程语言榜单的第五名。近日,分析公司 SlashData 公布了 2020 年第 3 季度的《开发者报告》(第 19 版),对全球 159 个国家或地区的 17000 多名开发者展开了调查。 根据 SlashData 的调查结果显示,JavaScr
TensorFlow 是广泛被用于开发大型深度神经网络 (DNN) 的开放源机器学习 (ML) 库,此类 DNN 需要分布式训练,并且在多个主机上使用多个 GPU。Amazon SageMaker 是一项托管服务,可通过主动学习、超参数优化、模型分布式训练、监控训练进展,部署培训模型作为自动扩展的 RESTful 服务,以及对并发 ML 实验进行集中式管理,从标签数据开始简化 ML 工作流。
亚马逊一直在为其云计算子公司AWS添加AI功能。今天,亚马逊宣布了一系列对SageMaker的改进,SageMaker是用于构建,训练和部署机器学习模型的端到端平台。
机器之心报道 SketchX 实验室 「你画我猜」是一种广泛流传在不同文化中的人类通识游戏,其形式简单但高度体现人类的认知智慧。近日一篇被计算机图形学顶会 SIGGRAPH ASIA 2020 接收的论文提出了一种基于草图的生成优化方法。在给定一个视觉概念的前提下,相较于人类竞争者,该模型能够以相似或更快的速度实现可识别的草图渲染。 近几十年来,AI 在越来越多的游戏中逐渐达到了能够与人类同台竞技的水平。从 1997 年在国际象棋比赛中胜出的 Deep Blue 到 2011 年在电视智力竞赛项目 Jeo
之前的很多研究其实跟工程化是比较脱节的,模型在小环境中工作得很好,并不意味着它在任何地方都可以工作得很好。 各类开源项目其实很大程度上满足了我这样的调包工程师的需求,那么工程化就非常有必要了。 之前《DataOps、MLOps 和 AIOps,你要的是哪个Ops?》文章提到:DataOps、MLOps 和 AIOps的一些异同:
图像合成是指组合不同图像中的部分区域以合成一张新的图像,一个常见的用例是肖像图片的背景替换。为了获得高质量的合成图像,经常需要专业人员手动执行多个编辑步骤,例如图像分割、抠图、前景色彩去污,即使使用复杂的图像编辑工具,这些步骤也是非常耗时的。
机器之心报道 编辑:魔王、小舟 来自加州理工学院和普渡大学的研究者通过直接在傅里叶空间中对积分核进行参数化,构造了一种新的神经算子——傅里叶神经算子(FNO)。 这篇由加州理工学院 Zongyi Li、Anima Anandkumar,以及普渡大学(Purdue University)Kamyar Azizzadenesheli 等人提交的论文的审阅。 本文的作者之一 Anima Anandkumar 是加州理工学院教授,也是英伟达机器学习研究的负责人。 传统意义上,神经网络主要学习有限维欧式空间之间的映
选自arXiv 作者:Adrian de Wynter、Daniel J. Perry 机器之心编译 机器之心编辑部 提取 BERT 子架构是一个非常值得探讨的问题,但现有的研究在子架构准确率和选择方面存在不足。近日,来自亚马逊 Alexa 团队的研究者细化 BERT 子架构提取过程,并提取了一个最优子架构 Bort,它的大小仅为 BERT-large 的 16%,CPU 上的推理速度却提升到了原来的八倍。 在自然语言处理领域,BERT 是一个里程碑式的进展。只需要添加一个单层线性分类器和一个简单的微调
机器之心报道 机器之心编辑部 时隔 15 年,苹果 MacBook 重新用上了自家处理器,4 个小核就能持平上代整块 CPU,能耗还只有 1/10。 北京时间 11 月 11 日凌晨,好不容易付清尾款的打工人又迎来了一波新的产品——搭载苹果自研桌面处理器 M1 的三款新 Mac。 一句话来说,M1 的处理器整体性能比英特尔版的双核处理器性能高很多,而且功耗和图形处理器性能方面要大幅度领先。 M1 采用台积电 5nm 制程工艺,也是全球首款 5nm 工艺的个人电脑处理器。它封装了近 160 亿个晶体管,将
机器之心报道 机器之心编辑部 近日,瑞士 ANYbotics 公司打造的 ANYmal 机器人登上了新一期的《Science Robotics》封面,这款机器人的控制器可以使其穿越各种复杂的环境,包括溪流、草地、雪地、碎石坡等,而且不靠摄像头、激光雷达等常见设备——平衡系统不需要任何外界信息的输入,控制模型也不包含人类输入的规则。 腿式运动扩展了机器人的应用范围,但在地球上一些最具挑战性的环境中,大部分腿式机器人依然无能为力。 多年来,瑞士 ANYbotics 公司的团队一直在试图解决这个问题,他们的最新
作者 | 赵钰莹,郑思宇 如今,有越来越多的企业将机器学习引入到不同的流程中,对机器学习模型的期待也越来越高。与这种期待相反的是,我们对机器学习治理的关注度显然不够,还没有找到好的方式让整个流程运转地更加流畅、透明度更高,甚至连最佳实践可能的样子都十分模糊。在刚刚结束的 2022 re:Invent 大会上,亚马逊云科技数据与机器学习副总裁 Swami Sivasubramanian 博士针对 Amazon SageMaker 发布的一系列更新,扩大了机器学习在模型生命周期中的治理规模,让模型开发初步告别
近期,AI领域不断涌现出重大的变革和创新,其中包括大规模模型的问世和AIGC技术的快速迭代发展。每天都有新技术、新算法不断涌现,更大型的模型也层出不穷。AI技术已经渗透到了各行各业,对开发者、设计师、文字工作者等职业都产生了深刻影响。AI正在改变着我们的工作生产方式,这已成为行业的共识。因此,了解和掌握AI的重要技术变革和趋势对于开发者来说至关重要。 为了让更多的开发者了解和真正参与到技术的开发与应用中,我们推出了一项名为【云上探索实验室】的活动,希望可以和开发者一起从实践中探索技术的边界。本期实验室主题围
用于机器学习、人工智能、数据分析的基于云计算的工具日前增多。其中的一些应用是在基于云计算的文档编辑和电子邮件,技术人员可以通过各种设备登录中央存储库,并在远程位置,甚至在路上或海滩上进行工作。云计算可以处理文件备份和同步,简化工作流程。
编辑:闻菲、佩琦、张乾 【新智元导读】谷歌又放大招:刚刚,Jeff Dean连发十条Twitter,介绍最新发布的测试版Cloud TPU,目前在美国地区开放,每小时6.5美元。谷歌表示,一个Clou
刚装的 linux 环境中使用 python 导入包时可能会报 libGL.so.1: cannot open shared object file 的错误,本文记录解决方案。 问题复现 我是在导入 opencv 包时遇到的错误: >>> import cv2 Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/root/anaconda3/envs/vvd_env/lib/pyth
机器之心原创 作者:徐丹 11 月 11 日零点刚过 26 秒,天猫双十一订单峰值产生,58.3 万笔 / 秒。 11 月 1 日零点至 11 月 11 日零点 30 分,今年整个双十一成交额破 3723 亿,实时成交额超过 1 亿元的品牌超过 300 个。 这是今年阿里交出的双十一成绩单。不断增长的订单数据背后,今年的消费体验也出现了很多变化,付款不再卡顿、快递速度极快… 盛大的消费狂欢过去后,来盘点一下,阿里用什么技术撑住了双十一? 一、阿里双十一技术发展史,从去 IOE 说起 从最底层来说,支撑双十一
机器之心报道 作者:蛋酱 又是一年 1024 ,对于全球开发者来说相当特殊的一天。 1024 这一天,无论你身处何方,都能感受到浓浓的节日氛围。但说到场面最宏大、参会人数最多、内容最丰富的 1024 活动,还是要来合肥看看这家老牌 AI 企业的玩法。 10 月 23 日上午,2020 科大讯飞全球 1024 开发者节在合肥开幕。作为科大讯飞举办的第四届 1024 开发者节,今天的大会比往年来得都早了一些。 「创业的过程就像是登山,我们只有胸怀登顶的梦想,一步一个脚印,踏踏实实地积累高度,最后才能登顶。而
在本章中,我们将学习遗传算法。 首先,我们将描述什么是遗传算法,然后将讨论进化算法和遗传编程的概念,并了解它们与遗传算法的关系。 我们将学习遗传算法的基本构建模块,包括交叉,变异和适应度函数。 然后,我们将使用这些概念来构建各种系统。
译者 | reason_W 编辑 | Just 对大多数企业来说,机器学习听起来就像航天技术一样,属于花费不菲又“高大上”的技术。如果你是想构建一个 Netflix 这种规模的推荐系统,机器学习确实是这样的。(注:Netflix是美国流媒体巨头、世界最大的收费视频网站,曾于 2017 年买下《白夜追凶》全球播放权。)但受万物皆服务(everything-as-a-service)这一趋势的影响,机器学习这一复杂的领域也正在变得越来越接地气。所以现在哪怕你只是一个数据科学领域的新手,并且只想实现一些很容易
在机器学习中,目前主流的方法是利用LSTM等递归神经网络来对未来数据进行预测,这次介绍的DeepAR模型也不例外,不过不同的是,DeepAR模型并不是直接简单地输出一个确定的预测值,而是输出预测值的一个概率分布,这样做的好处有两点:
选自towardsdatascience 作者:Tivadar Danka 机器之心编译 编辑:小舟、陈萍 大学时期学的数学现在可能派上用场了,机器学习背后的原理涉及许多数学知识。深入挖掘一下,你会发现,线性代数、微积分和概率论等都和机器学习背后的算法息息相关。 机器学习算法背后的数学知识你了解吗?在构建模型的过程中,如果想超越其基准性能,那么熟悉基本细节可能会大有帮助,尤其是在想要打破 SOTA 性能时,尤其如此。 机器学习背后的原理往往涉及高等数学。例如,随机梯度下降算法建立在多变量微积分和概率论的基
日前,kdnuggets 上的一篇文章对比了三大公司(谷歌、微软和亚马逊)提供的机器学习服务平台,对于想要启动机器学习项目的公司或是数据科学新手来说,提供了非常多的指导和建议。 AI 研习社将原文编译整理如下: 对于大多数企业来说,机器学习就像航空航天一样遥远,听起来既昂贵,还需要高科技人才。从某种角度来说,如果你想建立一个像 Netflix 一样好的推荐系统,那确实是昂贵且困难。但是,目前这个复杂的领域有一个趋势:一切皆服务(everything-as-a-service)——无需太多投资,即可快速启动机
领取专属 10元无门槛券
手把手带您无忧上云