首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2139
文章
1933056
阅读量
188
订阅数
如何估算transformer模型的显存大小
来源:DeepHub IMBA本文约1200字,建议阅读6分钟本文为你介绍神经网络的内存计算方法。 在微调GPT/BERT模型时,会经常遇到“ cuda out of memory”的情况。这是因为transformer是内存密集型的模型,并且内存要求也随序列长度而增加。所以如果能对模型的内存要求进行粗略的估计将有助于估计任务所需的资源。 如果你想直接看结果,可以跳到本文最后。不过在阅读本文前请记住所有神经网络都是通过反向传播的方法进行训练的, 这一点对于我们计算内存的占用十分重要。 total_me
数据派THU
2022-09-14
2.7K0
图解 | 深度学习:小白看得懂的BERT原理
来源:计算机视觉与机器学习作者丨Jay Alammar 链接丨https://jalammar.github.io/illustrated-bert/本文约4600字,建议阅读8分钟本文中,我们将研究BERT模型,理解它的工作原理,对于其他领域的同学也具有很大的参考价值。 自google在2018年10月底公布BERT在11项nlp任务中的卓越表现后,BERT 就在 NLP 领域大火,在本文中,我们将研究BERT模型,理解它的工作原理,对于其他领域的同学也具有很大的参考价值。 前言 2018年可谓是自然语
数据派THU
2022-07-27
9350
数字化与数据化——概念界定与辨析
来源:创新科技杂志社本文约16000字,建议阅读20+分钟本文介绍了神经科学和机器学习的进一步发展。近年来,信息技术迅猛发展,人类社会正在由工业时代迈入以数字化为特征的数字时代。 [ 摘要 ] 针对当前数字化研究概念混淆与界定缺乏的情况,以SCI、SSCI一区期刊与自然科学基金委管理科学部认定的30种重要期刊为主要文献来源,使用文献计量法与文献研究法对“数字化”与“数据化”以及“数字化转型”与“数据化转型”两组中英文概念进行区分与界定,明确其内涵外延、演化规律及应用现状,提出数字化未来的研究框架。在数字化快
数据派THU
2022-07-25
9000
【CMU博士论文】通过记忆的元强化学习
来源:专知本文为论文介绍,建议阅读5分钟本文中,我们查看了所有怪物统计数据,以及它们与CR以及彼此之间的关系程度。 现代深度强化学习(RL)算法,尽管处于人工智能能力的最前沿,但通常需要大量的训练样本才能达到与人类相当的性能水平。这种严重的数据效率低下是深度RL实际应用的主要障碍:在没有模拟器的情况下,深度RL几乎不可能应用于任何领域。为了解决这种关键数据效率低下的问题,在本论文中,我们致力于设计能够快速适应新环境的元学习智能体。与标准的强化学习相比,元学习在特定的环境分布上进行学习,从这些环境中采样特定
数据派THU
2022-06-29
2640
文本生成图像这么火,你需要了解这些技术的演变
来源:机器之心本文约8220字,建议阅读10+分钟本文梳理了较为优秀的多模态文本图像模型。 目前多模态任务成为行业热点,本文梳理了较为优秀的多模态文本图像模型:DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、优缺点,及其迭代关系。 OpenAI 最近发布了 DALL·E 2 系统,在 AI 界引发了「地震」,该系统能够根据文本描述创建图像。这是 DALL·E 系统的第二个版本,第一个版本是在近一年前发布的。然而,在 OpenAI 内部,DALL·E 2 背后的模型被称为
数据派THU
2022-06-20
8000
数据科学中的 10 个重要概念和图表的含义
来源:DeepHub IMBA本文共1200字,建议阅读5分钟“当算法给你一条曲线时,一定要知道这个曲线的含义!” 1、偏差-方差权衡 这是一个总是在机器学习最重要理论中名列前茅的概念。机器学习中的几乎所有算法(包括深度学习)都努力在偏差和方差之间取得适当的平衡,这个图清楚地解释了二者的对立关系。 2、基尼不纯度与熵 Gini(缺乏同质性的度量)和 Entropy(随机性的度量)都是决策树中节点不纯度的度量。 对于这两个概念更重要的是要了解它们之间的关系,以便能够在给定的场景中选择正确的指标。
数据派THU
2022-05-31
5490
蛋白质语言建模?伯克利RoshanRao157页博士论文《训练,评估和理解蛋白质序列的进化模型》
来源:专知本文约1000字,建议阅读5分钟本文介绍了在一个通用基准上训练和评估蛋白质语言模型的方法。 最近,伯克利大学Roshan Rao 157页博士论文介绍了在通用基准上训练和评估蛋白质语言模型的方法。随后,研究了模型缩放、数据预处理和训练超参数对transformer在无监督的情况下学习蛋白质接触能力的影响,然后提出了一种在MSA上操作而不是在单个序列上操作的新方法,并证明了该方法在多个下游任务上实现了最优的性能。最后,讨论了所有这些方法在蛋白质设计中的应用。 作者介绍: Meta AI的一名研究科
数据派THU
2022-04-06
2640
5分钟 NLP :Hugging Face 主要类和函数介绍 🤗
来源:Deephub Imba本文约2200字,建议阅读9分钟本文包含其主要类和函数的概述以及一些代码示例。可以作为该库的一个入门教程 。 主要包括Pipeline, Datasets, Metrics, and AutoClasses HuggingFace是一个非常流行的 NLP 库。本文包含其主要类和函数的概述以及一些代码示例。可以作为该库的一个入门教程 。 Hugging Face 是一个开源库,用于构建、训练和部署最先进的 NLP 模型。Hugging Face 提供了两个主要的库,用于模型的t
数据派THU
2022-03-14
3.7K0
吴恩达的2021回顾,这些大事件影响了AI这一年
来源:AI前线本文共5000字,建议阅读10+分钟本文中吴恩达回顾了 2021 年全球人工智能在多模态、大模型、智能语音生成、Transformer 架构、各国 AI 法律举措等方面的主要进展。 近期,机器学习大牛吴恩达(Andrew Ng)在其主编的人工智能周讯《The Batch》上发表了最新文章。文章中,吴恩达回顾了 2021 年全球人工智能在多模态、大模型、智能语音生成、Transformer 架构、各国 AI 法律举措等方面的主要进展。 日前,吴恩达发表了以“赠人玫瑰、手有余香”为主题的圣诞寄语
数据派THU
2022-03-04
2950
Pokémon AI,使用DALL-E生成神奇宝贝图鉴
来源:DeepHub IMBA本文约1000字,建议阅读5分钟图像生成在过去几年中取得了长足的进步。 每年数以百万计的人都热切地等待着新一代神奇宝贝的发布。尽管收藏不断增加,但目标始终如一——Gotta Catch 'Em All! 作为一个狂热的神奇宝贝粉丝和人工智能爱好者,我曾多次尝试将两者融合都失败了。几年前,由于生成对抗网络 (GAN) 的出现,当图像生成开始蓬勃发展时,我尝试使用当时最先进的模型人工生成 Pokémon 图像。首先看看失败的作品。 随着图像生成领域的进步,可以生成的神奇宝贝的质
数据派THU
2022-03-04
2820
独家 | Transformer的可视化理解——深入本质探索其优良表现的原因(附链接)
作者:Ketan Doshi 翻译:欧阳锦校对:和中华 本文约3800字,建议阅读10分钟本文通过可视化的方式清晰地展示了Transformer的工作本质,并从本质中探索了它具有优良表现的原因。
数据派THU
2021-07-16
1.9K0
独家 | 轻松上手,通过微调Transformers完成命名实体识别任务
作者:Lars Kjeldgaard 翻译:王闯(Chuck)校对:和中华 本文约2500字,建议阅读7分钟本文基于丹麦团队研发的Python开源包NERDA演示了如何通过简单微调BERT Transformer来处理NER任务。
数据派THU
2021-04-07
9360
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档