首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2138
文章
1921268
阅读量
188
订阅数
归一化技术比较研究:Batch Norm, Layer Norm, Group Norm
归一化层是深度神经网络体系结构中的关键,在训练过程中确保各层的输入分布一致,这对于高效和稳定的学习至关重要。归一化技术的选择(Batch, Layer, GroupNormalization)会显著影响训练动态和最终的模型性能。每种技术的相对优势并不总是明确的,随着网络体系结构、批处理大小和特定任务的不同而变化。
数据派THU
2024-04-18
270
CVPR 2024 | 多模态大模型幻觉原因找到了!
OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation
数据派THU
2024-04-16
1630
​港中文提出CLongEval中文基准测试集,准确评估大模型长上下文能力
ClongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models
数据派THU
2024-04-16
1480
独家 | 探秘全栈数据科学家
作者:Kelvin Lu 翻译:陈之炎校对:赵茹萱本文约4300字,建议阅读9分钟本文介绍了作者对于“全栈数据科学家”的一些见解。‍‍
数据派THU
2024-04-01
1000
独家 | 生成式AI的设计模式:一份全面的指南
在创建新事物的时候,我们都会依赖经过尝试检验的方法、途经和模式。这个说法适用于软件工程领域,但对于生成式AI和人工智能来说可能并非如此。对于像生成式AI等新兴技术,我们缺乏充分记录的模式来支持我们的解决办法。
数据派THU
2024-04-01
1660
独家 | 80%的时间中,数据科学家使用的20%探索数据的图——您需要了解的探索性数据分析(EDA)
据IBM的介绍,探索性数据分析(EDA)是数据科学家用来分析和研究数据集并总结其主要特征的一种方法,通常采用数据可视化技术。因此可以说,EDA 是通过创建可视化和摘要来研究和理解数据集的过程。
数据派THU
2024-03-01
990
独家 | 2024,AI即将面临什么?
《麻省理工科技评论》的“接下来是什么”一期环顾了行业,趋势和技术以求为您提供最新的未来视角。阅读我们该期的剩余内容(https://www.technologyreview.com/tag/whats-next-in-tech/)。
数据派THU
2024-01-26
1440
原创 | 基于Python的强化学习库
OpenAI Gym是一个用于开发和比较强化学习算法的Python库。它提供了一个标准化的环境,使得研究人员可以轻松地测试和比较他们的算法。Gym库中的环境可以是简单的数学问题,也可以是复杂的机器人控制问题。它还提供了多种预定义的环境,如CartPole、MountainCar等,这些环境都可以用于测试和比较强化学习算法。
数据派THU
2024-01-24
1570
原创 | 一个简单的推导:从相关性走向因果性
其实关于“因果推断”的疑惑在我的本科阶段就埋下了种子。我相信几乎所有上过计量或者统计的同学,上课的课件里一定会有一句:Correlation is not causation(相关性不是因果性),仿佛先给你打好预防针:我给你讲的是“相关”,你别当“因果”。其实我当时是困惑的:“那因果性是个啥?因果性和相关性这俩又是啥关系?”但我没有深究为什么,只想着做做题应付考试就好,但自那时起这些疑问似乎成为了一个心结,被封存在长时记忆里,却经常蠢蠢欲动。直到六七年后,我开始重新认真思考这个问题。一次偶然,我在“因果推断”的书籍里发现了一个简单的而又绝妙的推导,我不禁拍案叫绝(是真的拍,拍掉了我的煎饼果子),因为它恰好回答了这个问题。我想通过这篇文章分享这个推导过程,希望能让各位读者也感受到“因果推断”这个领域的奇思妙想。
数据派THU
2024-01-23
1700
【AAAI2024】公平感知的Transformer模型结构剪枝
大型语言模型(LLMs)的不断增大引入了在它们的训练和推断中面临的挑战。移除模型组件被认为是解决大型模型尺寸问题的一种方法,然而,现有的剪枝方法仅关注性能,而没有考虑到对LLMs的负责任使用的一个重要方面:模型的公平性。对于多样化群体,如女性、黑人、LGBTQ+、犹太社区等,重要的是要关注LLMs的公平性,因为它们正在被部署并面向广泛的受众。在这项工作中,首先,我们研究了在基于预训练Transformer的语言模型中,注意力头(attention heads)如何影响公平性和性能。然后,我们提出了一种新的方法,用于剪枝那些对公平性产生负面影响但对性能至关重要的注意力头,即语言建模能力的关键头部。我们的方法在时间和资源方面具有实用性,因为它不需要对最终剪枝后的更公平模型进行微调。我们的研究结果表明,与有偏见的模型相比,DistilGPT-2、GPT2、两种不同尺寸的GPT-Neo、GPT-J和Llama 2模型的性别偏见分别减少了19%、19.5%、39.5%、34.7%、23%和8%,而性能只略有下降。警告:本研究使用了具有冒犯性质的语言。
数据派THU
2024-01-07
1160
独家 | 在一个4GBGPU上运行70B大模型推理的新技术
大语言模型通常需要较大的GPU内存。那能不能在单个GPU上运行推理?如果可以,那么所需的最小GPU内存又是多少?
数据派THU
2024-01-07
4140
独家 | 机器学习中的损失函数解释
机器学习为计算模型提供了基于数据进行预测、分类和决策的能力。作为一个研究领域,机器学习是人工智能领域的一个子集,它封装了构建具有模仿人类智能甚至在某些情况下超越人类智能的能力的计算模型所涉及的过程。
数据派THU
2023-12-26
2320
论文 | 一切皆可连接:图神经网络 | 大牛GAT作者Petar Velickovic最新综述
在许多方面,图是我们从自然界接收数据的主要形式。这是因为我们看到的大多数模式,无论是在自然系统还是人工系统中,都可以使用图结构语言来优雅地表示。突出的例子包括分子(表示为原子和键的图)、社交网络和运输网络。这种潜力已经被主要的科学和工业团体看到,其已经受到影响的应用领域包括流量预测、药物发现、社交网络分析和推荐系统。此外,前几年机器学习最成功的一些应用领域——图像、文本和语音处理——可以被视为图表示学习的特例,因此这些领域之间存在大量的信息交换。这项简短调查的主要目的是使读者能够吸收该领域的关键概念,并在相关领域的适当背景下定位图表示学习。
数据派THU
2023-12-19
4000
原创 | 数据的确权、流通、入表与监管研究(二)数据与流通
2022年12月发布的《关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”)提出了需要“构建数据基础制度”,而数据确权、价值评估、流通监管是建立数据制度的三个基本问题。为分析这三个问题,需要建立一个理论模型和分析方法,并在此基础上,提出基本的确权规则、流通规则、入表规则和监管方法,目的是为前述三个问题的分析和解决提供一种在法律、经济和技术上逻辑清晰的架构和方法,推动相关问题的落地解决。
数据派THU
2023-12-11
1880
原创 | 有趣的等待时间悖论
以上场景发生时,我们通常不得不选择等一会,那关于这个等待时间的平均值,其实有一个有趣的悖论,本文中作者会对其做一个通俗且深入的介绍。
数据派THU
2023-12-11
1420
原创 | 数据的确权、流通、入表与监管研究(一):数据与确权
2022年12月发布的《关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”)提出了需要“构建数据基础制度”,而数据确权、价值评估、流通监管是建立数据制度的三个基本问题。为分析这三个问题,需要建立一个理论模型和分析方法,并在此基础上,提出基本的确权规则、流通规则、入表规则和监管方法,目的是为前述三个问题的分析和解决提供一种在法律、经济和技术上逻辑清晰的架构和方法,推动相关问题的落地解决。
数据派THU
2023-12-11
1790
独家 | 每个数据科学家都必学的统计学概念
在数据科学领域,有一些重要的思想帮助人们提高了工作流程的效率,并且也成为了强大的工具。这些思想帮助数据科学家们理解他们所处理的所有信息。
数据派THU
2023-12-11
1440
原创 | 大模型扫盲系列——初识大模型
近年来,随着计算机技术和大数据的快速发展,深度学习在各个领域取得了显著的成果。为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了大模型这一概念。本文将从大模型的原理、训练过程、prompt和相关应用介绍等方面进行分析,帮助读者初步了解大模型。
数据派THU
2023-11-22
7.1K0
独家 | 这种新的数据投毒工具可以让艺术家反击生成式人工智能
作者:Melissa Heikkilä 翻译:付雯欣校对:赵茹萱 本文约2500字,建议阅读5分钟工具名为 Nightshade,它会扰乱训练数据,从而可能对图像生成人工智能模型造成严重损害。
数据派THU
2023-11-20
2090
独家 | 提示工程的进化:定义新程序仿真提示框架
在我最近的文章《新ChatGPT提示工程技术:程序仿真》中,提出了一种新的提示工程技术,旨在使ChatGPT-4表现得像一个程序。在开发它时,让我印象最为深刻的是ChatGPT-4根据程序规格实现自我配置的能力。在原始的程序仿真提示中,严格定义一组功能,并期望使用ChatGPT-4来使得程序状态与功能保持一致。结果令人难忘,许多读者分享了如何成功地将这种方法应用于多种用例。
数据派THU
2023-11-19
1310
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档