首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2133
文章
1860817
阅读量
186
订阅数
独家 | 80%的时间中,数据科学家使用的20%探索数据的图——您需要了解的探索性数据分析(EDA)
据IBM的介绍,探索性数据分析(EDA)是数据科学家用来分析和研究数据集并总结其主要特征的一种方法,通常采用数据可视化技术。因此可以说,EDA 是通过创建可视化和摘要来研究和理解数据集的过程。
数据派THU
2024-03-01
780
独家 | 2024,AI即将面临什么?
《麻省理工科技评论》的“接下来是什么”一期环顾了行业,趋势和技术以求为您提供最新的未来视角。阅读我们该期的剩余内容(https://www.technologyreview.com/tag/whats-next-in-tech/)。
数据派THU
2024-01-26
1280
原创 | 基于Python的强化学习库
OpenAI Gym是一个用于开发和比较强化学习算法的Python库。它提供了一个标准化的环境,使得研究人员可以轻松地测试和比较他们的算法。Gym库中的环境可以是简单的数学问题,也可以是复杂的机器人控制问题。它还提供了多种预定义的环境,如CartPole、MountainCar等,这些环境都可以用于测试和比较强化学习算法。
数据派THU
2024-01-24
1360
原创 | 一个简单的推导:从相关性走向因果性
其实关于“因果推断”的疑惑在我的本科阶段就埋下了种子。我相信几乎所有上过计量或者统计的同学,上课的课件里一定会有一句:Correlation is not causation(相关性不是因果性),仿佛先给你打好预防针:我给你讲的是“相关”,你别当“因果”。其实我当时是困惑的:“那因果性是个啥?因果性和相关性这俩又是啥关系?”但我没有深究为什么,只想着做做题应付考试就好,但自那时起这些疑问似乎成为了一个心结,被封存在长时记忆里,却经常蠢蠢欲动。直到六七年后,我开始重新认真思考这个问题。一次偶然,我在“因果推断”的书籍里发现了一个简单的而又绝妙的推导,我不禁拍案叫绝(是真的拍,拍掉了我的煎饼果子),因为它恰好回答了这个问题。我想通过这篇文章分享这个推导过程,希望能让各位读者也感受到“因果推断”这个领域的奇思妙想。
数据派THU
2024-01-23
1560
【AAAI2024】公平感知的Transformer模型结构剪枝
大型语言模型(LLMs)的不断增大引入了在它们的训练和推断中面临的挑战。移除模型组件被认为是解决大型模型尺寸问题的一种方法,然而,现有的剪枝方法仅关注性能,而没有考虑到对LLMs的负责任使用的一个重要方面:模型的公平性。对于多样化群体,如女性、黑人、LGBTQ+、犹太社区等,重要的是要关注LLMs的公平性,因为它们正在被部署并面向广泛的受众。在这项工作中,首先,我们研究了在基于预训练Transformer的语言模型中,注意力头(attention heads)如何影响公平性和性能。然后,我们提出了一种新的方法,用于剪枝那些对公平性产生负面影响但对性能至关重要的注意力头,即语言建模能力的关键头部。我们的方法在时间和资源方面具有实用性,因为它不需要对最终剪枝后的更公平模型进行微调。我们的研究结果表明,与有偏见的模型相比,DistilGPT-2、GPT2、两种不同尺寸的GPT-Neo、GPT-J和Llama 2模型的性别偏见分别减少了19%、19.5%、39.5%、34.7%、23%和8%,而性能只略有下降。警告:本研究使用了具有冒犯性质的语言。
数据派THU
2024-01-07
990
独家 | 在一个4GBGPU上运行70B大模型推理的新技术
大语言模型通常需要较大的GPU内存。那能不能在单个GPU上运行推理?如果可以,那么所需的最小GPU内存又是多少?
数据派THU
2024-01-07
3070
独家 | 机器学习中的损失函数解释
机器学习为计算模型提供了基于数据进行预测、分类和决策的能力。作为一个研究领域,机器学习是人工智能领域的一个子集,它封装了构建具有模仿人类智能甚至在某些情况下超越人类智能的能力的计算模型所涉及的过程。
数据派THU
2023-12-26
1890
论文 | 一切皆可连接:图神经网络 | 大牛GAT作者Petar Velickovic最新综述
在许多方面,图是我们从自然界接收数据的主要形式。这是因为我们看到的大多数模式,无论是在自然系统还是人工系统中,都可以使用图结构语言来优雅地表示。突出的例子包括分子(表示为原子和键的图)、社交网络和运输网络。这种潜力已经被主要的科学和工业团体看到,其已经受到影响的应用领域包括流量预测、药物发现、社交网络分析和推荐系统。此外,前几年机器学习最成功的一些应用领域——图像、文本和语音处理——可以被视为图表示学习的特例,因此这些领域之间存在大量的信息交换。这项简短调查的主要目的是使读者能够吸收该领域的关键概念,并在相关领域的适当背景下定位图表示学习。
数据派THU
2023-12-19
3060
原创 | 数据的确权、流通、入表与监管研究(二)数据与流通
2022年12月发布的《关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”)提出了需要“构建数据基础制度”,而数据确权、价值评估、流通监管是建立数据制度的三个基本问题。为分析这三个问题,需要建立一个理论模型和分析方法,并在此基础上,提出基本的确权规则、流通规则、入表规则和监管方法,目的是为前述三个问题的分析和解决提供一种在法律、经济和技术上逻辑清晰的架构和方法,推动相关问题的落地解决。
数据派THU
2023-12-11
1740
原创 | 有趣的等待时间悖论
以上场景发生时,我们通常不得不选择等一会,那关于这个等待时间的平均值,其实有一个有趣的悖论,本文中作者会对其做一个通俗且深入的介绍。
数据派THU
2023-12-11
1280
原创 | 数据的确权、流通、入表与监管研究(一):数据与确权
2022年12月发布的《关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”)提出了需要“构建数据基础制度”,而数据确权、价值评估、流通监管是建立数据制度的三个基本问题。为分析这三个问题,需要建立一个理论模型和分析方法,并在此基础上,提出基本的确权规则、流通规则、入表规则和监管方法,目的是为前述三个问题的分析和解决提供一种在法律、经济和技术上逻辑清晰的架构和方法,推动相关问题的落地解决。
数据派THU
2023-12-11
1630
独家 | 每个数据科学家都必学的统计学概念
在数据科学领域,有一些重要的思想帮助人们提高了工作流程的效率,并且也成为了强大的工具。这些思想帮助数据科学家们理解他们所处理的所有信息。
数据派THU
2023-12-11
1360
原创 | 大模型扫盲系列——初识大模型
近年来,随着计算机技术和大数据的快速发展,深度学习在各个领域取得了显著的成果。为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了大模型这一概念。本文将从大模型的原理、训练过程、prompt和相关应用介绍等方面进行分析,帮助读者初步了解大模型。
数据派THU
2023-11-22
4.6K0
独家 | 这种新的数据投毒工具可以让艺术家反击生成式人工智能
作者:Melissa Heikkilä 翻译:付雯欣校对:赵茹萱 本文约2500字,建议阅读5分钟工具名为 Nightshade,它会扰乱训练数据,从而可能对图像生成人工智能模型造成严重损害。
数据派THU
2023-11-20
1910
独家 | 提示工程的进化:定义新程序仿真提示框架
在我最近的文章《新ChatGPT提示工程技术:程序仿真》中,提出了一种新的提示工程技术,旨在使ChatGPT-4表现得像一个程序。在开发它时,让我印象最为深刻的是ChatGPT-4根据程序规格实现自我配置的能力。在原始的程序仿真提示中,严格定义一组功能,并期望使用ChatGPT-4来使得程序状态与功能保持一致。结果令人难忘,许多读者分享了如何成功地将这种方法应用于多种用例。
数据派THU
2023-11-19
1270
原创 | 一文读懂Embeding技术
Embedding 技术是一种将高维数据映射到低维空间的方法,通常用于将离散的、非连续的数据转换为连续的向量表示,以便于计算机进行处理。这种技术广泛用于自然语言处理(NLP)、图像处理、推荐系统和其他机器学习应用中,以方便大语言模型处理输入数据。
数据派THU
2023-11-17
2570
独家 | 自动化探索性因素分析(EDA)来更快更好地理解数据
EDA是我们更好地理解数据集的重要方式之一。几乎所有的数据分析和数据科学专家都在产生新观点或者数据建模之前先做EDA。在现实生活中,依赖于数据集的复杂度和完整性,这个过程会花费大量时间。当然,变量越多,我们在下一步开始前就需要探索越多才能获得结论。
数据派THU
2023-11-13
2140
独家 | 17个可以用于工作自动化的最佳Python脚本(下集)
您是否厌倦了在日常工作中做那些重复性的任务?简单但多功能的Python脚本可以解决您的问题。
数据派THU
2023-11-12
5470
独家 | 17个可以用于工作自动化的最佳Python脚本(上集)
您是否厌倦了在日常工作中做那些重复性的任务?简单但多功能的Python脚本可以解决您的问题。
数据派THU
2023-11-12
4730
原创 | ChatGPT有什么缺陷?看他自己的回答
2022年11月,OpenAI研发的ChatGPT震撼发布。ChatGPT可以高质量地回答各类问题、例如整合汇总文献、完成学生作文、谱写乐曲、撰写诗词歌词剧本、编写和调试代码、模拟各种终端甚至Linux系统。在发布后的短短两个月左右,ChatGPT就达到了一亿用户规模,同时引起了工业界和学术界等各方面的重大反响和讨论。Bill Gates认为ChatGPT的重要性堪比Internet的发明,“会改变我们的世界”。
数据派THU
2023-11-12
1360
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
热点技术征文第五期
新风口Sora来袭,普通人该如何把握机会?
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档