首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2139
文章
1932409
阅读量
188
订阅数
编程与线性代数
来源:数学中国本文约5400字,建议阅读10+分钟向量模型是整个线性代数的核心,向量的概念、性质、关系、变换是掌握和运用线性代数的重点。 先来了解线性代数是什么东东? 在大学数学学科中,线性代数是最为抽象的一门课,从初等数学到线性代数的思维跨度比微积分和概率统计要大得多。很多人学过以后一直停留在知其然不知其所以然的阶段,若干年之后接触图形编程或机器学习等领域才发现线性代数的应用无处不在,但又苦于不能很好地理解和掌握。的确,多数人很容易理解初等数学的各种概念,函数、方程、数列一切都那么的自然,但是一进入线性代
数据派THU
2023-02-24
4590
知乎精选 | ChatGPT与数学优化
来源:运筹or帷幄‍‍‍本文约2200字,建议阅读9分钟ChatGPT的准确性和速度以及处理复杂任务的能力使其成为一种非常有用的工具。 作者信息:宋志刚,中国科学院大学物理学博士 一、引言 ChatGPT是一个由OpenAI训练的大型语言生成模型,基于最先进的Transformer技术。它可以理解和生成人类语言,因此可以完成多种文本生成任务,例如问答、对话、文本生成、内容摘要等。它的准确性和速度以及处理复杂任务的能力使其成为一种非常有用的工具。 ChatGPT的技术特点包括: 1)自然语言处理能力:可以理
数据派THU
2023-02-24
9190
ECCV 2022 | MixSKD: 用于图像识别的Mixup自蒸馏方法
来源:PaperWeekly 本文约1800字,建议阅读5分钟 本篇文章介绍一下我们于 ECCV-2022 发表的一篇模型自蒸馏文章。 传统的知识蒸馏(Knowledge Distillation,KD)需要一个预训练的教师模型来训练一个学生模型,这种模式的缺点是需要设计并训练额外的教师网络,并且两阶段的训练过程提升了流水线开销。自网络知识蒸馏(Self-Knowledge Distillation,Self-KD),顾名思义,则是不依赖额外的教师网络进行指导,利用网络自身的知识来指导自身的学习,从而实现自
数据派THU
2023-02-23
4200
小白如何入门机器学习?
来源:智能财会联盟本文约2200字,建议阅读9分钟本文从五个方面带你入门机器学习:什么是机器学习?工作流程是什么?机器学习算法有哪些?模型评估学习以及Azure机器学习模型搭建实验。 一、什么是机器学习 机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。 二、机器学习工作流程 获取数据 数据基本处理 特征工程 机器学习(模型训练) 模型评估 结果达到要求,上线服务。没有达到要求,重新上面步骤。 2.1 获取到的数据集介绍 数据简介 在数据集中一般: 一行数据我们称为一个样本; 一列数据
数据派THU
2023-02-23
4090
都2023年了,我不允许你还不懂NeRF
来源: 极市平台本文约2200字,建议阅读9分钟本文试图以最小背景知识补充、最少理解成本为前提介绍NeRF。 作者丨mathfinder@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/569843149 [ 导读 ]写这篇文章的动机是,一方面NeRF实在太重要了代表着计算机视觉、图像学结合的未来重要方向;另一方面NeRF对于计算机视觉背景的同学有一定的理解门槛,这篇文章试图以最小背景知识补充、最少理解成本为前提介绍NeRF。 NeRF,即Neural Radiance Fi
数据派THU
2023-02-23
1.1K0
干货 | 数字经济创新创业——农业和食品经济创新
下文整理自清华大学大数据能力提升项目能力提升模块课程“Innovation & Entrepreneurship for Digital Economy”(数字经济创新创业课程)的精彩内容。
数据派THU
2022-12-16
3820
独家 | 关于二分搜索算法你需要知道的一切
你如何在英语词典中查到一个词?我知道你不会按照这种方法做:从第一页开始,翻阅每一个词,直到找到你要找的那个词——当然,除非你的词是 "土豚"(aardvark)。但如果你要找的词是 "动物园"(zoo),这种方法会花很长时间。
数据派THU
2022-12-16
1K0
不懂数字经济就会被淘汰,这本书讲透它背后的关系和逻辑
“数据”这个词我们并不陌生,远到互联网大厂里的数据分析师,近到我们每个人日常生活中的社交媒体——在无形之中,数据已经渗透到我们生活的方方面面。
数据派THU
2022-12-16
2620
原创 | 一文读懂K均值(K-Means)聚类算法
众所周知,机器学习算法可分为监督学习(Supervised learning)和无监督学习(Unsupervised learning)。
数据派THU
2022-12-16
2.1K0
深度学习和经典统计学是一回事?
来源:机器之心 本文约7000字,建议阅读10+分钟 本文会解释为什么深度学习的基础其实不同于统计学,甚至不同于经典的机器学习。 深度学习和简单的统计学是一回事吗?很多人可能都有这个疑问,毕竟二者连术语都有很多相似的地方。在这篇文章中,理论计算机科学家、哈佛大学知名教授 Boaz Barak 详细比较了深度学习与经典统计学的差异,认为“如果纯粹从统计学角度认识深度学习,就会忽略其成功的关键因素”。 图源:https://twitter.com/YiMaTweets/status/155391346418
数据派THU
2022-10-11
5750
深度学习优化入门:Momentum、RMSProp 和 Adam
来源:雷锋网、AI研习社本文约3100字,建议阅读9分钟本文为你介绍如何将数据转换成正态分布来建立模型。 在这篇文章中,我们讨论另外一个困扰神经网络训练的问题,病态曲率。 虽然局部极小值和鞍点会阻碍我们的训练,但病态曲率会减慢训练的速度,以至于从事机器学习的人可能会认为搜索已经收敛到一个次优的极小值。让我们深入了解什么是病态曲率。 病态曲率 考虑以下损失曲线图。 **病态曲率** 如你所知,我们在进入一个以蓝色为标志的像沟一样的区域之前是随机的。这些颜色实际上代表了在特定点上的损失函数的值,红色代表
数据派THU
2022-10-09
4120
没有摄像头、麦克风,用雷达检测睡眠当闹钟:亚马逊发布Halo Rise
来源:机器之心 本文约1100字,建议阅读5分钟 再也不用睡觉的时候也戴着智能表了。 近日,亚马逊举行了年度秋季硬件发布会。在短短一个小时里,亚马逊集中分享了十几款新产品,包括新款 Echo、Kindle 和 Ring 系列设备,Fire TV 电视,以及一些子公司的产品,其中在智能可穿戴设备领域,亚马逊提出了全新形态的产品。 Halo Rise 是一种放置在床边的智能设备,旨在跟踪人们的睡眠,并在早上使用灯光和「小型警报扬声器」来当闹钟唤醒你。此次发布是在亚马逊在 2020 年发布首款 Halo 健身
数据派THU
2022-10-09
6050
使用 Temporal Fusion Transformer 进行时间序列预测
来源:DeepHub IMBA 本文约3700字,建议阅读7分钟 本文我们解释了TFT的理论知识并且使用它进行了一个完整的训练和预测流程。 目前来看表格类的数据的处理还是树型的结构占据了主导地位。但是在时间序列预测中,深度学习神经网络是有可能超越传统技术的。 为什么需要更加现代的时间序列模型? 专为单个时间序列(无论是多变量还是单变量)创建模型的情况现在已经很少见了。现在的时间序列研究方向都是多元的,并且具有各种分布,其中包含更多探索性因素包括:缺失数据、趋势、季节性、波动性、漂移和罕见事件等等。 通过直接
数据派THU
2022-10-09
1.7K0
【Manning新书】自然语言处理入门
来源:专知本文为书籍介绍,建议阅读5分钟这本书可以通过一系列的实际应用作为一个全面的指南。 我写这本书的主要目的是帮助你了解NLP领域是多么令人兴奋,在这个领域工作的可能性是多么无限,以及现在的门槛是多么低。我的目标是帮助你轻松开始在这个领域,并向你展示你可以在几天内实现多么广泛的不同的应用,即使你以前从未在这个领域工作过。这本书可以通过一系列的实际应用作为一个全面的指南,如果你只对一些实际任务感兴趣,也可以作为参考书。到你读完这本书的时候,你就已经学会了: https://www.manning.com
数据派THU
2022-09-27
3130
时间序列中的特征选择:在保持性能的同时加快预测速度
来源:DeepHub IMBA本文约1500字,建议阅读5分钟展示了特征选择在减少预测推理时间方面的有效性。 当我们对数据建模时,首先应该建立一个标准基线方案,然后再通过优化对该方案进行修改。在项目的第一部分中,我们必须要投入时间来理解业务需求并进行充分的探索性分析。建立一个原始模型。可以有助于理解数据,采用适当的验证策略,或为引入奇特的想法提供数据的支持。 在这个初步阶段之后,我们可以根据不同的情况选择不同的优化方式,例如改变模型,进行数据的处理,甚至是引入更多的外部数据。 对于每个方案,我们都需要对数据
数据派THU
2022-09-27
6170
【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习
来源:专知本文为论文介绍,建议阅读5分钟在这篇论文中,我们考虑了有趣的决策类所共有的不同属性。 强化学习(RL)为数据驱动决策提供了一个通用框架。然而,正是这种通用性使得这种方法适用于广泛的问题,也导致了众所周知的效率低下。在这篇论文中,我们考虑了有趣的决策类所共有的不同属性,这些属性可以用来设计计算效率和数据效率都很高的学习算法。具体来说,这项工作研究了决策问题的各个方面的低秩结构和经典确定性规划的效果稀疏性,以及基于端到端模型的方法所依赖的性能。我们首先展示了后继表示中的低秩结构如何使高效在线学习算法
数据派THU
2022-09-27
2150
清华大学周伯文教授:从原则到实践解读多模态人工智能进展与可信赖AI
来源:机器之心  本文为约5102字,建议阅读10分钟本文介绍了清华大学惠妍讲席教授、IEEE/CAAI Fellow、衔远科技创始人周伯文发表主题演讲《多模态人工智能进展与可信赖 AI:从原则到实践》。 以人为中心的 AI 才是真正有活力的 AI。 在 WAIC 2022 AI 开发者论坛上,清华大学惠妍讲席教授、IEEE/CAAI Fellow、衔远科技创始人周伯文发表主题演讲《多模态人工智能进展与可信赖 AI:从原则到实践》。 在演讲中,他主要介绍了多模态 AI 近期的突破以及可信 AI 的挑战。目
数据派THU
2022-09-20
5520
【2022新书】数据科学的实用线性代数
来源:专知本文为书籍介绍,建议阅读5分钟有了这本书的知识,您将能够理解、实现和适应无数的现代分析方法和算法。 如果你想在任何计算或技术领域工作,你需要理解线性代数。作为对矩阵及其运算的研究,线性代数几乎是所有在计算机中实现的算法和分析的数学基础。但是它在几十年前的教科书中呈现的方式与今天专业人士使用线性代数解决现实世界的现代应用的方式有很大的不同。 Mike X Cohen的这本实用指南教授了用Python实现的线性代数的核心概念,包括如何在数据科学、机器学习、深度学习、计算模拟和生物医学数据处理应用中使
数据派THU
2022-09-20
2210
原创 | 谷歌JAX 助力科学计算
作者:王可汗 审校:陈之炎 本文约3500字,建议阅读9分钟 本文为你介绍使用谷歌JAX助力科学计算。 谷歌最新推出的JAX,官方定义为CPU、GPU和TPU上的NumPy。它具有出色的自动微分(differentiation)功能,是可用于高性能机器学习研究的python库。Numpy在科学计算领域十分普及,但是在深度学习领域,由于它不支持自动微分和GPU加速,所以更多的是使用Tensorflow或Pytorch这样的深度学习框架。然而谷歌之前推出的Tensorflow API有一些比较混乱的情况,在1.
数据派THU
2022-09-19
1.1K0
总结了14种数据异常值检验的方法!
来源:宅码本文约7100字,建议阅读10+分钟本文收集整理了公开网络上一些常见的异常检测方法(附资料来源和代码)。 一、基于分布的方法 1. 3sigma 基于正态分布,3sigma准则认为超过3sigma的数据为异常点。 图1: 3sigma def three_sigma(s): mu, std = np.mean(s), np.std(s) lower, upper = mu-3*std, mu+3*std return lower, upper ‍ 2. Z-sco
数据派THU
2022-09-19
7430
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档