首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2139
文章
1933730
阅读量
188
订阅数
数据派志愿者招募 | 寻找最志同道合的你!
宇宙中心为数据派制定发展战略和进行跨部门沟通,所有的team leader、助理和重要工作人员在此讨论。 研究组为原创内容的主要生产力量,其成员多为大数据理论基础扎实的在校学生和有经验的相关从业者。研究部成员多以技术见长,附有传播情怀。希望把数据科学的知识体系和应用成果传递给读者。研究部分为算法模型、平台系统和调研分析三个组,在生产原创内容之余,辅助部分专访和活动支持。研究部的出产代表数据派的高度和定位,是数据派的“心脏”部门。 翻译组是数据派“独家”系列文章的主要生产力量。组内成员多为数据科学/统计学/计
数据派THU
2023-02-23
1840
独家 | 人工智能的进步与在机器中创造人类智能不同
作者:Oren Etzioni 翻译:顾伟嵩校对:zrx 本文约1200字,建议阅读5分钟本文是《麻省理工学院技术评论》2022年“35岁以下创新者”项目的一部分。 “人工智能(AI)”一词实际上有两种含义,既指将人类智能构建到计算机中的基本科学探索,也指对大量数据进行建模的工作。无论是在野心上,还是在近年来取得的进展上,这两项行为都是非常不同的。 科学AI是对构建和理解人类智能水平的探索,是所有科学中最深刻的挑战之一,它可以追溯到20世纪50年代,并可能持续几十年。 另一方面,以数据为中心的AI始于20世
数据派THU
2022-08-29
1680
独家 | 推荐系统不单单指推荐模型
作者:Even Oldridge,Karl Byleen-Higley 翻译:陈之炎校对:zrx 本文约2500字,建议阅读10分钟本文与你分享涵盖了部署推荐系统的全流程的一种推荐模式。 标签:推荐系统 新手在构建推荐系统时面临的最大挑战是缺乏对推荐系统的切实理解,将大多数推荐系统的在线内容集中在模型上,并且通常仅限于一个简单的协同过滤例子。对于新的从业者来说,推荐系统的简单模型示例和实际量产系统之间存在着巨大的差距。 本博将和读者分享一种模式,它涵盖了部署推荐系统的全流程,示例程序来自Meta公司、Net
数据派THU
2022-08-29
3030
「深度神经网络机器学习专栏」论文精选
来源:应用数学与计算数学学报英文本文附视频,建议阅读5分钟为你精选一篇应用数学与计算数学相关论文。 文章名: Drop‑Activation: Implicit Parameter Reduction and Harmonious Regularization 作者: Senwei Liang · Yuehaw Khoo · Haizhao Yang 文章信息: https://link.springer.com/article/10.1007/s42967-020-00085-3
数据派THU
2022-07-20
1320
独家 | 围绕DeepMind最新AI模型的炒作,忽视了它真正值得注意的地方(附链接)
文: Melissa Heikkilä 2022 年4月22日 翻译:陈超校对:zrx 本文约1800字,建议阅读5分钟一些人担忧关于这些工具喋喋不休的讨论正在对整个领域造成负面的影响。 这个月早期,DeepMind发布了一个新“通才”AI模型Gato。该模型由Alphabet旗下的AI实验室发布,它可以玩Atari视频游戏,字幕图像,聊天以及用真正的机器人手臂堆叠块。总之,Gato可以做604种不同任务。 Gato虽然有无法拒绝的魅力,但是自从其发布后的一周内,部分研究者已经有点儿得意忘形。 DeepM
数据派THU
2022-07-12
2410
原创 | 一文读懂图神经网络
作者:钟阳扬审校:陈之炎 本文约2500字,建议阅读5分钟本文对图神经网络基本概念以及典型的模型做简要的介绍。 图(Graph)是一种数据结构, 能够很自然地建模现实场景中一组实体之间的复杂关系。在真实世界中,很多数据往往以图的形式出现, 例如社交网络、电商购物、蛋白质相互作用关系等。因此,近些年来使用智能化方式来建模分析图结构的研究越来越受到关注, 其中基于深度学习的图建模方法的图神经网络(Graph Neural Network, GNN), 因其出色的性能已广泛应用于社会科学、自然科学等多个领域。 基
数据派THU
2022-06-13
1K0
独家 | 2022 年十项突破性技术
作者:Keysight 翻译:陈之炎校对:zrx 本文约2000字,建议阅读5分钟本文为你介绍2022年十项突破性技术。 标签:突破性技术 口令密码的终结 过去的几十年里,通过网络工作时,往往需要输入口令密码,新的身份验证形式最终将会让我们永远摆脱口令密码,使用电子邮件、推送通知或生物识别扫描等全新的身份验证方式,不仅更加便捷,而且会更加安全。 COVID 变体跟踪 COVID大流行给基因组测序带来了前所未有的机遇,基因组测序能力在全球范围得到了提升和拓展。先进的基因组监测使科学家能够追踪冠状病毒的传播,
数据派THU
2022-05-25
3190
独家 | 使用Mob进行代码审查
作者:Svata Simara翻译:欧阳锦校对:zrx 本文约2000字,建议阅读5分钟本文讨论了使用Mob编程省去代码审查的优点和Mob的使用要求。 标签:代码审查 代码审查的缺点 长反馈回路 等待 多个未完成的任务 书面沟通耗费时间 典型的编程过程对我来说意味着“编写代码 -> 发送至审查阶段”。现在呢?呃……有了另一个任务。这个任务很简单——代码审查,让我们开始第三个阶段。在这阶段,队员会催促审查,提交之后需要等一段时间,接下来自己再次审查……最后——再做一次第二个任务的审查!不,我不同意这种工作
数据派THU
2022-04-08
5130
那些引用次数在15000次以上的都是什么神仙论文?
来源:汉斯出版社本文约3400字,建议阅读5分钟总结梳理了知乎上“引用次数在15000次以上的都是什么论文?”这一问题的经典回答。 前言 小编在这里总结梳理了知乎上“引用次数在15000次以上的都是什么论文?”这一问题的经典回答,希望能帮助到各位进一步了解领域内的相关进展,并且通过阅读这些经典论文或许也会给您带来不少启发。 1. 机器学习领域 我来列举一些机器学习(Machine Learning)领域的高被引文章。 机器学习领域泰斗级学者Geoffrey Hinton的文章引用: 引用次数超过150
数据派THU
2022-04-06
8550
王建民做客第六期青年学者月度沙龙 分享工业软件的开源创新发展模式
3月25日,第六期清华大学青年学者月度沙龙在教师发展中心举办,软件学院院长、大数据研究中心副主任王建民作为主讲嘉宾,作了题为“工业软件与开源创新”的主旨报告,来自全校多个单位的40余位青年教师参加活动。 王建民作主题分享 “工业软件是新工业革命的核心动力,是我国工业安全发展基础,也是国家科技战略的重点之一”。从发展自主工业软件的重要意义出发,王建民介绍了工业软件的发展进程和软件分类,分析了发展现状和发展对策,并结合清华大学在工业软件方面的研发基础,提出了基于开源模式进行跨学科交叉研究的相关建议。他指出,软
数据派THU
2022-04-01
2700
独家 | Python处理海量数据集的三种方法
作者:Georgia Deaconu 翻译:陈超校对:欧阳锦 本文约1200字,建议阅读5分钟本文介绍了Python处理数据集的方法。 作为一名数据科学家,我发现自己处理“大数据”的情况越来越多。我叫做大数据的是那些虽然不是很大,但是却足够让我的电脑处理到崩溃并且拖慢其他程序。 图片来自 Mika Baumeister UNsplash 这个问题并不新鲜,且对于所有问题而言,从来没有一劳永逸的万能公式。最好的方法依赖于你的数据以及你应用的目的。然而,最流行的解决方法通常在以下描述的分类之中。 1. 通过优
数据派THU
2022-03-04
7370
虎虎生威且看今朝 | 数据派优秀志愿者风采展
数据派作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。 在过去的一年,志愿者大家庭成员使数据派THU取得了辉煌的战绩。因此我们遴选出了6位来自各行各业的优秀志愿者们,一起来认识一下他们吧! 王可汗 王可汗,清华大学机械工程系博士三年级学生。清华大学机械工程系直博生在读。曾经有着物理专业的知识背景,研究生期间对数据科学产生浓厚兴趣,对机器学习AI充满好奇。期待着在科研道路上,人工智能与机械工
数据派THU
2022-03-04
2520
使用DistilBERT 蒸馏类 BERT 模型的代码实现
来源:DeepHub IMBA本文约2700字,建议阅读9分钟本文带你进入Distil细节,并给出完整的代码实现。本文为你详细介绍DistilBERT,并给出完整的代码实现。 机器学习模型已经变得越来越大,即使使用经过训练的模型当硬件不符合模型对它应该运行的期望时,推理的时间和内存成本也会飙升。为了缓解这个问题是使用蒸馏可以将网络缩小到合理的大小,同时最大限度地减少性能损失。 我们在以前的文章中介绍过 DistilBERT [1] 如何引入一种简单而有效的蒸馏技术,该技术可以轻松应用于任何类似 BERT 的
数据派THU
2022-03-04
3690
【经典书】概率图模型:原理与技术
来源:专知本文为书籍,建议阅读5分钟概率图模型将概率论与图论相结合,是当前非常热门的一个机器学习研究方向。 概率图模型将概率论与图论相结合,是当前非常热门的一个机器学习研究方向。《概率图模型:原理与技术》详细论述了有向图模型(又称贝叶斯网)和无向图模型(又称马尔可夫网)的表示、推理和学习问题,全面总结了人工智能这一前沿研究领域的新进展。为了便于读者理解,书中包含了大量的定义、定理、证明、算法及其伪代码,穿插了大量的辅助材料,如示例(examples)、技巧专栏(skill boxes)、实例专栏(case
数据派THU
2022-03-04
4010
独家 | Meta的新学习算法可以教AI进行多任务处理
作者:Will Douglas Heaven翻译:顾伟嵩 校对:欧阳锦 本文约1200字,建议阅读5分钟教会神经网络多重技能的技术是通往多功能AI的一步。 如果你能通过视觉认出一只狗,那么当你用语言描述它时,你可能就能认出它。对于今天的人工智能来说,情况并非如此。深度神经网络已经非常擅长识别照片中的物体和用自然语言进行对话,但不是同时进行:有的AI模型擅长其中一种,但不是两者都擅长。部分问题在于,这些模型使用不同的技术学习不同的技能。这是开发可以执行多任务并适应环境的多功能AI机器的一个主要障碍。这也意味
数据派THU
2022-03-04
2100
独家 | 如何跳出编程这个坑
作者:Justin McClain 翻译:陈之炎校对:王可汗 本文约1000字,建议阅读5分钟本文介绍了程序员职业发展中常见的“坑”。
数据派THU
2021-10-19
3200
独家 | 在PyTorch中用图像混合(Mixup)增强神经网络(附链接)
作者:Ta-Ying Cheng翻译:陈之炎校对:车前子 本文约2000字,建议阅读5分钟随机混合图像,效果是不是会更好?
数据派THU
2021-07-16
2.6K0
独家 | 关于Facebook数据泄露你需要知道的事
安全研究员Alon Gal发现了这个数据库,其中包括用户的电话号码、电子邮件地址、家乡、全名和生日。
数据派THU
2021-04-23
4070
迈向第三代人工智能
人工智能 (Artificial Intelligence,简称AI)在60多年的发展历史中,一直存在两个相互竞争的范式,即符号主义与连接主义(或称亚符号主义)。符号主义(即第一代人工智能)到上个世纪八十年代之前一直主导着AI的发展,而连接主义(即第二代人工智能)从上个世纪九十年代逐步发展,到本世纪初进入高潮,大有替代符号主义之势。但是今天看来,这两种范式只是从不同的侧面模拟人类的心智 (或大脑),具有各自的片面性,不可能触及人类真正的智能。
数据派THU
2020-10-26
4460
独家 | 基于NLP的COVID-19虚假新闻检测(附代码)
本文为大家介绍了基于自然语言处理的COVID-19虚假新闻检测方法以及可视化方法,并结合真实的新闻数据集与完整的代码复现了检测以及可视化的过程。
数据派THU
2020-07-03
2.3K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档