首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2139
文章
1934465
阅读量
188
订阅数
IJCV 2022 | 逆转特征让Re-ID模型从88.54%降至0.15%
来源:PaperWeekly本文约2000字,建议阅读5分钟本文加入了很多新的 related works讨论,加入了多尺度Query攻击 / 黑盒攻击 / 防御三个不同角度的实验。 其实这篇文章初版 2018 年 5 月就写好了,最近 2022 年 12 月才中。四年中得到了老板们的很多支持和理解。这段经历也希望给在投稿的同学们一点鼓舞,paper 写好肯定能中的,不要轻易放弃。  与早期版本相比,我们在公式上做了一些调整,加入了很多新的 related works讨论,加入了多尺度Query攻击 / 黑
数据派THU
2023-02-27
2470
学术科研无从下手?27 条机器学习避坑指南,让你的论文发表少走弯路
本文约4600字,建议阅读9分钟本文为机器学习“避坑指南”。 内容一览:如果你刚接触机器学习不久,并且未来希望在该领域开展学术研究,那么这份为你量身打造的「避坑指南」可千万不要错过了。 关键词:机器学习   科研规范   学术研究 机器学习学术小白,如何优雅避坑坑、让自己的论文顺利发表? 来自苏格兰赫瑞瓦特大学数学与计算机科学学院的 Michael A. Lones 副教授,曾在 2021 年专门发表了一篇论文--「How to avoid machine learning pitfalls: a guid
数据派THU
2023-02-23
2350
独家 | 四个提升数据管道的最佳软件工程策略
二者非常相似,许多起源于软件工程的最佳实践对数据工程同样有效,前提是需要正确地构建它们。
数据派THU
2022-12-16
1800
Python 3.14 将比 C++ 更快🤭
来源:DeepHub IMBA 本文约2400字,建议阅读9分钟 国外大佬将通过分析,证明Python 3.14 将比 C++更快。 Python 是数据科学 (DS) 和机器学习 (ML) 中最常用的脚本语言之一。根据“PopularitY of Programming Languages”,Python 是 Google 上搜索次数最多的语言。除了作为将各种 DS/ML 解决方案连接在一起的出色胶水语言之外,它还有许多库可以对数据进行方便处理。 我们以前也发过文章做过一些3.11 版的测试。因为这个版本
数据派THU
2022-10-09
3250
独家 | 使用ONNX搭建NLP Transformers pipelines
作者:Thomas Chaigneau 翻译:欧阳锦校对:和中华 本文约3000字,建议阅读7分钟本文介绍了如何使用ONNX构建真实世界的NLP应用。 如何用ONNX构建真实世界的NLP应用,而不仅仅是为了张量做基准测试。 图片源自网络 ONNX是一种用于神经网络的机器学习格式。它是可移植的,开源的,并且在不牺牲准确性的情况下提高推理速度,真的很厉害。 我发现了很多关于ONNX基准的文章,但没有一篇文章介绍将其用于真实世界NLP任务的简便方法。我还在Hugging Face的discord server
数据派THU
2022-10-09
8190
独家 | 如何在确保准确度>99%的前提下减少CNN的训练参数(附链接)
文:Sabrina Göllner 翻译:陈之炎 校对:zrx 本文约4800字,建议阅读10分钟 本文来自 Niantic 和 UCL 等机构的研究者使用精心设计和训练的 2D 网络,实现了高质量的深度估计和 3D 重建。 标签:CNN训练 性能优良的神经网络不一定要很大。 图Uriel SC (Unsplash) 近年来,图像识别领域的研究主要集中在深度学习技术上,并且取得了很好的进展。卷积网络(CNNs)在感知图像结构方面非常有效,它能够自动提取独特的特征。然而,大型神经网络往往需要大量的算力和长时
数据派THU
2022-09-27
3520
直播预告 | 百度技术沙龙 基于风险驱动的智能交付系统
风险无处不在,但不是所有的测试都能够揭露风险。基于这两个现实,百度MEG质量效能团队从2021年开始探索和实践基于风险驱动的测试,希望利用人工智能技术来决策测试行为,实现风险揭错的高ROI。 9月21日,本期沙龙数据派THU将带您走进百度MEG质量效能团队,为大家带来“基于风险驱动的智能交付系统”的专题分享。 直播时间:2022/09/21 14:00-16:30 扫码预约直播 演讲嘉宾: 刘道伟,百度资深测试工程师 百度资深测试工程师,搜索业务测试技术负责人,主要负责搜索测试中台和效能方向,具有多年
数据派THU
2022-09-20
2410
Yann LeCun:语言的有限性决定了 AI 永远无法比肩人类智能
来源:AI科技评论本文约4100字,建议阅读7分钟寻找人工智能中的常识(common sense)是比关注语言更重要的任务。 前段时间,谷歌工程师声称自家的 AI 聊天机器人 LaMDA  具有了意识,引发了一片混乱。 LaMDA 是一种大型语言模型(LLM),能够基于任何给定文本预测出可能出现的下一个单词。许多对话在某种程度上都很容易预测,所以这种系统可以推动并保持对话流畅地进行。LaMDA 在这一点上表现非常出色,以至于这位叫 Blake Lemoine 的工程师开始怀疑它产生了类人的知觉。 随着 L
数据派THU
2022-09-08
1720
你的模型是最好的还是最幸运的?选择最佳模型时如何避免随机性
来源:DeepHub IMBA本文约3200字,建议阅读6分钟本文我们将说明如何量化选择最佳模型过程中涉及的随机性。 kaggle比赛里经常会发生shake up的现象,说的直接点就是在有切榜或多榜单的比赛中,可能存在榜单排名激烈震动的情况,例如下面这个例子:Data Science Bowl 2017 我们看到,第一名是从公榜上升了130多名,而第5名则上升了349。 公榜结果就是好的模型私榜不一定就好,因为Kaggle是模拟real world的时刻在变化的数据,不一定遵从过去的规律,用过去的数据是无
数据派THU
2022-08-29
4190
独家 | 如何比较两个或多个分布形态(附链接)
作者:Matteo Courthoud 翻译:陈超校对:赵茹萱本文约7700字,建议阅读15分钟本文从可视化绘图视角和统计检验的方法两种角度介绍了比较两个或多个数据分布形态的方法。 从可视化到统计检验全方位分布形态比较指南: 图片来自作者 比较同一变量在不同组别之间的经验分布是数据科学当中的常见问题,尤其在因果推断中,我们经常在需要评估随机化质量时遇到上述问题。 我们想评估某一政策的效果(或者用户体验功能,广告宣传,药物,……),因果推断当中的金标准就是随机对照试验,也叫作A/B测试。在实际情况下,我们会
数据派THU
2022-08-29
1.4K0
Nature子刊 | 像婴儿一样学习,DeepMind新模型28小时学会物理世界规则
来源:ScienceAI本文约2200字,建议阅读5分钟DeepMind 旨在建立一个能够直观学习物理学的模型。 从 AlphaFold 到数学推理,DeepMind 一直在尝试将 AI 和基础科学结合。现在,DeepMind 又创建了一个可以学习简单物理规则的新模型。 发育心理学家测试分析了婴儿如何通过目光来跟随物体的运动。例如,当播放视频中有一个球突然消失时,孩子们会表现出惊讶。 DeepMind 的计算机科学家 Luis Piloto 及其同事希望为人工智能 (AI) 开发类似的测试。该团队使用立方体
数据派THU
2022-08-29
2770
基于LSTM-CNN的人体活动识别
来源:DeepHub IMBA本文约3400字,建议阅读10+分钟本文带你使用移动传感器产生的原始数据来识别人类活动。 人体活动识别(HAR)是一种使用人工智能(AI)从智能手表等活动记录设备产生的原始数据中识别人类活动的方法。当人们执行某种动作时,人们佩戴的传感器(智能手表、手环、专用设备等)就会产生信号。这些收集信息的传感器包括加速度计、陀螺仪和磁力计。人类活动识别有各种各样的应用,从为病人和残疾人提供帮助到像游戏这样严重依赖于分析运动技能的领域。我们可以将这些人类活动识别技术大致分为两类:固定传感器和
数据派THU
2022-08-29
1.4K0
模型的度量指标和损失函数有什么区别?为什么在项目中两者都很重要?
来源:Deephub Imba本文约2000字,建议阅读8分钟本文我们将解释为什么需要两个独立的模型评分函数来进行评估和优化。 你是否一直在使用你的损失函数来评估你的机器学习系统的性能?我相信有很多人
数据派THU
2022-07-27
3460
Curriculum Labeling:重新审视半监督学习的伪标签
来源:DeepHub IMBA本文约1400字,建议阅读9分钟与微调相反,重新初始化模型确实显著提高了准确性,展示了一种替代且可能更简单的解决方案来缓解确认偏差问题。 Curriculum Labeling (CL),在每个自训练周期之前重新启动模型参数,优于伪标签 (PL)。 Pseudo-Labeling (PL) 通过将伪标签应用于未标记集中的样本以在自训练周期中进行模型训练。Curriculum Labeling (CL)中,应用类似课程学习的原则,通过在每个自学习周期之前重新启动模型参数来避免概念
数据派THU
2022-07-19
4420
统计学和机器学习到底有什么区别?
来源:不止数据分析本文约5800字,建议阅读10+分钟没有统计学,机器学习根本没法存在,但由于当代信息爆炸,人类能接触到的大量数据,机器学习是非常有用的。 统计学和机器学习之间的界定一直很模糊。 无论是业界还是学界一直认为机器学习只是统计学披了一层光鲜的外衣。 而机器学习支撑的人工智能也被称为“统计学的外延”。 例如,诺奖得主托马斯·萨金特曾经说过人工智能其实就是统计学,只不过用了一个很华丽的辞藻。 萨金特在世界科技创新论坛上表示,人工智能其实就是统计学 当然也有一些不同的声音。但是这一观点的正反双方在争
数据派THU
2022-07-06
2400
用香蕉驱动一个随机数生成器,靠谱吗?
来源:大数据文摘本文约3500字,建议阅读7分钟香蕉的用途又增加了! 你以为的随机数是不是都是那种很高级的? 比如前两天,区块链平台Solana出现了长达4个小时的宕机事件。 根据联合创始人Anatoly Yakovenko和其他开发人员表示,该问题是由于区块链的持久随机数功能存在错误导致的。Yakovenko表示,该问题“导致部分网络认为该区块无效”,因此“无法形成共识”。 再比如,在2015年与2017年,工行联合中国科技大学实现基于量子通信技术的同城和异地数据加密传输,在电子档案、网上银行等领域
数据派THU
2022-07-01
4680
独家 | Netflix因果推理应用调研
作者:Netflix Technology Blog 翻译:陈之炎校对:zrx 本文约2500字,建议阅读5分钟在这篇博文中探究社区Netflix因果推理的广度。 标签:Netflix Netflix旨在通过创造引人入胜的内容,帮助会员发现他们所热爱的游戏娱乐世界。其中的关键在于,需要充分理解产品升级与会员快乐指标相关联的因果效应。 此前,Netflix往往通过AB测试来衡量二者之间的因果效应。而当 AB测试产生局限性时,则可以通过准实验(quasi-experimentation)来解决这一问题。Netf
数据派THU
2022-06-24
4610
Michael Bronstein从代数拓扑学取经,提出了一种新的图神经网络计算结构!
来源:AI科技评论本文共5100字,建议阅读15分钟本文通过微分几何学和代数拓扑学的视角讨论图神经网络系列的部分内容。 图形神经网络(GNNs)通常将其计算图与输入图的结构相一致。但是,图是 GNN 的正确计算结构吗?最近的一系列论文挑战了这一假设,用来自代数拓扑学领域的更普遍的对象取代了图,这提供了多种理论和计算优势。 本文由Cristian Bodnar 和Fabrizio Frasca 合著,以 C. Bodnar 、F. Frasca 等人发表于2021 ICML《Weisfeiler and Le
数据派THU
2022-06-24
3910
Nature子刊 | NUS、字节首次将AI元学习引入脑成像领域
来源:量子位(公众号id:qbitai)本文约2600字,建议阅读9分钟脑成像技术是神经科学发展的一个重要领域,能够直接观察大脑在信息处理和应对刺激时的神经化学变化、从而对疾病的诊断和治疗提供重要参照。 近期,新加坡国立大学、字节跳动智能创作新加坡团队等机构合作的一项技术成果被全球顶级学术期刊Nature的子刊Nature Neuroscience收录。这项研究首次将人工智能领域的元学习方法引入到神经科学及医疗领域,能在有限的医疗数据上训练可靠的AI模型,提升基于脑成像的精准医疗效果。 研究背景 脑
数据派THU
2022-06-13
1670
NLP模型读不懂人话?微软AdaTest挑错效率高5倍
来源:新智元本文约3500字,建议阅读10+分钟2022年5月底,微软的AI研发人员在预印本网站发表论文,提出了调试NLP模型的全新路径AdaTest。 自然语言处理(NLP)模型读不懂人话、将文本理解为相反的意思,是业界顽疾了。 现在微软表示,开发出解决此弊的方法。 微软开发AdaTest方法来测试NLP模型 可作为跨越各种应用基础的大型模型,或称平台模型的进展已经大大改善了AI处理自然语言的能力。但自然语言处理(NLP)模型仍然远不完美,有时会以令人尴尬的方式暴露缺陷。 例如有个顶级的商用模型,将葡
数据派THU
2022-06-13
2990
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档