首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2139
文章
1932899
阅读量
188
订阅数
6 大经典机器学习数据集,3w+ 用户票选得出,建议收藏
本文约1200字,建议阅读6分钟本文汇总了下载排名众多的 6 个数据集,涵盖图像识别、机器翻译、遥感影像等领域。 ‍‍‍‍‍‍ 这些数据集质量高、数据量大,经历人气认证值得收藏码住。 关键词:数据集   机器翻译   机器视觉 数据集是机器学习模型训练的基础,优质的公开数据集对于模型训练效果、研究成果可靠度等具有重要意义。 注:本文梳理的数据集均来自网站: https://hyper.ai/datasets  第 6 名:Tanks Temple 3D 重建数据集   Tanks Temple Datas
数据派THU
2023-03-29
4040
原创 | 一文读懂Transformer
作者:陈之炎 本文约3500字,建议阅读7分钟Transformer 是第一个完全依赖于自注意力机制来计算其输入和输出的表示的转换模型。 主流的序列到序列模型是基于编码器-解码器的循环或卷积神经网络,注意力机制的提出,优化了编解码器的性能,从而使得网络性能达到最优。利用注意力机制构建出新的网络架构Transformer, 完胜了循环或卷积神经网络。Transformer 是第一个完全依赖于自注意力机制来计算其输入和输出的表示的转换模型。Transformer可以并行训练,训练时间更短。 1 Transfor
数据派THU
2022-07-12
3K0
基于神经标签搜索,中科院&微软亚研零样本多语言抽取式摘要入选ACL 2022
来源:机器之心本文约2500字,建议阅读5分钟本文介绍了基于神经标签搜索情况下,中科院和微软亚研的实验进展。 这项研究旨在解决零样本下法语、德语、西班牙语、俄语和土耳其语等多语种的抽取式摘要任务,并在多语言摘要数据集 MLSUM 上大幅提升了基线模型的分数。 抽取式文本摘要目前在英文上已经取得了很好的性能,这主要得益于大规模预训练语言模型和丰富的标注语料。但是对于其他小语种语言,目前很难得到大规模的标注数据。 中国科学院信息工程研究所和微软亚洲研究院联合提出一种是基于 Zero-Shot 的多语言抽取式文本
数据派THU
2022-07-04
1910
论文回顾:Batch Augmentation,在批次中进行数据扩充可以减少训练时间并提高泛化能力
来源:Deephub Imba本文约1000字,建议阅读5分钟本文介绍了论文Batch Augmentation(BA)的最新实例。 Batch Augmentation(BA):提出使用不同的数据增强在同一批次中复制样本实例。通过批次内的增强在达到相同准确性的前提下减少了SGD 更新次数,还可以提高泛化能力。 Batch Augmentation (BA) 没有 BA 的普通SGD: 一个具有损失函数 ℓ (w, xn, yn) 的模型, {xn, yn} 表示目标对的数据集 ,n 从 1 到 N(是 N
数据派THU
2022-04-18
4210
扎克伯格曝光Meta的小目标:AI自动生成元宇宙,实时翻译所有语言
来源:机器之心本文约2400字,建议阅读5分钟它们都将成为元宇宙时代的杀手级 APP? Meta 正在致力于通过语音生成元宇宙世界的人工智能研究,还有很多神奇的技术。首席执行官马克 · 扎克伯格本周三表示,该公司正在研究改善人们与语音助手交流顺畅程度,以及在不同语言之间进行翻译的方式。 最近一段时间,扎克伯格正带领脸书 all in 元宇宙,并预测在未来人们可以在虚拟世界中工作、社交和娱乐,这一环境将最终代替互联网。 至于元宇宙、虚拟现实是如何能够让人沉浸其中的,“解锁这些进步的关键是人工智能,”扎克伯格说
数据派THU
2022-03-08
3160
独家 | 感悟注意力机制
作者:Greg Mehdiyev, Ray Hong, Jinghan Yu, Brendan Artley翻译:陈之炎校对:ZRX 本文约2800字,建议阅读12分钟本文由Simon Fraser大学计算机科学专业硕士生撰写并维护,同时这也是他们课程学分的一部分。 本博由Simon Fraser大学计算机科学专业硕士生撰写并维护,同时这也是他们课程学分的一部分。 想了解更多关于该项目的信息,请访问: sfu.ca/computing/mpcs 简介 看到这张照片时,首先映入眼帘的是什么?相信大多数人的眼
数据派THU
2022-03-04
3740
【ICLR2022】序列生成的目标侧数据增强
来源:专知本文为论文,建议阅读5分钟本文提出了一种生成端的数据增强方法。 论文题目:Target-Side Data Augmentation for Sequence Generation 作者:解曙方,吕昂,夏应策,吴郦军,秦涛,刘铁岩,严睿 通讯作者:严睿 论文概述:自回归序列生成是机器学习和自然语言处理中的一个重要方法。每个元素在生成的时候,它同时基于输入条件和已经生成的元素。之前的数据增强方法,虽然已经在各种任务上取得的显著的效果,却只是被运用在了输入条件上。例如在输入的序列中增加噪声,或进行随
数据派THU
2022-03-04
2570
AI手语主播通过朱广权魔鬼面试,残影级手速无惧贯口,今已正式上岗助力冰雪盛会
本文经ai新媒体量子位(公众号 id:qbitai)授权转载,转载请联系出处本文约3000字,建议阅读10+分钟24小时为你提供手语解说。 什么样的手语主播能跟朱广权battle得有来有回? 话不多说,咱直接板凳瓜子备齐,一起前排围观 : 只见朱广权语速起飞,妙语连珠,频出“魔鬼”面试题,但这位手语老师完全没在怕的: 如此表现,不仅面试官朱广权连连夸赞“精彩”,网友们也纷纷点赞。 没错,这位手语主播并非真人,而是一名来自百度智能云的虚拟数字人。 现在,她已正式上岗冰雪盛会,将在各类冰雪赛事中,为
数据派THU
2022-03-04
2560
不止最佳长论文,腾讯AI在ACL上还有这些NLP成果(附论文&链接)
[ 导读 ] 7 月 31 日晚,自然语言处理领域最大顶会 ACL 2019 公布了今年的八个论文奖项,其中最佳长论文的获奖者被来自中国科学院大学、中国科学院计算技术研究所、腾讯 WeChat AI、华为诺亚方舟实验室、伍斯特理工学院等机构的联合论文所斩获。除了这篇最佳长论文,腾讯在今年的 ACL 会议上还有哪些研究论文被录取?今天,我们就用这篇文章为大家做介绍。
数据派THU
2019-08-12
6460
北京大学万小军教授:让机器进行文学创作,有什么进展和挑战?
导语:本文是北京大学万小军教授在Byte Tech 2019 机器智能前沿论坛上的分享。Byte Tech 2019由中国人工智能学会、字节跳动、清华大学联合主办,清华大学数据科学研究院协办。
数据派THU
2019-05-09
8080
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档