首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2139
文章
1935046
阅读量
188
订阅数
​原创 | AI顶会论文很多附带源代码?不少是假开源!
作者:林嘉亮审校:陈之炎 本文约3500字,建议阅读10分钟相当多的作者没有向用户提供足够详细的文档,导致了一些重要信息的缺失。
数据派THU
2022-12-16
8470
论文清单:一文梳理因果推理在自然语言处理中的应用(附链接)
来源:PaperWeekly 本文约5000字,建议阅读8分钟 这篇文章是由笔者根据自然语言顶级会议收录有关于因果推断的文献整理而成,内容包括论文的基本信息以及阅读笔记。 他山之石 1. Papers about Causal Inference and Language https://github.com/causaltext/causal-text-papers 2. Causality for NLP Reading List https://github.com/zhijing-jin/Causa
数据派THU
2022-10-10
8460
使用 Temporal Fusion Transformer 进行时间序列预测
来源:DeepHub IMBA 本文约3700字,建议阅读7分钟 本文我们解释了TFT的理论知识并且使用它进行了一个完整的训练和预测流程。 目前来看表格类的数据的处理还是树型的结构占据了主导地位。但是在时间序列预测中,深度学习神经网络是有可能超越传统技术的。 为什么需要更加现代的时间序列模型? 专为单个时间序列(无论是多变量还是单变量)创建模型的情况现在已经很少见了。现在的时间序列研究方向都是多元的,并且具有各种分布,其中包含更多探索性因素包括:缺失数据、趋势、季节性、波动性、漂移和罕见事件等等。 通过直接
数据派THU
2022-10-09
1.7K0
独家 | 使用ONNX搭建NLP Transformers pipelines
作者:Thomas Chaigneau 翻译:欧阳锦校对:和中华 本文约3000字,建议阅读7分钟本文介绍了如何使用ONNX构建真实世界的NLP应用。 如何用ONNX构建真实世界的NLP应用,而不仅仅是为了张量做基准测试。 图片源自网络 ONNX是一种用于神经网络的机器学习格式。它是可移植的,开源的,并且在不牺牲准确性的情况下提高推理速度,真的很厉害。 我发现了很多关于ONNX基准的文章,但没有一篇文章介绍将其用于真实世界NLP任务的简便方法。我还在Hugging Face的discord server
数据派THU
2022-10-09
8190
7个有用的Jupyter扩展
来源:Deephub Imba 本文约700字,建议阅读9分钟 本文为你介绍7个不常见但是好用且高效的Jupyter扩展。 今天将介绍7个不常见但是却很好用且能够提高效率的Jupyter扩展。 1、voila 这个扩展将将Jupyter笔记本变成独立的网络应用程序。与通常的html转换的笔记本不同,每个连接到Voilà 应用程序的用户都会启动一个Jupyter内核,所以通过这个web应用我们可以对Jupyter代码进行修改和回调,他的web是通过tornado来开发的,这个扩展在GitHub上有超过
数据派THU
2022-09-28
4520
最全深度学习训练过程可视化工具(附github源码)
来源:深度学习爱好者本文约700字,建议阅读5分钟本文介绍了多个能将深度学习训练过程进行可视化的工具,帮助大家更好地理解深度学习,非常实用。 深度学习训练过程一直处于黑匣子状态,有很多同学问我具体怎么解释?其实很多还是无法可解释,但是通过可视化,具体可以知道深度学习在训练过程到底学习了哪些特征?到底对该目标的哪些特征感兴趣?这些我们现在已经有很多渠道可以得知,我先给大家介绍几个比较好的工具! 1. 深度学习网络结构画图工具 地址:https://cbovar.github.io/ConvNetDraw/
数据派THU
2022-08-29
1.1K0
深度学习必须掌握的 13 种概率分布
来源:深度学习前沿本文约1400字,建议阅读5分钟这里有一份最常见的基本概率分布教程,大多数和使用 python 库进行深度学习有关。 作为机器学习从业者,你需要知道概率分布相关的知识。这里有一份最常见的基本概率分布教程,大多数和使用 python 库进行深度学习有关。 一 概率分布概述 共轭意味着它有共轭分布的关系。 在贝叶斯概率论中,如果后验分布 p(θx)与先验概率分布 p(θ)在同一概率分布族中,则先验和后验称为共轭分布,先验称为似然函数的共轭先验。共轭先验维基百科在这里(https://en
数据派THU
2022-07-19
3250
基于各种机器学习和深度学习的中文微博情感分析
来源:机器学习AI算法工程本文约600字,建议阅读5分钟本文中,我们介绍了中文微博情感分析的情况。 中文微博情感分类语料库 "情感分析"是我本科的毕业设计,也是我入门并爱上NLP的项目hhh,当时网上相关语料库的质量都太低了,索性就自己写了个爬虫,一边标注一边爬,现在就把它发出来供大家交流。因为是自己的项目,所以标注是相当认真的,还请了朋友帮忙校验,过滤掉了广告/太短/太长/表意不明等语料,语料质量是绝对可以保证的。 带情感标注的微博语料数量: 10000(train.txt)+500(test.txt)
数据派THU
2022-07-07
4560
基于自动编码器的赛车视角转换与分割
来源:Deephub Imba本文约1800字,建议阅读5分钟本篇文章将介绍如何将赛道的图像转换为语义分割后鸟瞰图的轨迹。 本篇文章将介绍如何将赛道的图像转换为语义分割后鸟瞰图的轨迹。 如下所示,输入图像为: 输出: 总结来说我们的任务是获取输入图像,即前方轨道的前置摄像头视图,并构建一个鸟瞰轨道视图,而鸟瞰轨道视图会分割不同的颜色表示赛道和路面的边界。 仅仅从输入图像中提取出关于走向的信息是相当困难的,因为未来的许多轨道信息被压缩到图像的前20个像素行中。鸟瞰摄像头能够以更清晰的格式表达关于前方赛道的
数据派THU
2022-06-20
2850
HIST:微软最新发布的基于图的可以挖掘面向概念分类的共享信息的股票趋势预测框架
来源:DeepHub IMBA本文共700字,建议阅读5分钟微软研究院提出了一种新颖的股票趋势预测框架,可以充分挖掘该概念面向来自预定义概念和隐藏概念的共享信息。 股票走势预测是对股票价格未来走势的预测,在投资中起着至关重要的作用。因为同行业的股票价格是高度相关的,所以市场中的股票之间的信息是可以共享的。最近也提出了几种方法来通过从 Web 中提取的股票概念类别(例如,技术、互联网零售)来挖掘共享信息,以改进预测结果。 在以前的工作假设中股票和信息之间的联系是固定的,从而忽略了股票和信息之间的动态相关性,从
数据派THU
2022-05-30
2340
3D 可视化卷积、池化!终于能看懂神经网络到底在干啥了...
来源:量子位(公众号id:qbitai)本文约1100字,建议阅读6分钟神经网络在工作的时候,里面到底是什么样? 为了能透视这个“AI黑箱”中的过程,加拿大蒙特利尔一家公司开发一个3D可视化工具Zetane Engine。 只需要上传一个模型,Zetane Engine就可以巡视整个神经网络,并且还可以放大网络中的任何一层,显示特征图,看清流水线上的每一步: △图注:卷积层的特征图(左)和特征图的3D可视化(右) 目前Zetane Engine不同系统的版本都可以在GitHub中找到(安装包见文末链接)
数据派THU
2022-05-20
6510
让模型训练速度提升2到4倍,「彩票假设」作者的这个全新PyTorch库火了
来源:机器之心本文约3000字,建议阅读10分钟本文介绍了MosaicML 推出了一个用于高效神经网络训练的 PyTorch 库「Composer」。 登陆 GitHub 以来,这个项目已经收获了 800 多个 Star。 随着越来越多的企业转向人工智能来完成各种各样的任务,企业很快发现,训练人工智能模型是昂贵的、困难的和耗时的。 一家公司 MosaicML 的目标正是找到一种新的方法来应对这些层出不穷的挑战。近日, MosaicML 推出了一个用于高效神经网络训练的 PyTorch 库「Composer」
数据派THU
2022-04-22
6420
CMU创建一个开源的AI代码生成模型,C语言表现优于Codex
来源:机器之心本文约2400字,建议阅读5分钟CMU 对现有开源和未开源的 AI 代码生成模型进行了全面深入的系统性评估,并分析了它们在 C、C++、Python 等 12 中不同编程语言中的代码自动完成表现。 最近,语言模型(Language Model, LM)在建模编程语言源代码方面展现出了令人印象深刻的性能。这些模型擅长代码自动生成以及从自然语言描述中生成代码等下游任务。当前 SOTA 大规模语言代码模型(如 Austin et al. (2021))在基于 AI 的编程辅助领域已经取得了重大进展。
数据派THU
2022-03-24
6150
2021年必读的10 个计算机视觉论文总结
来源:DeepHub IMBA本文共2000字,建议阅读10分钟本文将带有清晰的视频解释和代码,文末尾列出了对每篇论文的完整参考。 2021 年排名前 10 的计算机视觉论文,包括视频演示、文章、代码和论文参考。 世界的经济活动在病毒的冲击下陷入了历史罕见的停滞中,但研究并没有放慢其狂热的步伐,尤其是在人工智能领域。今年的论文中除了一般的研究结果外还强调了许多重要方面,例如道德方面、重要偏见、治理、透明度等等。人工智能和我们对人脑及其与人工智能的联系的理解不断发展,显示出在不久的将来改善我们生活质量的有前景
数据派THU
2022-03-04
4910
如何用latext画神经网络?这个PlotNeuralNet能帮到你
📷 来源:专知本文多图,建议阅读5分钟上手略有难度但学会之后很好用。 画图神器  PlotNeuralNet 📷 🌟 功能:神经网络结构模型绘图工具,上手略有难度但学会之后很好用 👀 亮点: 脚本化,可以使用 LaTex 编写或者使用 Python 脚本编写 自由度高、清晰度高(但无交互界面) 👉 地址:项目主页:https://github.com/HarisIqbal88/PlotNeuralNet中文教程:https://github.com/luanshiyinyang/PlotNeuralNet
数据派THU
2022-03-04
5730
AlphaCode到底强在哪儿?清华博士后十分钟视频详细解析
来源:机器之心本文约2300字,建议阅读5分钟AlphaCode 到底是怎么练成的? 春节期间,DeepMind 的编程版 AlphaGo——AlphaCode 一度火到刷屏。它可以编写与普通程序员水平相媲美的计算机程序,在 Codeforces 网站的 10 项挑战中总体排名前 54.3%,击败了 46% 的参赛者。 这一成绩给程序员群体带来了不小的压力,仿佛纺织工被纺织机淘汰的历史正在重演。 那么,AlphaCode 是如何做到如此强大的?在最近的一个 YouTube 视频中,清华大学朱军门下博士后
数据派THU
2022-03-04
2850
独家 | 5个只有少数程序员知道的用例
作者:Shalitha Suranga 翻译:闫晓雨 校对:赵茹萱 本文约2900字,建议阅读6分钟。Python不仅能够应用于数据科学和Web后端——还可以做更多的事。 照片由Chris Ried拍摄,使用Canva编辑并发布在Unsplash Python是一种简单的、对开发人员友好且具有解释性的通用编程语言。Python因其简单的语法、丰富的库生态系统和高效的开发环境而日益流行。程序员使用Python来构建Web后端、实用程序脚本和本机桌面应用程序。如今,Python在科学工程师、数据分析师、机器
数据派THU
2022-03-04
2.8K0
独家 | 图片主题建模?为什么不呢?!
作者:Maarten Grootendorst 翻译:陈超校对:赵茹萱 本文约3200字,建议阅读5分钟本文介绍了使用图片主题进行建模。
数据派THU
2021-12-17
5570
独家 | 识别并解决数据质量问题的数据科学家指南
在这个例子当中我们将会使用变换的人口普查数据,你可以从Github 库(https://github.com/ydataai/ydata-quality/blob/master/datasets/transformed/census_10k.csv)下载。你可以在这个Jupyter Notebook(https://github.com/ydataai/ydata-quality/blob/master/tutorials/main.ipynb)当中找到本教程当中所有的代码。我推荐你复制这个库或者下载这个notebook来跟上这个例子。
数据派THU
2021-10-20
8070
原创 | 从ULMFiT、Transformer、BERT等经典模型看NLP 发展趋势
自然语言处理(Natural Language Process,简称NLP)是计算机科学、信息工程以及人工智能的子领域,专注于人机语言交互,探讨如何处理和运用自然语言。自然语言处理的研究,最早可以说开始于图灵测试,经历了以规则为基础的研究方法,流行于现在基于统计学的模型和方法,从早期的传统机器学习方法,基于高维稀疏特征的训练方式,到现在主流的深度学习方法,使用基于神经网络的低维稠密向量特征训练模型。
数据派THU
2020-11-03
9190
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档