首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2139
文章
1932941
阅读量
188
订阅数
正式上线,GitHub向所有用户开放全新代码搜索引擎
来源:机器之心本文约1000字,建议阅读5分钟18 个月后,GitHub 终于宣布向所有用户开放全新的代码搜索引擎。 在软件开发的过程中,阅读和理解代码是一项基础工作。无论是实现新功能,还是查找 bug,开发人员首先要阅读和理解代码,这个时间甚至多于编写代码。如果能够像搜索引擎一样,快速找到开发需要的上下文代码,那么软件开发的效率将会大幅提升。 作为全球最大的源代码托管服务平台,2021 年 GitHub 发布代码搜索引擎 Code Search 预览版,之后 GitHub 又对 Code Search 进
数据派THU
2023-05-11
2820
15年封神,GitHub开发者破亿!这个滋养了全世界码农的网站,已成传奇
来源:新智元本文约1300字,建议阅读8分钟2008年,三位开发者共同创立了GitHub。历经15年,GitHub的开发者数量已经超过一亿。 2008年,三位开发者共同创立了GitHub。历经15年,GitHub的开发者数量已经超过一亿。 封神15年,GitHub用户现如今破了1亿! 2019年,GitHub曾设定了一个目标:到2025年使用GitHub的开发人员达到1亿。 现如今,这个目标提前2年实现了。 15年封神之路 2008年,当无数人在为代码协作感到头疼时,GitHub横空出世。 自
数据派THU
2023-03-29
2920
独家 | 6个Python数据科学库正在狂飙,你一定要学来提升文化素养
作者:Bex T翻译:wwl 校对:张睿毅本文约3200字,建议阅读8分钟计算类数据科学库,已经不再局限在Pandas、NumPy、Scikit-learn之内了! 动机 2023年的开始,自然需要探索数据科学和机器学习的新趋势。经典的数据科学库Pandas、NumPy、Matplotlib、Scikit-learn虽然很重要,但是已经不够用了。 这个系列的上一篇文章(https://towardsdatascience.com/8-booming-data-science-libraries-you-mu
数据派THU
2023-02-27
8170
​原创 | AI顶会论文很多附带源代码?不少是假开源!
作者:林嘉亮审校:陈之炎 本文约3500字,建议阅读10分钟相当多的作者没有向用户提供足够详细的文档,导致了一些重要信息的缺失。
数据派THU
2022-12-16
8450
论文清单:一文梳理因果推理在自然语言处理中的应用(附链接)
来源:PaperWeekly 本文约5000字,建议阅读8分钟 这篇文章是由笔者根据自然语言顶级会议收录有关于因果推断的文献整理而成,内容包括论文的基本信息以及阅读笔记。 他山之石 1. Papers about Causal Inference and Language https://github.com/causaltext/causal-text-papers 2. Causality for NLP Reading List https://github.com/zhijing-jin/Causa
数据派THU
2022-10-10
8420
使用 Temporal Fusion Transformer 进行时间序列预测
来源:DeepHub IMBA 本文约3700字,建议阅读7分钟 本文我们解释了TFT的理论知识并且使用它进行了一个完整的训练和预测流程。 目前来看表格类的数据的处理还是树型的结构占据了主导地位。但是在时间序列预测中,深度学习神经网络是有可能超越传统技术的。 为什么需要更加现代的时间序列模型? 专为单个时间序列(无论是多变量还是单变量)创建模型的情况现在已经很少见了。现在的时间序列研究方向都是多元的,并且具有各种分布,其中包含更多探索性因素包括:缺失数据、趋势、季节性、波动性、漂移和罕见事件等等。 通过直接
数据派THU
2022-10-09
1.7K0
【干货书】机器学习练习册,Exercises in Machine Learning
来源:专知本文为书籍介绍,建议阅读5分钟这本书包含了一系列的机器学习练习和详细的解决方案。 这本书包含了一系列的机器学习练习和详细的解决方案。希望本书的细节足以让读者理解解决方案并理解所使用的技术。然而,这些练习并不是机器学习教科书或课程的替代品。我假设读者已经了解了相关的理论和概念,现在想通过解题来加深他们的理解。虽然编码和计算机模拟在机器学习中非常重要,但书中的练习(大部分)可以用笔和纸来解决。对纸笔练习的关注减少了篇幅,简化了演示。此外,它还可以增强读者的数学技能。然而,理想的练习是与计算机练习相结
数据派THU
2022-10-09
2490
独家 | 使用ONNX搭建NLP Transformers pipelines
作者:Thomas Chaigneau 翻译:欧阳锦校对:和中华 本文约3000字,建议阅读7分钟本文介绍了如何使用ONNX构建真实世界的NLP应用。 如何用ONNX构建真实世界的NLP应用,而不仅仅是为了张量做基准测试。 图片源自网络 ONNX是一种用于神经网络的机器学习格式。它是可移植的,开源的,并且在不牺牲准确性的情况下提高推理速度,真的很厉害。 我发现了很多关于ONNX基准的文章,但没有一篇文章介绍将其用于真实世界NLP任务的简便方法。我还在Hugging Face的discord server
数据派THU
2022-10-09
8180
7个有用的Jupyter扩展
来源:Deephub Imba 本文约700字,建议阅读9分钟 本文为你介绍7个不常见但是好用且高效的Jupyter扩展。 今天将介绍7个不常见但是却很好用且能够提高效率的Jupyter扩展。 1、voila 这个扩展将将Jupyter笔记本变成独立的网络应用程序。与通常的html转换的笔记本不同,每个连接到Voilà 应用程序的用户都会启动一个Jupyter内核,所以通过这个web应用我们可以对Jupyter代码进行修改和回调,他的web是通过tornado来开发的,这个扩展在GitHub上有超过
数据派THU
2022-09-28
4520
没有3D卷积的3D重建方法,A100上重建一帧仅需70ms
来源:机器之心 本文约1500字,建议阅读5分钟 本文来自 Niantic 和 UCL 等机构的研究者使用精心设计和训练的 2D 网络,实现了高质量的深度估计和 3D 重建。 从姿态图像重建 3D 室内场景通常分为两个阶段:图像深度估计,然后是深度合并(depth merging)和表面重建(surface reconstruction)。最近,多项研究提出了一系列直接在最终 3D 体积特征空间中执行重建的方法。虽然这些方法已经获得出令人印象深刻的重建结果,但它们依赖于昂贵的 3D 卷积层,限制其在资源受限
数据派THU
2022-09-27
3950
使用内存映射加快PyTorch数据集的读取
来源:DeepHub IMBA本文约1800字,建议阅读9分钟本文将介绍如何使用内存映射文件加快PyTorch数据集的加载速度。 在使用Pytorch训练神经网络时,最常见的与速度相关的瓶颈是数据加载的模块。如果我们将数据通过网络传输,除了预取和缓存之外,没有任何其他的简单优化方式。 但是如果数据本地存储,我们可以通过将整个数据集组合成一个文件,然后映射到内存中来优化读取操作,这样我们每次文件读取数据时就不需要访问磁盘,而是从内存中直接读取可以加快运行速度。 什么是内存映射文件 内存映射文件(memory-
数据派THU
2022-08-29
8160
最全深度学习训练过程可视化工具(附github源码)
来源:深度学习爱好者本文约700字,建议阅读5分钟本文介绍了多个能将深度学习训练过程进行可视化的工具,帮助大家更好地理解深度学习,非常实用。 深度学习训练过程一直处于黑匣子状态,有很多同学问我具体怎么解释?其实很多还是无法可解释,但是通过可视化,具体可以知道深度学习在训练过程到底学习了哪些特征?到底对该目标的哪些特征感兴趣?这些我们现在已经有很多渠道可以得知,我先给大家介绍几个比较好的工具! 1. 深度学习网络结构画图工具 地址:https://cbovar.github.io/ConvNetDraw/
数据派THU
2022-08-29
1.1K0
图解 | 深度学习:小白看得懂的BERT原理
来源:计算机视觉与机器学习作者丨Jay Alammar 链接丨https://jalammar.github.io/illustrated-bert/本文约4600字,建议阅读8分钟本文中,我们将研究BERT模型,理解它的工作原理,对于其他领域的同学也具有很大的参考价值。 自google在2018年10月底公布BERT在11项nlp任务中的卓越表现后,BERT 就在 NLP 领域大火,在本文中,我们将研究BERT模型,理解它的工作原理,对于其他领域的同学也具有很大的参考价值。 前言 2018年可谓是自然语
数据派THU
2022-07-27
9340
深度学习必须掌握的 13 种概率分布
来源:深度学习前沿本文约1400字,建议阅读5分钟这里有一份最常见的基本概率分布教程,大多数和使用 python 库进行深度学习有关。 作为机器学习从业者,你需要知道概率分布相关的知识。这里有一份最常见的基本概率分布教程,大多数和使用 python 库进行深度学习有关。 一 概率分布概述 共轭意味着它有共轭分布的关系。 在贝叶斯概率论中,如果后验分布 p(θx)与先验概率分布 p(θ)在同一概率分布族中,则先验和后验称为共轭分布,先验称为似然函数的共轭先验。共轭先验维基百科在这里(https://en
数据派THU
2022-07-19
3250
基于各种机器学习和深度学习的中文微博情感分析
来源:机器学习AI算法工程本文约600字,建议阅读5分钟本文中,我们介绍了中文微博情感分析的情况。 中文微博情感分类语料库 "情感分析"是我本科的毕业设计,也是我入门并爱上NLP的项目hhh,当时网上相关语料库的质量都太低了,索性就自己写了个爬虫,一边标注一边爬,现在就把它发出来供大家交流。因为是自己的项目,所以标注是相当认真的,还请了朋友帮忙校验,过滤掉了广告/太短/太长/表意不明等语料,语料质量是绝对可以保证的。 带情感标注的微博语料数量: 10000(train.txt)+500(test.txt)
数据派THU
2022-07-07
4520
基于自动编码器的赛车视角转换与分割
来源:Deephub Imba本文约1800字,建议阅读5分钟本篇文章将介绍如何将赛道的图像转换为语义分割后鸟瞰图的轨迹。 本篇文章将介绍如何将赛道的图像转换为语义分割后鸟瞰图的轨迹。 如下所示,输入图像为: 输出: 总结来说我们的任务是获取输入图像,即前方轨道的前置摄像头视图,并构建一个鸟瞰轨道视图,而鸟瞰轨道视图会分割不同的颜色表示赛道和路面的边界。 仅仅从输入图像中提取出关于走向的信息是相当困难的,因为未来的许多轨道信息被压缩到图像的前20个像素行中。鸟瞰摄像头能够以更清晰的格式表达关于前方赛道的
数据派THU
2022-06-20
2850
HIST:微软最新发布的基于图的可以挖掘面向概念分类的共享信息的股票趋势预测框架
来源:DeepHub IMBA本文共700字,建议阅读5分钟微软研究院提出了一种新颖的股票趋势预测框架,可以充分挖掘该概念面向来自预定义概念和隐藏概念的共享信息。 股票走势预测是对股票价格未来走势的预测,在投资中起着至关重要的作用。因为同行业的股票价格是高度相关的,所以市场中的股票之间的信息是可以共享的。最近也提出了几种方法来通过从 Web 中提取的股票概念类别(例如,技术、互联网零售)来挖掘共享信息,以改进预测结果。 在以前的工作假设中股票和信息之间的联系是固定的,从而忽略了股票和信息之间的动态相关性,从
数据派THU
2022-05-30
2330
【深度学习】小白看得懂的BERT原理
来源:机器学习初学者本文约4500字,建议阅读8分钟我们将研究BERT模型,理解它的工作原理,这个是NLP(自然语言处理)的非常重要的部分。 导语 自google在2018年10月底公布BERT在11项nlp任务中的卓越表现后,BERT(Bidirectional Encoder Representation from Transformers)就成为NLP领域大火,在本文中,我们将研究BERT模型,理解它的工作原理,这个是NLP(自然语言处理)的非常重要的部分。 正文开始 前言 2018年可谓是自然
数据派THU
2022-05-25
7490
3D 可视化卷积、池化!终于能看懂神经网络到底在干啥了...
来源:量子位(公众号id:qbitai)本文约1100字,建议阅读6分钟神经网络在工作的时候,里面到底是什么样? 为了能透视这个“AI黑箱”中的过程,加拿大蒙特利尔一家公司开发一个3D可视化工具Zetane Engine。 只需要上传一个模型,Zetane Engine就可以巡视整个神经网络,并且还可以放大网络中的任何一层,显示特征图,看清流水线上的每一步: △图注:卷积层的特征图(左)和特征图的3D可视化(右) 目前Zetane Engine不同系统的版本都可以在GitHub中找到(安装包见文末链接)
数据派THU
2022-05-20
6490
让模型训练速度提升2到4倍,「彩票假设」作者的这个全新PyTorch库火了
来源:机器之心本文约3000字,建议阅读10分钟本文介绍了MosaicML 推出了一个用于高效神经网络训练的 PyTorch 库「Composer」。 登陆 GitHub 以来,这个项目已经收获了 800 多个 Star。 随着越来越多的企业转向人工智能来完成各种各样的任务,企业很快发现,训练人工智能模型是昂贵的、困难的和耗时的。 一家公司 MosaicML 的目标正是找到一种新的方法来应对这些层出不穷的挑战。近日, MosaicML 推出了一个用于高效神经网络训练的 PyTorch 库「Composer」
数据派THU
2022-04-22
6410
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档