首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2140
文章
1953785
阅读量
188
订阅数
几行 Python 代码就可以提取数百个时间序列特征
来源:DeepHub IMBA本文约900字,建议阅读5分钟在本文中,我们将深入讨论tsfresh包的使用。 时间序列数据是随着时间的推移反复捕获的变量值,随着时间的推移可以产生一系列的按时间顺序索引的数据点。在时间序列中,数据具有自然的时间顺序,即一个变量在特定时间的值依赖于过去的值。 传统的机器学习算法不能捕捉时间序列数据的时间顺序。数据科学家需要执行相关的特征工程,将数据的重要特征捕获到几个指标中。生成大量的时间序列特征并从中提取相关特征是一项耗时且繁琐的工作。 python的tsfresh包可以为
数据派THU
2022-08-29
7170
独家 | 使用Spark进行大规模图形挖掘(附链接)
本文为大家介绍了多种图挖掘工具,并运用Spark为大家展示了一个标签传播算法LPA构建图的实例。
数据派THU
2020-11-19
1.9K0
独家 | 一文读懂PySpark数据框(附实例)
本文中我们将探讨数据框的概念,以及它们如何与PySpark一起帮助数据分析员来解读大数据集。
数据派THU
2018-09-17
6K0
独家 | 一文读懂LinkedIn个性化推荐模型及建模原理
原文标题:HowLinkedIn Makes Personalized Recommendations via Photon-ML Machine Learning tool 作者:Yiming Ma, Deepak Agarwal 翻译:张媛 校对:丁楠雅 本文长度为2500字,建议阅读8分钟 本文将重点关注个性化推荐模型,并解释建模原理以及如何通过Photon-ML来实现,使其能够惠及数亿用户。 简介 推荐系统是一种自动化的计算机应用程序,它可以根据不同的内容对用户进行匹配。这种系统的应用很普遍,并
数据派THU
2018-01-30
1.1K0
横向对比三大分布式机器学习平台:Spark、PMLS、TensorFlow
来源:机器之心 作者:Murat Demirbas 本文长度为3149字,建议阅读5分钟 本文为你介绍分布式机器学习平台所用的设计方法及未来研究方向。 [ 导读 ]分布式机器学习是机器学习领域的一大主要研究方向。近日纽约州立大学布法罗分校计算机科学与工程教授、Petuum Inc. 顾问 Murat Demirbas 和他的两位学生一起发表了一篇对比现有分布式机器学习平台的论文,对 Spark、PMLS 和 TensorFlow 等平台的架构和性能进行了比较和介绍。Murat Demirbas 教授在论
数据派THU
2018-01-29
1.9K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档