首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏成员
2149
文章
2148860
阅读量
191
订阅数
独家 | 四个提升数据管道的最佳软件工程策略
二者非常相似,许多起源于软件工程的最佳实践对数据工程同样有效,前提是需要正确地构建它们。
数据派THU
2022-12-16
2010
独家 | 浅谈Python/Pandas中管道的用法
我是R语言的忠实粉丝,并且靠它吃饭。特别提一下Tidyverse,它是一个功能强大、简洁易懂且文档齐全的数据科学平台。我在此向每一位初学者强烈推荐免费的在线电子书R for Data Science。
数据派THU
2021-04-07
2.9K0
独家 | 机器学习中的四种分类任务(附代码)
分类是一项需要使用机器学习算法去学习如何根据问题域为示例分配类标签的任务。一个简单易懂的例子是将电子邮件分为“垃圾邮件”或“非垃圾邮件”。
数据派THU
2020-06-01
1.3K0
独家 | PySpark和SparkSQL基础:如何利用Python编程执行Spark(附代码)
本文通过介绍Apache Spark在Python中的应用来讲解如何利用PySpark包执行常用函数来进行数据处理工作。
数据派THU
2020-02-27
13.5K0
数据蒋堂 | 遍历复用
本文共2500字,建议阅读7分钟。 减少外存(硬盘)访问量一直是提高大数据计算性能的永恒话题。
数据派THU
2019-08-30
4650
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档