首页
学习
活动
专区
工具
TVP
发布

Python数据科学

专栏作者
619
文章
869241
阅读量
105
订阅数
一起揭开 PySpark 编程的神秘面纱
在开始讲解PySpark程序启动原理之前,我们先来了解一下Spark的一些概念和特性。
Python数据科学
2021-09-29
1.6K0
用 Style 方法提高 Pandas 数据的颜值
Pandas的style用法在大多数教程中见的比较少,它主要是用来美化DataFrame和Series的输出,能够更加直观地显示数据结果。
Python数据科学
2020-05-25
2K0
还有比 Jupyter 更好用的工具?看看 Netflix 发布的这款
近日,Netflix宣布开源Polynote,Polynote是Netflix自家使用的多语言笔记本环境,Polynote为数据科学家和机器学习研究人员提供了一个笔记本环境,允许他们将基于JVM的ML平台(此类平台大多使用Scala构建)与Python生态系统中流行的机器学习和可视化库无缝集成。
Python数据科学
2019-11-12
1.8K0
【PySpark入门】手把手实现PySpark机器学习项目-回归算法
PySpark作为工业界常用于处理大数据以及分布式计算的工具,特别是在算法建模时起到了非常大的作用。PySpark如何建模呢?这篇文章手把手带你入门PySpark,提前感受工业界的建模过程!
Python数据科学
2019-10-24
6.3K0
开源 sk-dist,超参数调优仅需 3.4 秒,sk-learn 训练速度提升 100 倍!
这篇文章为大家介绍了一个开源项目——sk-dist。在一台没有并行化的单机上进行超参数调优,需要 7.2 分钟,而在一百多个核心的 Spark 群集上用它进行超参数调优,只需要 3.4 秒,把训练 sk-learn 的速度提升了 100 倍。
Python数据科学
2019-09-16
7370
XGBoost缺失值引发的问题及其深度分析
XGBoost模型作为机器学习中的一大“杀器”,被广泛应用于数据科学竞赛和工业领域,XGBoost官方也提供了可运行于各种平台和环境的对应代码,如适用于Spark分布式训练的XGBoost on Spark。然而,在XGBoost on Spark的官方实现中,却存在一个因XGBoost缺失值和Spark稀疏表示机制而带来的不稳定问题。
Python数据科学
2019-08-30
8510
年前干货 | 数据工程师必备的学习资源(附链接)
导读:本文首先详细介绍了数据工程的职责、与数据科学家之间的差别以及其不同的工作角色,然后重点列出了很多与核心技能相关的的优秀学习资源,最后介绍行业内认可度较高的3种数据工程认证。
Python数据科学
2019-07-19
1K0
Spark入门必读:核心概念介绍及常用RDD操作
导读:Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎,具有高吞吐、低延时、通用易扩展、高容错等特点。Spark内部提供了丰富的开发库,集成了数据分析引擎Spark SQL、图计算框架GraphX、机器学习库MLlib、流计算引擎Spark Streaming。
Python数据科学
2019-05-13
9810
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档