腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Python数据科学

专栏作者

619

文章

869241

阅读量

105

订阅数

一起揭开 PySpark 编程的神秘面纱

spark python sql 分布式

在开始讲解PySpark程序启动原理之前，我们先来了解一下Spark的一些概念和特性。

Python数据科学

2021-09-29

1.6K0

用 Style 方法提高 Pandas 数据的颜值

Pandas的style用法在大多数教程中见的比较少，它主要是用来美化DataFrame和Series的输出，能够更加直观地显示数据结果。

Python数据科学

2020-05-25

2K0

还有比 Jupyter 更好用的工具？看看 Netflix 发布的这款

https python scala github spark

近日，Netflix宣布开源Polynote，Polynote是Netflix自家使用的多语言笔记本环境，Polynote为数据科学家和机器学习研究人员提供了一个笔记本环境，允许他们将基于JVM的ML平台（此类平台大多使用Scala构建）与Python生态系统中流行的机器学习和可视化库无缝集成。

Python数据科学

2019-11-12

1.8K0

【PySpark入门】手把手实现PySpark机器学习项目-回归算法

python spark 机器学习神经网络深度学习

PySpark作为工业界常用于处理大数据以及分布式计算的工具，特别是在算法建模时起到了非常大的作用。PySpark如何建模呢？这篇文章手把手带你入门PySpark，提前感受工业界的建模过程！

Python数据科学

2019-10-24

6.3K0

开源 sk-dist，超参数调优仅需 3.4 秒，sk-learn 训练速度提升 100 倍！

spark scikit-learn 分布式机器学习决策树

这篇文章为大家介绍了一个开源项目——sk-dist。在一台没有并行化的单机上进行超参数调优，需要 7.2 分钟，而在一百多个核心的 Spark 群集上用它进行超参数调优，只需要 3.4 秒，把训练 sk-learn 的速度提升了 100 倍。

Python数据科学

2019-09-16

7370

XGBoost缺失值引发的问题及其深度分析

机器学习 spark 编程算法存储 java

XGBoost模型作为机器学习中的一大“杀器”，被广泛应用于数据科学竞赛和工业领域，XGBoost官方也提供了可运行于各种平台和环境的对应代码，如适用于Spark分布式训练的XGBoost on Spark。然而，在XGBoost on Spark的官方实现中，却存在一个因XGBoost缺失值和Spark稀疏表示机制而带来的不稳定问题。

Python数据科学

2019-08-30

8510

年前干货 | 数据工程师必备的学习资源（附链接）

https 网络安全 spark hadoop 云数据库 SQL Server

导读：本文首先详细介绍了数据工程的职责、与数据科学家之间的差别以及其不同的工作角色，然后重点列出了很多与核心技能相关的的优秀学习资源，最后介绍行业内认可度较高的3种数据工程认证。

Python数据科学

2019-07-19

1K0

Spark入门必读：核心概念介绍及常用RDD操作

缓存 c 语言 spark hashmap mapreduce

导读：Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎，具有高吞吐、低延时、通用易扩展、高容错等特点。Spark内部提供了丰富的开发库，集成了数据分析引擎Spark SQL、图计算框架GraphX、机器学习库MLlib、流计算引擎Spark Streaming。

Python数据科学

2019-05-13

9810

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态