Zeppelin中没有名为'pyspark‘的模块_ModuleNotFoundError:没有名为“pyspark”的模块_错误为：-ModuleNotFoundError:在docker中运行Pyspark时没有名为‘Pyspark’的模块 - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

【推荐系统算法实战】基于网页的 Notebook：Zeppelin 交互式数据分析

基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化（五）

「大数据系列」:Apache zeppelin 多目标笔记本

Apache Zeppelin解释器概念允许将任何语言/数据处理后端插入Zeppelin。目前Apache Zeppelin支持许多解释器，如Apache Spark，Python，JDBC，Markdown和Shell。

什么是Apache Zeppelin?

多用途笔记本笔记本是满足您所有需求的地方

0818-7.1.1-如何卸载CDP

以上三种方法也可以只使用于关键数据，具体使用哪种方法，可以根据自己集群的规模和数据量大小具体选择。

CDH 6.3.1整合Zeppelin 0.8.2

Zeppelin是一个基于Web的笔记本，可以直接在浏览器中编写代码，对数据进行查询分析并生成报表或图表，做出数据驱动的、交互、协作的文档，并且可以共享笔记。Zeppelin提供了内置的Apache Spark集成，提供的功能有：

Spark调研笔记第4篇 – PySpark Internals

事实上。有两个名为PySpark的概念。一个是指Sparkclient内置的pyspark脚本。而还有一个是指Spark Python API中的名为pyspark的package。

大数据入门与实战-PySpark的使用教程

Apache Spark是用Scala编程语言编写的。为了用Spark支持Python，Apache Spark社区发布了一个工具PySpark。使用PySpark，您也可以使用Python编程语言处理RDD。正是由于一个名为Py4j的库，他们才能实现这一目标。这里不介绍PySpark的环境设置，主要介绍一些实例，以便快速上手。

Zeppelin源码编译指南

zeppelin在进行zeppelin-web模块编译时，会使用到bower模块，默认下载方式会出现下载超时的问题，下面提供两种方法进行修改。

盘点13种流行的数据处理工具

作者：所罗伯·斯里瓦斯塔瓦（Saurabh Shrivastava）、内拉贾利·斯里瓦斯塔夫（Neelanjali Srivastav）

AI应用：SAP和MapR如何将AI添加到他们的平台

SAP正在将AI嵌入到应用程序中；MapR同样将AI嵌入到其数据平台上。在这两种情况下，AI变得更加普遍，同时也更方便。有时候，当我们写关于分析、机器学习和AI的时候，提出具体的用例是很有挑战性的。

MLFlow︱机器学习工作流框架：介绍（一）

之前的很多研究其实跟工程化是比较脱节的，模型在小环境中工作得很好，并不意味着它在任何地方都可以工作得很好。各类开源项目其实很大程度上满足了我这样的调包工程师的需求，那么工程化就非常有必要了。之前《DataOps、MLOps 和 AIOps，你要的是哪个Ops？》文章提到：DataOps、MLOps 和 AIOps的一些异同：

【Python】PySpark 数据处理 ② ( 安装 PySpark | PySpark 数据处理步骤 | 构建 PySpark 执行环境入口对象 )

命令 , 安装 PySpark , 安装过程中 , 需要下载 310 M 的安装包 , 耐心等待 ;

Apache Zeppelin配置

【Python】PySpark 数据处理 ① ( PySpark 简介 | Apache Spark 简介 | Spark 的 Python 语言版本 PySpark | Python 语言场景 )

Spark 是 Apache 软件基金会顶级项目 , 是开源的分布式大数据处理框架 , 专门用于大规模数据处理 , 是一款适用于大规模数据处理的统一分析引擎 ;

使用CDSW和运营数据库构建ML应用1:设置和基础

Python在数据工程师和数据科学家中被广泛使用，以解决从ETL / ELT管道到构建机器学习模型的各种问题。Apache HBase是用于许多工作流程的有效数据存储系统，但是专门通过Python访问此数据可能会很困难。对于想要利用存储在HBase中的数据的数据专业人士而言，最新的上游项目“ hbase-connectors”可以与PySpark一起使用以进行基本操作。

{Submarine} 在 Apache Hadoop 中运行深度学习框架

作者：Wangda Tan、Sunil Govindan、Zhankun Tang

第2天：核心概念之SparkContext

SparkContext是所有Spark功能的入口。无论我们希望运行什么样的Spark应用，都需要初始化SparkContext来驱动程序执行，从而将任务分配至Spark的工作节点中执行。

PySpark SQL——SQL和pd.DataFrame的结合体

昨日推文PySpark环境搭建和简介，今天开始介绍PySpark中的第一个重要组件SQL/DataFrame，实际上从名字便可看出这是关系型数据库SQL和pandas.DataFrame的结合体，功能也几乎恰是这样，所以如果具有良好的SQL基本功和熟练的pandas运用技巧，学习PySpark SQL会感到非常熟悉和舒适。

Windows 安装配置 PySpark 开发环境（详细步骤+原理分析）

这个比较简单，安装原生的 Python 或者 Anaconda 都可以，至于步骤这里就不多说了。

如何在Ubuntu 14.04上安装和使用ArangoDB

ArangoDB是一个NoSQL数据库。它创建于2011年，当时已有许多NoSQL数据库，其目标是成为一个涵盖各种用例的综合数据库解决方案。

独家 | PySpark和SparkSQL基础：如何利用Python编程执行Spark（附代码）

本文通过介绍Apache Spark在Python中的应用来讲解如何利用PySpark包执行常用函数来进行数据处理工作。

英雄惜英雄-当Spark遇上Zeppelin之实战案例

我们在之前的文章《大数据可视化从未如此简单 - Apache Zepplien全面介绍》中提到过一文中介绍了 Zeppelin 的主要功能和特点，并且最后还用一个案例介绍了这个框架的使用。这节课我们用两个直观的小案例来介绍 Zepplin 和 Spark 如何配合使用。

手把手教你入门Hadoop（附代码资源）

作者：GETINDATA公司创始人兼大数据顾问彼得亚·雷克鲁斯基（Piotr Krewski）和GETINDATA公司首席执行官兼创始人亚当·卡瓦（Adam Kawa）

Python大数据之PySpark(二)PySpark安装

spark-submit 提交圆周率的计算代码 */examples/src/main/python/pi.py*

手把手教你入门Hadoop（附代码&资源）

作者：GETINDATA公司创始人兼大数据顾问彼得亚·雷克鲁斯基（Piotr Krewski）和GETINDATA公司首席执行官兼创始人亚当·卡瓦（Adam Kawa）

PySpark ML——分布式机器学习库

继续PySpark学习之路，本篇开启机器学习子模块的介绍，不会更多关注机器学习算法原理，仅对ML库的基本框架和理念加以介绍。最后用一个小例子实战对比下sklearn与pyspark.ml库中随机森林分类器效果。

让 Kotlin 为数据科学做好准备

今年在 2019 年 KotlinConf 上，Roman Belov 概述了 Kotlin 的数据科学方法。既然该演讲现在已公开，我们决定重述一下，并分享一些有关 Kotlin 数据科学工具和库的当前状态。

PySpark入门级学习教程，框架思维（上）

为什么要学习Spark？作为数据从业者多年，个人觉得Spark已经越来越走进我们的日常工作了，无论是使用哪种编程语言，Python、Scala还是Java，都会或多或少接触到Spark，它可以让我们能够用到集群的力量，可以对BigData进行高效操作，实现很多之前由于计算资源而无法轻易实现的东西。网上有很多关于Spark的好处，这里就不做过多的赘述，我们直接进入这篇文章的正文！

Jupyter在美团民宿的应用实践

做算法的同学对于Kaggle应该都不陌生，除了举办算法挑战赛以外，它还提供了一个学习、练习数据分析和算法开发的平台。Kaggle提供了Kaggle Kernels，方便用户进行数据分析以及经验分享。在Kaggle Kernels中，你可以Fork别人分享的结果进行复现或者进一步分析，也可以新建一个Kernel进行数据分析和算法开发。Kaggle Kernels还提供了一个配置好的环境，以及比赛的数据集，帮你从配置本地环境中解放出来。Kaggle Kernels提供给你的是一个运行在浏览器中的Jupyter，你可以在上面进行交互式的执行代码、探索数据、训练模型等等。更多关于Kaggle Kernels的使用方法可以参考 Introduction to Kaggle Kernels，这里不再多做阐述。

Zeppelin原理简介

Zeppelin是一个基于Web的notebook，提供交互数据分析和可视化。后台支持接入多种数据处理引擎，如spark，hive等。支持多种语言： Scala(Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。本文主要介绍Zeppelin中Interpreter和SparkInterpreter的实现原理。

pyspark（一）--核心概念和工作原理

本文我们主要介绍pyspark的核心概念和原理，后续有时间会持续介绍pyspark的使用。

金色传说，开源教程！属于算法的大数据工具-pyspark

spark是目前大数据领域的核心技术栈，许多从事数据相关工作的小伙伴都想驯服它，变成"驯龙高手"，以便能够驾驭成百上千台机器组成的集群之龙来驰骋于大数据之海。

Apache Zeppelin安装

欢迎来到Apache Zeppelin！本页面是有助于开始使用的说明。安装 Apache Zeppelin正式支持并在以下环境下进行测试： Name Value Oracle JDK 1.7

python中的pyspark入门

PySpark是Python和Apache Spark的结合，是一种用于大数据处理的强大工具。它提供了使用Python编写大规模数据处理和分析代码的便利性和高效性。本篇博客将向您介绍PySpark的基本概念以及如何入门使用它。

教程-Spark安装与环境配置

Spark是一种通用的大数据计算框架,是基于RDD（弹性分布式数据集）的一种计算模型。那到底是什么，可能还不是太理解，通俗讲就是可以分布式处理大量极数据的，将大量集数据先拆分，分别进行计算，然后再将计算后的结果进行合并。

Zeppelin 安装与初体验

如果满足以上条件可以点击进入下载页面下载二进制包进行安装。目前稳定版本为 0.8.2 版本。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐