腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
pyspark
创建
sparksession
后
需要
停止
spark
吗
?
python
、
pyspark
所以我有这样的想法: from
pyspark
.sql import
SparkSession
spark
=
SparkSession
.builder.appName("NewSpark").getOrCreate() 我听说你
需要
在完成
后
停止
spark
,但对于我来说,这是必要的
吗
,因为它只是一个python程序?
浏览 229
提问于2021-10-29
得票数 0
回答已采纳
1
回答
无法在木星笔记本上
使用
GraphFrames和
PySpark
进行分析
python
、
apache-spark
、
pyspark
、
jupyter-notebook
、
graphframes
我正在
使用
木星笔记本,我已经成功地安装了火花。为了安装GraphFrames,我直接从笔记本上做了!pip install graphframes,它成功地运行了。问题是,我可以在笔记本中导入graphframes并
创建
一个没有任何错误的GraphFrame对象,但是在运行inDegrees或任何其他计算时,我会得到一个错误。,我想指定
PySpark
在不
使用
图形框架时工作得很好。 我不知道这是否有助于识别问题,但是当我在cmd中输入python时,它
使用
了我不久前安装的3.9.2版本。这有可能发生冲突<e
浏览 12
提问于2022-02-23
得票数 0
2
回答
PySpark
+ jupyter notebook
apache-spark
、
pyspark
我尝试在我的笔记本中配置一个
spark
上下文,但出现了一些问题,我这样做了:from
pyspark
import SparkContext, SparkConf sc.stop()
spark
.stop() conf = conf.setAppName")
sp
浏览 2
提问于2018-01-25
得票数 0
1
回答
只应在驱动程序上
创建
和访问SparkContext。
pyspark
、
azure-databricks
我
使用
带有核心的Azure (10.4LTS(包括ApacheSpark3.2.1,Scala2.12))。如果我只
使用
进口熊猫,它运行良好,但
需要
超过3个小时。对我来说,我有数十亿的记录要处理。我要调这个UDF,请帮忙。import
pyspark
.pandas as pd dataframe = pd.DataFrame([300,600,900,1200,1500,1800,2100,2400,2700,3000,3300,3600getne
浏览 6
提问于2022-07-25
得票数 0
1
回答
有没有办法从
pyspark
连接到postgresql (dbeaver )?
sql
、
python-3.x
、
postgresql
、
apache-spark
、
pyspark
你好,我现在安装了
pyspark
,我在DBeaver中有一个本地的postgres数据库:我如何从
pyspark
连接到postgres?我试过了 from
pyspark
.sql import DataFrameReader properties =sqlContext).jdbc( url='jdbc:%s' % url, table='tw_db', p
浏览 69
提问于2021-08-24
得票数 0
回答已采纳
1
回答
AttributeError:'
SparkSession
‘对象没有属性’序列化程序‘
pyspark
、
pyspark-sql
我
使用
的是火花器2.0.1 print(l.b_appid) mrdd = sqlC.read.parquet("hdfs:/
浏览 3
提问于2017-02-21
得票数 1
2
回答
如何
使用
Spark
上下文?
python
、
apache-spark
、
pyspark
、
jupyter-notebook
、
jupyter
我将值赋值为sc =
pyspark
.SparkContext()。它在jupyter笔记本上运行了很长时间,没有响应,因为出现了星号,并且没有显示任何错误。我试过sc = SparkContext()import ossc =
pyspark
.SparkContext() # At this part it don't respond from
pyspark
.sql i
浏览 1
提问于2019-05-29
得票数 0
3
回答
无法在jupyter笔记本中导入sparkdl
apache-spark
、
pyspark
、
deep-learning
、
jupyter-notebook
我正在尝试
使用
jupyter notebook中的
spark
deep learning library()。当我在cli中运行以下命令时我可以在
spark
shell如何在jupyter notebook中
使用
这个库?
浏览 0
提问于2019-03-27
得票数 2
3
回答
如何导入
sparksession
apache-spark
如何
创建
sparksession
?scala> import org.apache.
spark
.SparkConf scala> val conf =
SparkSession
.builder.master("
浏览 128
提问于2019-08-21
得票数 5
2
回答
无法
创建
火花会话
python
、
machine-learning
、
networking
、
pyspark
、
jupyter-notebook
当我
创建
火花会话时,它会抛出一个错误。无法
创建
火花会话 131 " note this option will be removed in
Spark
from
pyspark
impo
浏览 3
提问于2019-05-03
得票数 2
3
回答
如何在交互式
PySpark
会话中更改SparkContext属性
python
、
apache-spark
、
pyspark
如何在
pyspark
交互式shell中更改
spark
.driver.maxResultSize?我
使用
了以下代码conf = (SparkConf() .set("
spark
.driver.maxResultSize
浏览 3
提问于2015-09-03
得票数 14
回答已采纳
2
回答
“PipelinedRDD”对象在
PySpark
中没有属性“toDF”
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
rdd
我正在尝试加载一个支持向量机文件并将其转换为DataFrame,这样我就可以
使用
Spark
的ML模块(Pipeline ML)。我刚刚在Ubuntu14.04(没有配置
spark
-env.sh )上安装了一个全新的
Spark
1.5.0。我的my_script.py是:from
pyspark
import SparkContext sc = SparkContext("local",
浏览 0
提问于2015-09-26
得票数 55
回答已采纳
4
回答
NameError:未定义名称“
spark
”
apache-spark
、
machine-learning
、
pyspark
、
distributed-computing
、
apache-spark-ml
我正在从官方文档网站复制
pyspark
.ml示例:df =
spark
.createDataFrame(data, ["features"])<ipython-input-28-aaffcd123
浏览 4
提问于2016-09-16
得票数 32
回答已采纳
6
回答
spark
2.1.0会话配置设置(
pyspark
)
python
、
apache-spark
、
pyspark
、
spark-dataframe
spark
=
SparkSession
.builder .enableHiveSupport()
spark
.conf.set('
spark
浏览 12
提问于2017-01-27
得票数 48
回答已采纳
2
回答
SparkSession
与SparkContext在
PySpark
中的启动
scala
、
apache-spark
、
pyspark
、
databricks
我想知道Scala中以下代码的
PySpark
等效值。我在
使用
数据库。我
需要
的输出如下:-val new_
spark
=
spark
.newSession() new_
spark
: org.apache.
spark
.sql.
SparkSession
= org.apache.
spark
.sql.
浏览 2
提问于2020-08-11
得票数 0
回答已采纳
1
回答
如何在
spark
集群中
使用
Prefect的资源管理器
apache-spark
、
pyspark
、
prefect
我一直在
使用
Prefect进行工作流管理,但在
使用
Prefect的资源管理器建立和
停止
spark
会话时遇到了麻烦。我浏览了Prefects文档,下面提供了一个
使用
Dusk的示例: from prefect import resource_manager some_task(client) some_other_task(client)
浏览 23
提问于2021-08-20
得票数 2
1
回答
是否有办法在EMR作业完成
后
自动删除检查点文件夹?
apache-spark
、
pyspark
、
amazon-emr
我在我的
pyspark
代码中
创建
和
使用
检查点。由于我
使用
的是非常大的数据帧,因此随着时间的推移,它们的大小往往会膨胀。有没有办法在作业完成
后
删除检查点文件夹?例如,如下伪代码所示:
spark
=
SparkSession
.builder.getOrCreate() sc =
spark
.sparkContext
spark
.s
浏览 2
提问于2021-05-02
得票数 1
2
回答
如何修复运行"sc = SparkContext()“时出现的错误"TypeError:'module‘object is not callable”?
pyspark
、
jupyter-notebook
我按照说明在Amazon AWS上安装了
PySpark
:https://medium.com/@josemarcialportilla/getting-
spark
-python-and-jupyter-notebook-running-on-amazon-ec2-dec599e1c297 这可以很好地工作: Import
pyspark
as SparkContext 这将产生错误: sc = SparkContext() TypeError
浏览 123
提问于2019-05-17
得票数 0
回答已采纳
1
回答
设置环境
google-colaboratory
我正在
使用
Google Colaboratory来了解
Pyspark
。由于某些原因,在运行设置环境时,我收到一条错误消息。从一个笔记本移到另一个笔记本时,似乎会发生这种情况。, 133 # add
pyspark
to sys.path i
浏览 9
提问于2019-02-05
得票数 0
1
回答
创建
Pyspark
会话大约
需要
25秒
apache-spark
、
session
、
pyspark
我正在尝试
使用
MongoDB连接器来
使用
PySpark
。但是,仅
创建
PySpark
会话就
需要
大约20到25秒,这会影响服务的性能。我还给出了用来
创建
spark
会话的代码片段。from
pyspark
.sql import
SparkSession
.builder \ .appName("
浏览 18
提问于2020-04-14
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
编程字典-详细的PySpark环境设置
0485-如何在代码中指定PySpark的Python运行环境
Jupyter在美团民宿的应用实践
Python Spark安装及配置步骤
大数据下Python的三款大数据分析工具
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券