腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
PySpark
中
使用
UnaryTransformer
?
、
、
、
在这里,我找不到我的实现出了什么问题,也找不到任何关于如
何在
PySpark
管道中
使用
UnaryTransformer
计算自定义转换的示例。from
pyspark
.ml import Pipeline,
UnaryTransformer
from
pyspark
.sql.types import DoubleType df = spark.createData
浏览 27
提问于2021-01-26
得票数 1
回答已采纳
1
回答
对于输入,VectorAssembler需要什么样的数据类型?
、
、
、
核心问题是这里df = spark.createDataFrame([([1, 2, 3], 0, 3)]我知道这是个玩具问题,但我正在尝试将它集成到一个更长的流水线
中
,并有步骤 自定义
UnaryTransformer
将所有1乘10
浏览 1
提问于2021-01-28
得票数 0
回答已采纳
1
回答
如何将索引转换为
PySpark
DataFrame?
、
、
、
我有一个
PySpark
DataFrame,类似:------------|201 |efgh ||133 |mnop|mylist = ['abcd', 'ijkl', 'efgh', 'efgh', 'abcd', 'ijkl', 'ijkl'] 我希望
使用
pyspar
浏览 2
提问于2019-08-20
得票数 1
回答已采纳
1
回答
在
使用
PySpark
时,如
何在
Spark
中
实现Python数据结构?
、
、
、
我目前正在自学Spark programming,并试图用
PySpark
重新编写一个现有的Python应用程序。然而,我仍然对如
何在
PySpark
中
使用
常规Python对象感到困惑。我了解Spark
中
的分布式数据结构,
如
RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作,
如
.map()、.reduceByKey()来操作这些对象。但是,如果我在
PySpark
中
创建传统的Python数据对
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
1
回答
使用
套接字的火花结构化流,设置模式,在控制台中显示DATAFRAME
、
、
、
如
何在
DataFrame
中
为流
PySpark
设置架构。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.functionsimport splitfrom
pyspark
.sql.types import * .builderforma
浏览 3
提问于2016-12-29
得票数 3
回答已采纳
1
回答
使用
pyspark
从s3读取流数据
、
、
、
、
我想利用python的极其简单的文本解析和函数式编程能力,并利用丰富的科学计算库,
如
numpy和scipy,因此我想
使用
pyspark
来完成一项任务。我一开始要执行的任务是从一个存储桶
中
读取数据,其中有文本文件作为流的一部分被写入。有人可以粘贴一个代码片段,说明如何
使用
pyspark
从s3路径
中
读取流数据吗?直到最近我还以为只能
使用
scala和java才能做到这一点,但我今天才发现Spark1.2以后的版本,
pyspark
也支持流媒体
浏览 1
提问于2015-04-11
得票数 2
1
回答
用火花放电流到HBase
、
、
、
在线上有相当数量的关于
使用
Scala进行星火流的批量加载的信息( 是特别有用的),以及一些用于
PySpark
的信息,但是
使用
PySpark
似乎缺乏这样的信息。所以我的问题是: 任何语言中的大多数示例都只显示每一行上的一个列。如
何在
每一行
中
插入多列?我以前已经取得了一些进展,有很多各种各样的错误(
如
文档化的和)
浏览 2
提问于2016-01-29
得票数 3
1
回答
无法将组织模块导入到
PySpark
集群
、
、
、
、
我也尝试过将org.apache.spark替换为
pyspark
,但仍然不起作用。 !
浏览 19
提问于2020-06-02
得票数 0
回答已采纳
1
回答
如何为HIVE/
PySpark
表
中
的每一列获取唯一值?
、
、
我有一张带有A、B和C列的HIVE/
PySpark
的桌子。我想为每一列获得唯一的值,
如
任何格式(数据、表格等) 如
何在
或
PySpark
中高效地执行这个(与每个列并行)?
浏览 0
提问于2018-07-18
得票数 0
回答已采纳
3
回答
为什么当我
使用
IPython运行
Pyspark
时总是得到错误env: ipython:没有这样的文件或目录
、
我想用IPython运行
Pyspark
终端。我已经在正确的目录
中
运行了该命令,
如
但我最终得到的是env: ipython: No such file or directory 我已经
使用
brew cask install安装了An
浏览 6
提问于2016-01-28
得票数 2
回答已采纳
1
回答
获取执行者任务在
pyspark
中
的任务id
、
、
我在
pyspark
中有一个rdd.foreachPartition(some_function)操作。some_function函数将executor
中
当前任务的数据写入所有executor通用位置的文件(
如
hdfs或s3 bucket)。现在,如果我在所有的执行器中
使用
相同的文件名,那么这个文件就会被替换,只剩下最后一个写入的文件。因此,我正在寻找一个唯一的标识符来表示每个任务,从而表示每个文件名。但是在任何地方都找不到,如
何在
pyspark
中
获取任务ID。我在sca
浏览 0
提问于2018-05-05
得票数 2
2
回答
在windows操作系统
中
运行
pyspark
(Anaconda - Spyder)
、
、
、
亲爱的们,我
使用
的是windows10,我熟悉在Spyder
中
测试我的python代码。然而,当我试着写without
pyspark
“命令时,Spyder显示”没有模块命名为'
Pyspark
'“
pyspark
安装在我的PC上,我也可以在命令提示符中导入
pyspark
而没有任何错误。我找到了许多博客解释如
何在
Ubuntu
中
做这件事,但我没有找到如
何在
windows
中
解决它。
浏览 1
提问于2018-09-26
得票数 3
3
回答
如
何在
不更改log4j.properties的情况下关闭
PySpark
日志
中
的信息?
、
、
我在一个集群
中
工作,在这个集群
中
,我没有权限在
使用
log4j.properties时更改文件以停止信息记录(
如
第一个答案中所解释的那样)。在上面问题的第一个答案
中
解释的以下解决方案适用于spark-shell (scala)import org.apache.log4j.Level但是对于带有python的spark (即
pyspark
),它不起作用,也不能用于以下操作 Logger.getLogger("org&
浏览 2
提问于2015-09-11
得票数 17
回答已采纳
2
回答
无法导入模块'lambda_function':没有名为'
pyspark
‘的模块
、
、
我正在尝试
使用
AWS Lambda函数运行我的
PySpark
作业代码。下面是错误:无法导入模块'lambda_function':没有名为'
pyspark
‘的模块from
pyspark
.sql import
浏览 0
提问于2018-12-11
得票数 0
1
回答
如
何在
pyspark
中
对A1、A2、A10等in进行排序?
、
如
何在
pyspark
中
对in进行排序,
如
A1, A2, A10, B1等?当我尝试
使用
orderBy进行排序时,我得到的数据如下:A10A2etc..
浏览 0
提问于2019-01-27
得票数 5
1
回答
在
Pyspark
上安装seaborn
、
、
我正在
使用
Apache
Pyspark
和Jupyter notebook。在其中一个机器学习教程
中
,讲师
使用
了seaborn和
pyspark
。我们如
何在
Apache Spark (而不是
Pyspark
)上安装和
使用
像Seaborn这样的第三方库?
浏览 20
提问于2017-06-28
得票数 0
1
回答
如
何在
python (anaconda)中
使用
较早版本的GLIBC?
、
、
我正在运行一个python脚本,它在集群上提交一个
pyspark
作业。然而,在GLIBC问题上,工作失败了。platform('glibc', '2.17') # This is my machine 解决这个问题的一种方法是确保我的机器上的python
使用
我正在
使用
anaconda创建python虚拟env。我该怎么处理这个?
浏览 1
提问于2021-07-16
得票数 1
回答已采纳
2
回答
AssertionError: col应该是列
、
、
、
如
何在
PySpark
中
创建一个新列并用今天的日期填充该列?
浏览 4
提问于2017-12-20
得票数 30
回答已采纳
4
回答
Python导入语法:我不认识这个(“它错了.”)
、
PySpark
的文档在示例
中
包括以下内容:from
pyspark
.sql.functions import *from datetime import date, timedelta, datetime 我不认识或理解最后两行的语法。我知道导入路径
中
的.和.. (“相对导入路径”),但是这个语法对我来说是新的,我找不到它的文档位置或名称。我
浏览 5
提问于2022-06-15
得票数 0
回答已采纳
1
回答
在VS代码
中
调试
PySpark
、
、
我正在
使用
VS代码在
PySpark
中
构建一个项目。我安装了
PySpark
,
PySpark
被正确导入并运行在木星笔记本上。这样做,我就跑:findspark.init() from
pyspark
.context import SparkContextsc = SparkContext('
浏览 2
提问于2022-07-20
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark算子处理空间数据全解析(5):如何在PySpark里面使用空间运算接口
如何在ue4中使用流体等
如何在Python中优雅地使用进度条?
如何在 Linux Shell 编程中定义和使用函数
如何在 Linux 中安装和使用 htop|Linux 中国
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券