腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
选择
并
转换
pyspark
数据
框
中
的
列名
、
我有一个
pyspark
格式
的
数据
框
。我想从该data frame中
选择
一些列,并将它们
转换
为小写。= df.schema.names[2:] test_list = [c.lower() for c in df1] 我能够实现我想要
的
,
浏览 4
提问于2018-03-05
得票数 0
回答已采纳
2
回答
PySpark
自定义项,仅输入处
的
值为None
、
、
、
、
我在我
的
Kafka流媒体应用程序
中
的
UDF函数有问题。每次调用UDF函数时,输入上只有None值,而不是有效列值。然后引发TypeError,因为应用程序需要str,而不是None。.withColumn("destinationAS", get_asn('destinationIPv4Address'))TypeError: search_best() argument 1 mu
浏览 16
提问于2020-05-06
得票数 0
1
回答
使用配置单元元
数据
读取HDFS文件-
Pyspark
、
、
、
、
我是
PySpark
新手,正在尝试读取HDFS文件(上面创建了hive表)
并
创建
PySpark
数据
帧。通过
PySpark
读取配置单元表非常耗时。有没有什么方法可以动态获取hive
列名
(用作dataframe
中
的
模式)?我希望将文件位置、表名和
数据
库名作为输入传递给aa程序/函数,以便从配置单元元
数据
(可能是元
数据
xml)
中
获取模式/
列名
称,并作为
浏览 15
提问于2019-03-06
得票数 0
回答已采纳
1
回答
选择
一行
并
根据最大值显示
列名
。
、
、
、
我有一个
Pyspark
数据
框架+---+----+----+----+|ID2| 4| 12| 7|+---+----+----+----+|colC| +--
浏览 0
提问于2021-02-20
得票数 0
回答已采纳
1
回答
PySpark
-从文本文件创建
数据
框
、
、
、
、
我有一个简单
的
文本文件,其中包含“事务”。文件
中
的
列名
不带引号。我想使用Spark,将这个文件
转换
成一个
数据
框
,带有
列名
,我在将文本文件
转换
为
数据<
浏览 0
提问于2016-12-14
得票数 12
回答已采纳
1
回答
[消]电火花
数据
表
列名
、
、
、
什么是限制火花放电
数据
的
列名
。我对下面的代码有异议。%livy.
pyspark
它给了..。resolve column name "spatialElementLabel.value" among (lightFixtureID.value, spatialElementLabel.value);'
列名
显然是正确
浏览 3
提问于2017-06-07
得票数 0
回答已采纳
1
回答
与Scala相比,使用groupBy
的
Pyspark
聚合非常慢。
、
、
、
我移植了一个Scala代码,它可以简单地聚合到Python
中
:from utils import notHeader, parse, pprintsrc = "linkage" sc = SparkContext("spark://aiur.local:7077日志显示了各个collect()调用
的
完成情况有很大
的
不同。:23 IN
浏览 5
提问于2017-01-25
得票数 0
5
回答
如何在python中将JSON结果
转换
为Parquet?
、
、
按照下面的脚本将JSON文件
转换
为parquet格式。我正在使用pandas库来执行
转换
。这是我使用
的
原始json文件:{ "a":"01","b":"teste01“},{ "a":"02","b":"teste02”} 我做错了什么?
浏览 35
提问于2019-12-02
得票数 11
1
回答
复制
pyspark
数据
框
中
的
列
、
我在
pyspark
中有一个类似下面示例
的
数据
框
。我想复制
数据
框
中
的
列,并将其重命名为另一个
列名
。Name Age RateBen 32 98期望
的
输出为: Name Age
浏览 5
提问于2018-05-18
得票数 13
回答已采纳
3
回答
删除
pyspark
中所有
列名
中
的
空格
我是
pySpark
的
新手。我收到了一个csv文件,大约有1000列。我正在使用databricks。大多数这些列之间有空格,例如“总收入”,“总年龄”等。我需要更新所有的
列名
与空格下划线‘_’。我已经试过了但它在databricks上
的
Pyspark
中</em
浏览 1
提问于2019-08-02
得票数 1
1
回答
PySpark
Count () CASE WHEN [duplicate]
这个问题在这里已经有答案了 : 如何在Spark SQL中使用连字符转义
列名
(3个答案)
列名
中
包含破折号/连字符
的
PySpark
Sql (1个答案) 使用selectExpr
选择
其中包含特殊字符
的
spark dataframe列 (1个答案) 如何在SparkContext
中
处理dash
的
SQL请求 (1个答案) 3个月前就关门了。我正在尝试基于多个CASE语句进行计数,使用
PySpark
s
浏览 70
提问于2020-11-30
得票数 0
1
回答
使用map函数将Spark Dataframe
转换
为RDD
、
、
我正在尝试将spark
数据
框
中
的
列拆分为多个值。因此,我分隔了要拆分
的
列,
并
检查了其类型:O:
pyspark
.sql.dataframe.DataFrame 当我使用以下命令分割字符串时TopicModelVectorSplit = TopicModelVector.select('TopicModelVector').map(lambda line: line.text.split(
浏览 0
提问于2016-06-22
得票数 0
2
回答
作为记录
数据
出现在
Pyspark
数据
库
中
的
列名
、
、
、
我从Kaggle (Covid Live.csv)下载了一个示例csv文件,表
中
的
数据
在可视化代码
中
打开时如下所示(原始CSV
数据
仅为部分
数据
)#,"Country,from
pyspark
.sql.types import * df1 = spark.read.forma
浏览 9
提问于2022-10-21
得票数 0
2
回答
绑定到
数据
集选定行
、
、
、
是否可以将文本
框
绑定到组合
框
中选定
的
数据
集
的
行?例如,我有一个包含两列
的
数据
集,一
列名
为name (这是主键),另一
列名
为author。我想设置
数据
绑定,这样当用户在组合
框
中
选择
姓名时,相应
的
作者就会出现在文本
框
的
文本
中
。具体地说,我想知道这是否可以通过
数据
绑定来完成,或者是否需要select
浏览 0
提问于2012-03-29
得票数 0
回答已采纳
1
回答
从oracle检索时,值将
转换
为浮点数
、
oracle中使用
pyspark
检索时
的
列
数据
类型为NUMBER
的
数据
库将
转换
为float。例如:ID列-
数据
类型编号在检索时具有值111该值显示为111.000000
列名
是动态
的
,我不想通过硬编码来
转换
它。oracle
中
的
数据
是否可以按其在
数据
库
中
的
显示方式进行检索。
浏览 28
提问于2019-03-04
得票数 0
1
回答
如何在
pyspark
dataframe中
选择
列和强制
转换
列类型?
、
我有一个非常大
的
pyspark
dataframe,我需要在其中
选择
很多列(这就是为什么我想使用for而不是写每个
列名
)。除了需要作为StringType()保存
的
一列(列"ID")之外,我需要将这些列
中
的
大多数
转换
为DoubleType()。当我
选择
需要强制
转换
为DoubleType()
的
所有列时,我使用以下代码(它可以工作): df_num2 = df_num1.select
浏览 32
提问于2021-11-17
得票数 1
回答已采纳
1
回答
在
PySpark
中将二维矩阵-
数据
转换
为平面表
、
、
、
、
我有一个
PySpark
数据
文件,如下所示: a 997 154.5 0.8 ..我想把这个
转换
成一个像这样
的
平面表:a header2 154.5b header1 0.3等。每个标题
列名
都是唯一
的
。第一个
列名
是ID。如何在
PySpark
中最有
浏览 0
提问于2018-10-25
得票数 0
回答已采纳
1
回答
如何使用其他
数据
create (
PySpark
)创建
数据
文件?
、
、
我使用
的
是
PySpark
v1.6.1,我想使用另一种方法创建一个
数据
文件: 现在正在使用.map(func)使用该函数创建一个RDD (该函数从原始类型
中
的
一行进行
转换
,
并
返回带有新类型
的</em
浏览 0
提问于2017-12-27
得票数 3
回答已采纳
1
回答
Pyspark
数据
框架操作
的
单元测试用例
、
、
、
我已经用python写了一些带有sql上下文
的
代码,即
pyspark
,通过将csv
转换
为
pyspark
dataframe来对csv执行一些操作(df操作,如预处理、重命名
列名
、创建新列并将其附加到相同
的
我没有在
数据
帧上编写单元测试用例
的
想法。有谁能帮我在
pyspark
的
dataframe上写单元测试用例吗?或者给我一些
数据
帧上
的
测试用例
的
来源?
浏览 1
提问于2016-04-14
得票数 3
3
回答
蜂巢兽人返回零
、
、
、
我正在创建hive外部表ORC (位于S3上
的
ORC文件)。命令运行查询后
的
:|有趣
的
是,返回
的
记录数量为10,而且它是正确
的</
浏览 7
提问于2017-10-24
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券