腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2489)
视频
沙龙
1
回答
DataFrame
cols
的
pyspark
变换
子集
,
但
保留
索引
pandas
、
apache-spark
、
pyspark
、
user-defined-functions
我是spark/
pyspark
的
新手,我正在尝试将一些pandas代码转换为
pyspark
。 简而言之,问题是:如何在
保留
行
索引
值
的
同时,对spark数据帧
的
一些数值列进行行式转换。我想要做
的
是对数值列(按行)应用一些转换,
但
保留
索引
信息。 在下面的示例中,我将使用“按行减去平均值”作为示例,我需要执行
的
实际操作是多种多样
的
,并且需要任意函数。我知道你不
浏览 19
提问于2021-04-16
得票数 1
回答已采纳
1
回答
从json文件动态创建模式
python
、
apache-spark
、
pyspark
、
databricks
、
azure-databricks
我正在使用Databricks笔记本上
的
Spark来摄取API调用中
的
一些数据。我将所需
的
列及其数据类型存储在json文件中。}",{column.get("column_type")},True)')最后,我希望使用以下代码创建具有正确数据类型
的
浏览 1
提问于2022-09-23
得票数 1
3
回答
根据名称在列表中包含字符串
的
情况选择熊猫数据栏
python
、
pandas
我有一个
dataframe
、df和一个字符串列表
cols
_needed,它们指示了我想在df中
保留
的
列。df中
的
列名与
cols
_needed中
的
字符串不完全匹配,因此我不能直接使用类似intersection
的
内容。但是列名确实包含
cols
_needed中
的
字符串。我试着和str.contains玩,
但
没能让它起作用。如何基于df
的
cols
_needed
子
浏览 1
提问于2021-03-09
得票数 2
回答已采纳
1
回答
在pandas数据框中,只用数据填充选定
的
列,并用NaN值追加剩余
的
列
python
、
pandas
、
dataframe
import pandas as pd sample_data = [(78, 89), (77, 45), (54, 90)] 我希望在sample_
dataframe
中插入sample_data,这样column_1和column_2将使用数据中
的
值进行填充,其余列将使用所有行
的
NaN值进行填充。在定义数据帧
的
结
浏览 18
提问于2020-09-07
得票数 0
回答已采纳
1
回答
如何在不丢失模式
的
情况下用
PySpark
的
JDBC覆盖数据?
apache-spark
、
pyspark
、
apache-spark-sql
我有一个愿意写入PostgreSQL数据库
的
DataFrame
。
但
问题是,我希望将主键和
索引
保留
在表中。因此,我想要么只覆盖数据,
保留
表模式,要么在之后添加主键约束和
索引
。其中任何一个都可以用
PySpark
完成吗?或者,我需要连接到PostgreSQL并执行命令来自己添加
索引
吗?
浏览 3
提问于2018-04-04
得票数 7
1
回答
如何删除pandas数据帧中
的
多个(~5000)列?
python-3.x
、
pandas
、
dataframe
我有一个有5632列
的
数据帧,我只想
保留
其中
的
500列。我还将列名(我希望
保留
的
列名)放在一个数据帧中,并将这些列名作为行
索引
。有没有办法做到这一点?
浏览 17
提问于2019-03-25
得票数 0
1
回答
Pyspark
‘array`函数是否保持顺序?
arrays
、
pyspark
从
cols
创建数组时,数组函数
pyspark
.sql.functions.array(*
cols
)是否保持顺序+----+----+----++----+----+----+| 2| 4| 6|+----+----+----+| 2| 4| 6|[2
浏览 18
提问于2020-02-18
得票数 0
回答已采纳
1
回答
在
pyspark
中创建具有特定数据类型
的
dataframe
时遇到问题
apache-spark
、
pyspark
SampleCSV2.csv
的
数据如下:BBB|28|Comp|100.5from
pyspark
import SparkContext, SparkConf, SQLContext from
pyspark
.sql.types import StructType, StructField, DoubleType, IntegerType, StringType, DateType,
浏览 6
提问于2017-09-04
得票数 1
回答已采纳
1
回答
Impala vs SparkSQL:内置函数转换: fnv_hash
apache-spark
、
pyspark
、
apache-spark-sql
、
impala
我正在使用Impala中
的
fnv_hash将一些字符串值转换为数字。现在我正在迁移到Spark SQL,在Spark SQL中有没有类似的函数可以使用?将字符串值映射到数字
的
几乎1-1函数应该可以工作。谢谢!
浏览 13
提问于2017-01-26
得票数 3
1
回答
DF.show()在zipWithIndex后将RDD转换为DF后出现
的
错误
apache-spark
、
pyspark
、
apache-spark-sql
我似乎遵循了文档化
的
方式来显示从带有模式
的
RDD转换而来
的
DF。
但
很明显,我遗漏了一些很小
但
很重要
的
一点。df = spark.createDataFrame(rdd, schema)print(schema)df:
pyspark
.sql.
dataframe
.
DataFrame
ARRAY_
COLS
:array
浏览 0
提问于2019-08-12
得票数 2
回答已采纳
1
回答
在参数化中使用F.lit()或作为默认值引发无类型错误
pyspark
、
pytest
下面的代码可以从
pyspark
解释器中运行。spark_utils.pyfrom typing import List, Optionalfrom
pyspark
.sql import functions as F df:
DataFrame
, columns: List[str]_jvm.functions, name)
浏览 5
提问于2022-01-25
得票数 0
2
回答
如何按
索引
重命名
PySpark
数据栏?(处理重复
的
列名)
python
、
apache-spark
、
dataframe
、
pyspark
我有一个问题,我需要动态更新星火数据中
的
列。def dup_
cols
(df): for x, xcol in enumerate(df.columns= x: retu
浏览 0
提问于2018-12-13
得票数 5
回答已采纳
5
回答
展平嵌套
的
Spark数据帧
apache-spark
、
pyspark
、
spark-dataframe
有没有办法扁平化一个任意嵌套
的
Spark
Dataframe
?我看到
的
大多数工作都是为特定
的
模式编写
的
,我希望能够用不同
的
嵌套类型(例如StructType、ArrayType、MapType等)来通用地扁平化数据帧。希望将其调整为具有如下结构
的
扁平表:field2nested_array.nested_field2 仅供参考,寻找对
Pyspark
的
建议,但也感谢
浏览 0
提问于2015-12-14
得票数 14
1
回答
IBEX中
的
流水线变压器级,Scikit-Learn和Pandas中
的
列访问问题
python
、
pandas
、
scikit-learn
我正在尝试创建一个基于科学知识
的
管道,通过熊猫
的
数据传输。在每个阶段,只应触及一
子集
的
功能,其余
的
应通过未经修改。为此,我使用IBEX,因为DataFrameMapper似乎没有为我做这项工作,因为为了完整性起见,没有
保留
未触及
的
字段,这里
的
DataFrameMapper代码(它对我不起作用,但可能是在其他人之前)= DataFrameMapper([ (['x','y','z'],
浏览 0
提问于2018-05-14
得票数 1
回答已采纳
1
回答
组合不同列数
的
Spark数据帧
pyspark
、
bigdata
、
rdd
在this问题中,我问过如何组合具有不同列数
的
PySpark
数据帧。给出
的
答案要求每个数据帧必须具有相同
的
列数才能将它们全部合并: from
pyspark
.sql import SparkSessionfor df in dataframes:
cols
.add(x)
cols
= sorted(<em
浏览 13
提问于2021-06-28
得票数 1
回答已采纳
1
回答
使用pandas连接多
索引
列
python
、
pandas
、
concatenation
、
multi-index
如何连接两个pandas数据帧,其中一个数据帧具有多个
索引
列?我需要在最终
的
数据帧中
保留
多
索引
。import numpy as npdf1_vals = np.random.randint(1, 10, [2,2]) df2_
col
浏览 15
提问于2021-07-14
得票数 1
回答已采纳
2
回答
根据数据帧转换各个列
的
数据类型
pyspark
我有一个包含100个
cols
的
pysaprk数据帧:我有另一个
pyspark
dataframe
df2,具有相同
的
列计数和列名称,
但
数据类型不同。df2=[(col1,bigint),(col2,double),(col3,string),..so on] 如何使df2中所有
cols
的
数据类型与其各自
cols
的</
浏览 3
提问于2018-01-03
得票数 0
1
回答
熊猫群需要中间群吗?
python
、
pandas
、
dataframe
、
pandas-groupby
我试图通过分组对一列进行分组,然后在组内填充(b bfill().ffill())列
子集
,以掩盖数据中丢失
的
数据。我以前用过 return x.ffill().bfill() df[some_
cols
] = df[some_<em
浏览 0
提问于2018-07-31
得票数 2
回答已采纳
2
回答
如何删除星火表列中
的
空白
python
、
apache-spark
、
pyspark
、
databricks
、
sparktable
我想从特定列(Purch_location)中
的
所有值中删除空格。我使用
的
是spark表,而不是
dataframe
或SQL表(
但
如果需要,我可以使用
dataframe
或SQL表)。下面是我
的
星火表
的
生成方式:
cols
= dataset.columns+----------+----TORONTO | 4| 0| +--------
浏览 6
提问于2017-12-03
得票数 2
1
回答
如何在继承
的
星火
DataFrame
类上执行星火操作后
保留
该类
的
属性
python
、
dataframe
、
class
、
inheritance
、
pyspark
我创建了一个名为NewDataFrame
的
新类,其属性为a_string。import numpy as npfrom
pyspark
.sql import
DataFrame
temp = temp.filter("a=
浏览 4
提问于2022-03-07
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
10个Pandas的另类数据处理技巧
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
这些很实用的Pandas技巧,你都会了吗?-乌森数据可视化系列(1)
机器学习实战系列[一]:工业蒸汽量预测(最新版本上篇)含数据探索特征工程等
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券