Spark:如何有效地规范化DataFrame的所有列？_如何有效地将Spark dataframe列转换为Numpy数组？_如何使用Spark有效地检查列中的所有值？ - 腾讯云开发者社区

python、apache-spark、pyspark

我想对DataFrame的所有列进行规范化。我使用以下方法。column + "_norm") return df normalize(train_df,train_df.columns) 然而，当DataFrame有大约10,000列时，它太慢了。规范化这种DataFrame的最好方法是什么？为了便于讨论，我举了一个

浏览 27提问于2020-07-13得票数 0

回答已采纳

3回答

scala中的MinMax规范化

scala、apache-spark、normalization、apache-spark-sql

我有一个多列的org.apache.spark.sql.DataFrame。我希望使用lat_long_dist规范化或任何技术来缩放1列( MinMax )，将数据扩展到-1和1之间，并将数据类型保留为org.apache.spark.sql.DataFrame。scala> val df = sqlContext.csvFile("tenop.csv") df: org.apache.spark.sql.

浏览 2提问于2015-11-25得票数 10

回答已采纳

1回答

星火sqlContext选择all

scala、apache-spark、apache-spark-sql

SQLContext读取数据，并将其存储在一个变量中：然后，我希望使用select选择所有值同样的做法是：但我不想做以前的事。致以亲切的问候。

浏览 2提问于2017-03-03得票数 1

回答已采纳

1回答

新的Dataframe列作为其他行的通用函数(spark)

python、apache-spark、pyspark、spark-dataframe

如何有效地在 DataFrame 中创建一个新列，该列是 spark 中其他行的函数from nltk.metrics.distance import edit_distanced = { 'word': ['cat', 'hat',

浏览 0提问于2018-01-09得票数 0

回答已采纳

1回答

如何在带有SparkDataFrame的SparkR中使用未定义的变量列表作为列名？

r、databricks、azure-databricks、sparkr

我在SparkR的世界里一直在进步，我现在面临着一个我无法解决的问题。agg1 <- agg(groupBy(sdf, "CODE"), "SV_6" = sum(sdf$V_6), "SV_7" = sum(sdf$V_7)) ，我的问题是:当

浏览 4提问于2022-01-19得票数 0

回答已采纳

1回答

如何除以星火DataFrame中列的和

apache-spark、pyspark、apache-spark-sql

如何在不立即触发计算的情况下，高效地将列除以其在星火DataFrame中的自身和？= SparkSession.builder.master('local').getOrCreate() 我想在这个数据框架上创建一个名为“规范化”的新列，其中包含id / su

浏览 0提问于2018-01-31得票数 2

回答已采纳

1回答

循环中的Pyspark延迟计算速度太慢

python、loops、pyspark、lazy-evaluation

首先，我想让您知道，我在spark方面仍然是一个新手，并且正在习惯惰性评估的概念。这里是我的问题：我有两个通过读取CSV.GZ文件加载的spark DataFrames。我试图做的是合并这两个表，以便根据我在第二个表上的键拆分第一个表。Y个不相交的表，其中Y是我在合并后的表中找到的不同'Dept‘值的数量。： sp_df_A = spark.read.csv(file

浏览 35提问于2019-01-22得票数 1

回答已采纳

1回答

Spark Dataframe/Parquet中的枚举等效项

apache-spark、parquet

我有一个包含数亿行的表，我想将其存储在Spark的dataframe中，并作为拼图文件保存到磁盘上。我的拼图文件的大小现在超过了2TB，我想确保我已经对其进行了优化。这些列中有很大一部分是字符串值，这可能很长，但也往往只有很少的值。例如，我有一列只有两个不同的值(一个是20个字符，一个是30个字符的字符串)，另一个列有一个字符串，平均长度为400个字符，但所有条目中只有大约400

浏览 13提问于2017-06-23得票数 5

回答已采纳

3回答

标准化熊猫DataFrame的每一栏

python、python-2.7、pandas、dataframe

Dataframe的每个列都需要根据该列中第一个元素的值进行规范化。(): print normalizedPrices # how do we update the DataFrame但是，一旦我们创建了规范化的数据列，如何更新DataFrame呢？我相信，如果我们做了p

浏览 4提问于2014-11-03得票数 0

回答已采纳

2回答

将列值替换为小于其自身的其他列值的数量

apache-spark、pyspark

假设我有一个包含两列的Pyspark dataframe :ID、salary。数据帧有1亿条记录。我想用排名顺序列替换salary列。列的排名-顺序统计有多少人的工资低于。如何有效地做到这一点df = spark.createDataFrame([(1,2000), (2,500),

浏览 2提问于2018-06-26得票数 0

1回答

使用列比例列表进行Spark选择

scala、apache-spark

我正在尝试找到一种使用List[ column，我正在分解一个列，而不是用我的分解列传回所有我感兴趣的列]来进行spark select的好方法。var columns = getColumns(x) // Returns a List[Column]试图找到一种好的方法，我知道，如果它是一个字符串，我可以这样做 val resu

浏览 0提问于2016-10-07得票数 9

回答已采纳

2回答

Spark DataFrames中的argmax :如何检索具有最大值的行

apache-spark、apache-spark-sql

给定一个Spark DataFrame df，我想在某个数值列'values'中找到最大值，并获得达到该值的行。我当然可以这样做：# since I hope I get this done with DataFramepandas.Series/DataFrame和numpy.array的argmax/idxmax方法可以<

浏览 0提问于2016-08-07得票数 15

回答已采纳

1回答

用修改后的PySpark DataFrame覆盖现有的Parquet数据集

python、apache-spark、pyspark、apache-spark-sql、parquet

用例是将一列附加到Parquet数据集，然后在同一位置高效地重写。下面是一个很小的例子。然后将Parquet数据集加载为pyspark视图，并将修改后的数据集创建为pyspark DataFrame。from pyspark.sql import SparkSessionspa

浏览 7提问于2021-10-14得票数 0

回答已采纳

1回答

用于查询HDFS数据的纯spark与spark

hadoop、apache-spark、apache-spark-sql

我在hdfs集群上有(表格)数据，需要对其进行一些稍微复杂的查询。我希望在未来的许多时候，用其他数据来面对同样的情况。所以，问题是：熟悉语言：在我的例子中，我更像是一个数据分析员，而不是一个DB家伙，所以这将导致我使用spark:我更愿意思考如何(高效)在Java/Scala中实现数据选择，而不是在SQL

浏览 2提问于2015-03-24得票数 0

回答已采纳

0回答

如何有效地将Spark* dataframe列转换为Numpy数组？*

python、numpy、pyspark

我有一个大约有一百万行的Spark数据帧。我正在使用pyspark，并且必须在数据帧的每一列上应用来自scipy库的box-cox变换。但是box-cox函数只允许一维numpy数组作为输入。我怎样才能有效地做到这一点呢？ numpy数组是分布在spark上还是将所有元素收集到运行驱动程序的单个节点上？suppose df is my dataframe with column as C1然后，我想执行类似于下面的操

浏览 6提问于2016-07-10得票数 1

2回答

ColumnarToRow是如何在Spark中高效运行的

apache-spark、pyspark、apache-spark-sql、query-optimization

在我的理解中，列格式更适合于MapReduce任务。即使对于某些列的选择，columnar也能很好地工作，因为我们不必将其他列加载到内存中。但是在Spark3.0中，我看到在查询计划中应用了这个ColumnarToRow操作，根据我从可以理解的，查询计划将数据转换为行格式。

浏览 13提问于2020-11-12得票数 10

1回答

规范列表/元组数据的多列

python、pandas、list、tuples、normalization

我有一个包含多列元组数据的dataframe。我试图对每列的每一行元组中的数据进行规范化。这是一个列表的例子，但对于元组也应该是相同的概念- df = pd.DataFrame(np.random.randn(5, 10), columns=['a', 'b', 'c', 'd', 'e',, 'c'

浏览 0提问于2020-08-24得票数 1

回答已采纳

5回答

在Julia中，如何对稀疏矩阵进行列规范化？

matrix、normalization、sparse-matrix、julia

如果我使用sparse(i，j，k)构造函数构造了一个稀疏矩阵，那么如何对矩阵的列进行规范化(使每一列的总和为1)？在创建矩阵之前，我无法有效地对条目进行规范化，因此，如果有任何帮助，我将非常感谢。

浏览 0提问于2014-06-19得票数 4

1回答

按Scala中的浮点型列值过滤DataFrame

scala、apache-spark、dataframe

我需要根据数据类型过滤Spark dataFrame列中的值。我想在一列中只有浮点数。我尝试使用一些正则表达式，但是，在写入csv文件时出现错误：SparkException: Task not serializable .save(outputFilepath + file

浏览 0提问于2018-04-02得票数 0

2回答

PySpark:如何将包含SparseVector类型的列的Spark* dataframe写入CSV文件？*

python、apache-spark、pyspark

我有一个spark dataframe，它有一个类型为spark.mllib.linalg.SparseVector的列：2)如何打印所有的向量？

浏览 0提问于2016-10-13得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云