如何将spark数据帧的列移动到同一数据帧中的嵌套列？_提升数据帧的嵌套列_折叠spark数据帧中的列值 - 腾讯云开发者社区

、

我在一个8核64 am内存的本地实例上运行带R的sparklyr。我的工作是使用[50 000 000, 12]数据帧对[20 000 000, 3]数据帧进行left_join，我和Spark一起运行。 # Load packages library(tidyverse) library(sparklyr) # Initialize configuration with defaults config <- spark_config() # Memory # Set memory allocation for whole local Spark instance # Sys.s

浏览 19提问于2021-09-06得票数 2

1回答

星火如何与红移互动？

、、、

我使用星火已经有几年了，我的新团队使用Redshift。我已经成功地绑定了Spark/Redhshift集群，并且可以通过Spark成功地执行红移查询，并将它们卸载到S3中。如果我正确理解，当我在火花红移中生成数据时，实际的重物是由红移本身完成的，而不是由火花完成的。我在这两个平台上都运行了相同的查询，而在Spark中运行的查询所花费的时间大约是以前的两倍。由于在这两种情况下，查询本身都是由Redshift解决的，所以我认为额外的时间是网络I/O，从红移到火花集群。星星之火实际上只是一个查询的收集器，它以方便的数据with的形式出现，然后我可以用它的库来并行机器学习方法。这个描述有多准确

浏览 1提问于2016-12-09得票数 1

1回答

如何将spark数据帧中的多列写入kafka队列

、、、

我知道我们可以集成spark和kafka，并将数据帧以key和value的格式写入kafka队列，如下所示 df -数据帧 df.withColumnRenamed("Column_1", "key") .withColumnRenamed("Column_2", "value") .write() .format("kafka") .option("kafka.bootstrap.servers", "host1:port1,host2:port2") .save()

浏览 15提问于2019-05-28得票数 0

1回答

使用PySpark上传数据到红移

、、、、

我有一个用pyspark写的脚本。我尝试做的是使用pyspark从亚马逊网络服务的S3存储桶中读取*.csv文件。我创建了一个包含所有数据的DataFrame，选择我需要的所有列，并将它们转换为我的红移表期望的类型： mapping = [('id', StringType), ('session', StringType), ('ip', StringType)] df = spark.read.\ format("csv").\ option("header"

浏览 17提问于2020-12-30得票数 4

回答已采纳

1回答

spark json模式元数据可以映射到配置单元？

、、

在使用apache spark时，我们可以很容易地生成一个json文件来描述Dataframe结构。此数据帧结构如下所示： { "type": "struct", "fields": [ { "name": "employee_name", "type": "string", "nullable": true, "metadata": { "comment"

浏览 1提问于2020-05-14得票数 0

6回答

如何在spark中将rdd对象转换为dataframe

、、、

如何将RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row])转换为数据帧org.apache.spark.sql.DataFrame。我使用.rdd将数据帧转换为rdd。在处理之后，我想把它放回数据帧中。我该怎么做呢？

浏览 56提问于2015-04-01得票数 150

回答已采纳

1回答

Spark Scala，如何检查dataframe中是否存在嵌套列

、、、

我正在从具有嵌套列(struct)的拼图文件中读取数据帧。如何检查是否存在嵌套列？可能是这样的 +----------------------+ | column1 | +----------------------+ |{a_id:[1], b_id:[1,2]}| +----------------------+ 或者像这样 +---------------------+ | column1 | +---------------------+ |{a_id:[3,5]} | +---------------------+

浏览 21提问于2019-03-14得票数 5

回答已采纳

1回答

将字符串列转换为向量列Spark DataFrames

、、、、

我有一个Spark数据帧，如下所示： +-----------+-------------------+ | ID | features | +-----------+-------------------+ | 18156431|(5,[0,1,4],[1,1,1])| | 20260831|(5,[0,4,5],[2,1,1])| | 91859831|(5,[0,1],[1,3]) | | 206186631|(5,[3,4,5],[1,5]) | | 223134831|(5,[2,3,5],[1,1,1])| +-----

浏览 16提问于2016-08-01得票数 3

回答已采纳

1回答

如何将spark dataframe中的String类型列转换为Pandas dataframe中的String类型列

、、

我有一个从熊猫数据帧创建的样本spark数据帧- from pyspark.sql import SparkSession import pyspark.sql.functions as F from pyspark.sql.types import StringType from pyspark.sql.types import * import pandas as pd spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .config(&

浏览 3提问于2020-09-09得票数 0

1回答

当多个文件合并在一起时，如何将文件名添加到数据框中的列？

、、

当数据加载到框架中时，如何将file_name列添加到数据帧中？因此，我希望数据帧中的每条记录都显示file_name。我对此做了一些研究，发现它看起来应该可以工作，但它实际上不加载任何文件名，只加载文件本身中的数据。 import org.apache.spark.sql.functions._ val df = spark.read.format("csv") .option("sep","|") .option("inferSchema","true") .option("he

浏览 12提问于2019-10-09得票数 1

回答已采纳

1回答

从多个文件读取Spark数据帧

、、

假设您有两个s3存储桶，您想要从中读取spark数据帧。对于在spark数据帧中读取的一个文件，将如下所示： file_1 = ("s3://loc1/") df = spark.read.option("MergeSchema","True").load(file_1) 如果我们有两个文件： file_1 = ("s3://loc1/") file_2 = ("s3://loc2/") 我们如何读取spark数据帧？有没有办法合并这两个文件位置？

浏览 9提问于2021-10-18得票数 0

回答已采纳

1回答

在现有数据帧上运行ML算法

我是Spark的新手，我正在尝试弄清楚使用它进行数据科学的程序是什么。具体地说，我知道如何从现有数据中创建数据帧，然后执行一些分析。现在我正在尝试理解如何在数据帧中已经存在的数据上运行ML算法。当我查看ML文档时，我发现dataframes是从Vectors (密集或稀疏)创建的，但我现有的Dataframes并非如此。我想知道如何将具有多个列的现有数据帧转换为将单个列放置在向量中的数据帧？当尝试先执行探索性分析和一些绘图，然后在相同的数据帧上执行ML时，通常的程序是什么？

浏览 0提问于2016-12-29得票数 0

2回答

使用spark scala基于键值项将字符串列拆分成多列

、

我有一个数据帧，其中一列包含几个'key=value‘格式的信息。几乎有30个不同的'key=value‘可以出现在该列中将使用4列来理解( _age，_city，_sal，_tag) id name properties 0 A {_age=10, _city=A, _sal=1000} 1 B {_age=20, _city=B, _sal=3000, tag=XYZ} 2 C {_city=BC, tag=ABC} 如何将此字符串列转换为多列？需要为它使用spark scala数据帧。预期输出为： id name _

浏览 5提问于2021-11-25得票数 0

5回答

如何在pyspark中获取dataframe列的名称？

、

在熊猫中，这可以通过column.name来完成。但是，当它的spark数据帧列时如何做同样的事情呢？例如，调用程序有一个spark数据帧: spark_df >>> spark_df.columns ['admit', 'gre', 'gpa', 'rank'] 此程序调用我的函数: my_function(spark_df 'rank‘)在my_function中，我需要列的名称，即’rank‘ 如果是pandas数据帧，我们可以在my_function内部使用 >>> pand

浏览 1提问于2016-09-28得票数 55

1回答

pyspark连接2个以上的数据帧

、、、

假设我有100个数据帧，我如何将它组合成一个包含所有列的数据帧。我的数据帧看起来像这样， id name marks 00 abc 70 01 def 67 02 ghi 68 03 jkl 90 id name class 00 abc A 01 def B 02 ghi B 03 jkl A id name std 00 abc 1 01 def 2 02 ghi 3 03 jkl 4 id name city 00 abc mex 01 def nyc 02 ghi

浏览 0提问于2017-01-17得票数 1

2回答

如何将源文件名添加到Spark中的每一行？

、

我是Spark的新手，我正在尝试在每个输入行中插入一个列，其中包含它所来自的文件名。我见过其他人问类似的问题，但他们所有的答案都使用wholeTextFile，但我正在尝试对较大的CSV文件(使用Spark-CSV库读取)、JSON文件和Parquet文件(不仅仅是小的文本文件)这样做。我可以使用spark-shell来获取文件名列表： val df = sqlContext.read.parquet("/blah/dir") val names = df.select(inputFileName()) names.show 但那只是一个数据帧。我不确定如何将其作为列添加到

浏览 0提问于2015-10-23得票数 14

4回答

如何读取Spark中的嵌套集合

、、、、

我有一张镶木镶木桌上有一根柱子、array<struct<col1、col2、..colN>> 可以使用横向视图语法在配置单元中对此表运行查询。如何将该表读入RDD，更重要的是如何过滤、映射等Spark中的嵌套集合？在Spark文档中找不到任何与此相关的引用。提前感谢您提供的任何信息！ ps。我觉得在谈判桌上提供一些统计数据可能会有所帮助。主表中的列数约为600。行数~200m。嵌套集合中的“列”数~10。嵌套集合中的平均记录数~35。

浏览 191提问于2015-05-03得票数 19

回答已采纳

1回答

Apache Spark: dataframe中行值列表的百分比

、、

我有一个包含一组计算列的Apache Spark数据帧。对于数据帧中的每一行(大约2000行)，我希望获取10列的行值，并定位第11列相对于其他10列的最接近值。我想我会把这些行值转换成一个列表，然后使用abs值计算来确定最接近的值。但是我被困在如何将行值转换为列表的问题上。我获取了一列，并使用collect_list将这些值转换为列表，但不确定当列表来自单行和多列时该如何处理。

浏览 1提问于2017-10-03得票数 0

1回答

如何合并或连接spark中列号不相等的数据帧

、、、、

我正在做一个使用spark的项目。在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连接不相等的基于列的数据帧，请指导我

浏览 13提问于2016-09-22得票数 0

2回答

在PySpark中合并来自两个数据帧的两列

、

假设我们有两个数据帧 df1 = spark.createDataFrame([ Row(a=107831, f="test1"), Row(a=125231, f=None), ]) df2 = spark.createDataFrame([ Row(a=107831, f=None), Row(a=125231, f="test2"), ]) 如何将这两个数据帧组合在一起，并使用下面的df获得一个数据帧？ df=spark.createDataFrame([ Row(a=107831, f="test1"

浏览 0提问于2020-05-13得票数 0

1回答

统一Spark中具有不同列数的两个表

、

如何联合包含不同列数的两个数据帧A和B，并为数据帧A和B中不常见的列获取空值？我可以看到spark的unionAll不支持此操作，并抛出以下错误 org.apache.spark.sql.AnalysisException: Union can only be performed on tables with the same number of columns, but the left table has 11 columns and the right has 10; Spark版本: 1.6.1

浏览 0提问于2016-08-04得票数 0

1回答

将带有UTC偏移量的字符串转换为spark时间戳

、、、

如何将字符串2018-03-21 08:15:00 +03:00存储为timestamptype，同时保留spark中的UTC偏移量？已在下面尝试 from pyspark.sql.functions import * df = spark.createDataFrame([("2018-03-21 08:15:00 +03:00",)], ["timestamp"]) newDf= df.withColumn("newtimestamp", to_timestamp(col('timestamp'), "yyyy-M

浏览 2提问于2021-02-17得票数 4

1回答

你能在pyspark中有一列数据帧吗？

、、、

我对pyspark/bigdata有点陌生，所以这可能不是一个好主意，但我有大约一百万个单独的CSV文件，每个文件都与一些元数据相关联。我想要一个pyspark dataframe所有元数据字段的列，但也有一个列，其条目是(整个) CSV文件与每组元数据相关联。我现在不在工作，但我几乎记得确切的代码。我试过一个玩具的例子，比如 outer_pandas_df = pd.DataFrame.from_dict({"A":[1,2,3],"B":[4,5,6]}) ## A B ## 0 1 4 ## 1 2 5 ## 2 3 6 如果你这样

浏览 2提问于2016-11-17得票数 0

1回答

将函数应用于Spark DataFrame的每一行

、

我在Spark 1.3上我想对数据帧的每一行应用一个函数。此函数对行的每一列进行散列处理，并返回散列列表。 dataframe.map(row => row.toSeq.map(col => col.hashCode)) 当我运行这段代码时，我得到了一个NullPointerException。我假设这与有关。如果不使用嵌套的map，我想不出一种方法来达到同样的效果。

浏览 1提问于2015-12-23得票数 9

回答已采纳

3回答

查看Spark Dataframe列的内容

、、、

我使用的是Spark 1.3.1。我正在尝试查看Python中Spark dataframe列的值。有了Spark dataframe，我可以使用df.collect()来查看数据帧的内容，但在我看来，Spark dataframe列还没有这样的方法。例如，数据帧df包含一个名为'zip_code'的列。所以我可以做df['zip_code']，它会变成一个pyspark.sql.dataframe.Column类型，但是我找不到一种方法来查看df['zip_code']中的值。

浏览 1提问于2015-06-30得票数 43

回答已采纳

2回答

如何将查询从Spark写到Redshift？

、、

我通过SSH连接到了Glue中的Dev Endpoint。Spark 2.4.1正在运行。我想运行一个简单的查询select * from pg_namespace; 同样在那之后，我想使用COPY命令将数据从S3移动到Redshift。如何在Spark控制台中编写？谢谢。

浏览 10提问于2019-10-03得票数 0

2回答

用于计算Spark中频率(值的等级)的UDF

、、、

我想要计算数据帧Spark中列值的频率，即计算出现频率最高的values.How的等级。我们在Spark中为此定义数据帧UDF了吗？

浏览 7提问于2017-07-31得票数 0

1回答

我的spark程序中有大量的阶段

、、、

当我的spark程序执行时，它创建了1000个阶段。但是，我只看到推荐的是200。最后，我有两个动作将数据写入S3，之后我就得到了未持久化的数据帧。现在，当我的spark程序将数据写入S3时，它仍然多运行了近30分钟。为什么会这样呢？是因为我保存了大量的数据帧吗？ P.S ->我正在运行的程序只有5个输入记录。

浏览 0提问于2018-08-17得票数 1

1回答

使用spark将数据插入配置单元表的问题

、、、

目前我正在开发Spark版本2.1.0，作为我的数据摄取工作的一部分，我必须使用ingest方法将数据摄取到hive表中。但是Spark 2.1版本有一个bug，当插入数据到hive表中时，insertinto方法不会保持列顺序。我已经尝试在append模式下使用saveAsTable方法，但它不会起作用，因为在数据摄取之前，我首先使用正确的数据类型手动创建表。我尝试从现有的hive表中创建spark数据帧，并尝试从其中获取列序列，并传递此列表结果以确保列序列，但每次都在hive表的顶部创建数据帧以获取列序列。每次加载hive表来创建数据帧都会占用内存吗？有没有人知道，如何用更好的方法

浏览 15提问于2019-02-26得票数 0

1回答

如何在pyspark中将嵌套的dict转换为dataframe？

、、

我有一个如下所示的dict对象。 data_dict={1016070000000: [[15245438, 1198], [53273831, 1198]], 10160700000201: [53273831, 1197]} 我想把它转换成数据帧，如下所示。 ID cola colb 1016070000000 15245438 1198 1016070000000 53273831 1198 10160700000201 53273831 1197 我试着这样改变自己 spark.createDataFrame(dat

浏览 96提问于2020-12-09得票数 1

回答已采纳

1回答

将pandas数据帧转换为PySpark数据帧

、、、、

我有一个脚本与下面的设置。我正在使用： 1)用于拉取数据的Spark数据帧2)在初始聚合后转换为pandas数据帧3)想要转换回Spark以写入HDFS 从spark --> Pandas的转换很简单，但我正在为如何将Pandas数据帧转换回Spark而苦苦挣扎。你能给点建议吗？ from pyspark.sql import SparkSession import pyspark.sql.functions as sqlfunc from pyspark.sql.types import * import argparse, sys from pyspark.sql import

浏览 1提问于2018-10-23得票数 15

回答已采纳

2回答

电子病历Spark无法将数据帧保存到S3

、、、、

我正在使用RunJobFlow命令启动一个Spark EMR集群。此命令将JobFlowRole设置为具有策略AmazonElasticMapReduceforEC2Role和AmazonRedshiftReadOnlyAccess的IAM角色。第一个策略包含允许所有s3权限的操作。当EC2实例启动时，它们承担此IAM角色，并通过STS生成临时凭据。我做的第一件事是使用com.databricks.spark.redshift格式将表从我的Redshift集群读取到Spark Dataframe中，并使用与我对EMR JobFlowRole所做的相同的IAM角色从redshift中卸载数据

浏览 3提问于2017-02-21得票数 3

4回答

Pyspark: Jupyter Notebook中的spark数据帧列宽配置

、、、、

我在Jupyter Notebook中有以下代码： import pandas as pd pd.set_option('display.max_colwidth', 80) my_df.select('field_1','field_2').show() 我想增加列宽，这样就可以看到field_1和field_2的完整值。我知道我们可以对pandas数据帧使用pd.set_option('display.max_colwidth', 80)，但它对spark数据帧似乎不起作用。有没有办法增加spark数据帧的列宽，就像我们对p

浏览 2提问于2016-08-26得票数 2

1回答

Apache Spark中DataFrame写格式JDBC中的列映射

、、

我可以将数据帧记录加载到Oracle数据库中，没有任何错误，但我想知道如何将Df中的列映射到Oracle 我想以JDBC write格式将Employee_id字段从DataFrame映射到oracle中的ID列。列映射： df ---------- Oracle Employee_id ---------- ID targetdf=spark.sql(final_sql) targetdf.show() targetdf.write \ .format("jdbc") \ .option("url", "

浏览 21提问于2020-11-27得票数 0

1回答

是否可以将自定义类对象作为列值存储在星火数据帧中？

、、

我正在用LSH算法解决重复文档检测问题。为了处理大规模的数据，我们正在使用火花. 我有大约300,000份文件，每份文件至少有100-200字。在星火集群上，这些是我们在数据帧上执行的步骤。运行Spark管道，将文本转换为令牌。 pipeline = Pipeline().setStages([ docAssembler, tokenizer, normalizer, stemmer, finisher, stopwordsRemover, # emptyRowsRemo

浏览 3提问于2019-01-11得票数 0

回答已采纳

3回答

删除spark数据帧中重复的所有记录

、、、、

我有一个包含多个列的spark数据帧。我想找出并删除列中有重复值的行(其他列可以是不同的)。我尝试使用dropDuplicates(col_name)，但它只删除重复的条目，但仍然在数据帧中保留一条记录。我需要的是删除所有最初包含重复条目的条目。我使用的是Spark 1.6和Scala 2.10。

浏览 4提问于2018-04-10得票数 5

回答已采纳

3回答

如何处理spark sql中缺少的列

、、

我们正在处理无模式的JSON数据，有时spark作业会失败，因为我们在spark SQL中引用的一些列在一天中的某些时间内不可用。在这些小时内，spark作业失败，因为所引用的列在数据帧中不可用。如何处理这种情况？我尝试过UDF，但是我们缺少太多的列，所以不能真正地检查每一列的可用性。我还尝试在更大的数据集上推断模式，并将其应用于数据帧，期望缺少的列将用null填充，但模式应用程序失败并出现奇怪的错误。请给出建议

浏览 5提问于2018-08-10得票数 2

1回答

将HDF5 (.h5)转换为火花数据帧

、、、

我刚刚开始学习spark (更准确地说是pyspark)。如何将HDF5文件转换为spark数据帧？能否在这方面提供帮助，或者dask dataframes是不同于spark dataframes的东西？

浏览 2提问于2016-09-29得票数 3

1回答

如何将spark数据帧的列移动到同一数据帧中的嵌套列？

、、、、

我将spark数据帧的列移动到同一数据帧中的嵌套列的方法如下所示： .appName("SparkByExamples.com") .master("local") .getOrCreate() import spark.sqlContext.implicits._ val data = Seq(("Adam", "111", "50000"), ("Abe", "222", "60000"),

浏览 19提问于2021-02-05得票数 0

回答已采纳

1回答

如何在使用Spark Java向Kafka Producer写入Spark Dataframe时控制记录数

、、、、

我有一个包含两列的spark数据帧，'keyCol‘列和'valCol’列。数据帧的大小非常巨大，接近1亿行。我想以小批量的方式向kafka主题写入/产生数据帧，即每分钟10000条记录。此spark作业将每天运行一次，从而创建此数据帧如何在下面的代码中实现每分钟10000条记录的小批量写入，或者请建议是否有更好/更有效的方法来实现这一点。 spark_df.foreachPartition(partitions ->{ Producer<String, String> producer= new KafkaProducer<

浏览 10提问于2020-04-27得票数 1

1回答

在pyspark.ml.pipeline中从管道对象中检索转换后的数据集

、、、、

我是Spark ML的新手。我正在尝试使用Spark ML Pipeline来链接数据转换(将其视为ETL过程)。换句话说，我想输入一个DataFrame，执行一系列转换(每次向该数据帧添加一列)，并输出转换后的DataFrame。我研究了Python中的Pipeline文档和代码，但我不知道如何将转换后的数据集从Pipeline中提取出来。请参见以下示例(从文档中复制并修改)： from pyspark.ml import Pipeline from pyspark.ml.feature import HashingTF, Tokenizer # Prepare training doc

浏览 0提问于2018-04-11得票数 1

2回答

如何对大型数据集使用COGROUP

、、

我有两个rdd's，即val tab_a: RDD[(String, String)]和val tab_b: RDD[(String, String)]，我对以下数据集使用了cogroup： val tab_c = tab_a.cogroup(tab_b).collect.toArray val updated = tab_c.map { x => { //somecode } } 对于映射函数，我使用tab_c代码分组值，对于小型数据集，它可以很好地工作，但是对于巨大的数据集，它会抛出Out Of Memory exception。我尝试将最终值转换为RDD，但没

浏览 3提问于2017-11-08得票数 1

回答已采纳

1回答

Spark-SQL :如何将TSV或CSV文件读入dataframe并应用自定义模式？

、、、

我在使用制表符分隔值(TSV)和逗号分隔值(CSV)文件时使用Spark 2.0。我希望将数据加载到Spark-SQL数据帧中，在读取文件时，我希望完全控制模式。我不希望Spark从文件中的数据中猜测模式。如何将TSV或CSV文件加载到Spark SQL Dataframe中，并对其应用模式？

浏览 2提问于2017-04-20得票数 6

3回答

PySpark:如何转置数据帧中的多个列

、、、、

我是Spark的新手，需要使用PySpark或Spark Sql将以下输入数据帧转置为所需的输出df (从行到列)的帮助。输入数据帧- A B C D 1 2 3 4 10 11 12 13 ...... ........ 所需的输出(转置)数据 A 1 B 2 C 3 D 4 A 11 B 12 C 13 D 14 .... ...... 如果我可以根据我们的要求旋转输入数据(列)，那就更好了。

浏览 1提问于2020-11-27得票数 3

1回答

如何将包含值0...n的列添加到spark中现有的dataframe？

、、

我有很多列的现有数据帧。如何添加一个包含0...n-1值的列(其中n是我的数据帧中的行数。当我没有任何数据帧时，我可以这样做，比如：spark.range(...).toDF。

浏览 10提问于2021-02-15得票数 0

回答已采纳

1回答

如何将额外的数据帧传递给自定义Spark MLLib转换器

、

我正在编写一个自定义的Spark transformer，在其中我需要访问一个额外的数据帧，并与主数据集进行连接。要连接的数据帧的路径将出现在我的主类中。如何将数据帧本身或指向数据帧的路径传递给自定义转换器？

浏览 23提问于2020-07-01得票数 0

回答已采纳

1回答

如何截断spark dataframe列的值？

、、、

我想为spark数据帧的单个列中的每个字符串删除字符串的最后两个值。我想在spark数据帧中实现这一点，而不是将其移动到pandas，然后再移回来。下面是一个数据帧示例， # +----+-------+ # | age| name| # +----+-------+ # | 350|Michael| # | 290| Andy| # | 123| Justin| # +----+-------+ 其中年龄列的数据类型是字符串。 # +----+-------+ # | age| name| # +----+-------+ # | 3|Michael| # | 2|

浏览 1提问于2019-06-04得票数 1

1回答

将多个列的所有值设置为None

、、

我正在设置一个Spark batch，旨在过滤掉一些需要清理的字段。如何将所有行的相关列的值设置为None？(我已经有一个只包含我想要更改的行的dataframe ) 我不是Spark方面的专家，我在这里问了很多，但我仍然不知道一个足够简单的答案。大约有50列，我不能硬编码列索引来访问它，因为它可能会在以后的批处理中更改。输入数据帧示例(目标列包含数据)： id TARGET 1 TARGET 2 TARGET 3 Col6 ... someid1 Some(String) Some(String) Some(String)

浏览 8提问于2019-10-28得票数 0

回答已采纳

1回答

spark vs pandas dataframe (具有大列) jupyter笔记本中的head(n)

、、、、

几天后，数据带来了大量的功能。为了获得简短的数据摘要，人们将数据加载到数据框中，并使用head()方法显示数据。使用Jupyter Notebook( Toree for scala)进行实验是很常见的。 Spark (scala)很适合处理大量数据，但是它的head()方法不能在水平滚动的notebook中显示列标题。熊猫数据帧头 Spark Scala数据帧头我知道你可以通过使用.columns在scala dataframe中获得列标题，但是打印它不会沿着数据列显示标题，这使得它很难理解。

浏览 3提问于2018-06-13得票数 2

1回答

在dplyr和sparklyr中动态类型转换为numeric

、、

这个问题的要点是，我有一些R代码，它在本地数据帧上工作得很好，但在Spark数据帧上失败了，即使在其他情况下两个表是相同的。在R中，给定所有字符列的数据帧，可以动态地将所有列类型转换为numeric，然后使用以下代码将其安全地转换为numeric： require(dplyr) require(varhandle) require(sparklyr) checkNumeric <- function(column) { column %>% as.data.frame %>% .[,1] %>% varhandle::check.numeric(.) %>

浏览 16提问于2020-08-18得票数 0

回答已采纳