如何替换所有数字和“。数据帧spark scala中列的"“_如何在Spark Scala中根据其他数据帧中的多个列匹配来过滤数据帧_Scala/Spark :如何检查数据帧是否包含特定的列列表？ - 腾讯云开发者社区

scala、apache-spark

我正在尝试用可能在count_2列中的数据替换count_1列中的所有空数据。下面是给定输入的预期输出。我如何在Spark Scala中做到这一点？输入数据帧 name count_1 count_2Python null 20000 <em

浏览 23提问于2021-09-05得票数 1

回答已采纳

2回答

如何替换所有数字和“。数据帧spark scala中列的"“

scala、dataframe、apache-spark

如何替换所有数字和“。即所有十进制数都应替换为Dataframes spark scala中某一列的例如：+56.5或-64.83应替换为空字符"“ 我正在关注 regexp_replace(col("col1"),"\\+|\\-|\\.|0|1|2|3|4|5|6|7|8|9", "")

浏览 11提问于2020-01-31得票数 1

1回答

如何通过匹配Python中长度不同的字典中的值来替换列值？

python、scala、pandas、dictionary、apache-spark

我有一张这样的数据A redC red我通过创建字典将颜色枚举为数字：colors = dict(enumerate(color_list))ID Color A

浏览 1提问于2017-07-17得票数 0

回答已采纳

1回答

在spark/scala中寻找计算数据帧频率分布的方法

scala、apache-spark

我想使用spark和scala计算数据帧的频率分布(返回每列中最常见的元素以及它出现的次数)。我尝试过使用DataFrameStatFunctions库，但在我只过滤了数字类型列的数据帧之后，我无法应用该库中的任何函数。创建UDF的最佳方式是什么？

浏览 0提问于2016-07-02得票数 2

1回答

AWS胶-不知道如何将NullType保存为红移

python-3.x、amazon-redshift、etl、aws-glue

下面是AWS Glue的简单脚本。我有一个带有空单元格的文本文件和一个接受空值的表。当我运行胶水作业时，它会失败，例外情况是“不知道如何将NullType保存为REDSHIFT”。如何处理此问题，或者通过Glue在RedShift中不支持空插入？我没有任何空字符就重新生成了我的文件，我也有同样的问题。我添加了这行代码。推断了一些不存在的NullType字段。我的字段中只有大约1&

浏览 4提问于2017-11-28得票数 5

2回答

使用scala统计spark数据帧中列组合的实例

scala、apache-spark、dataframe

我在scala中有一个名为df的spark数据帧，它有两列，即a和b，a列包含字母，b列包含数字，如下所示。).distinct a b g 0 f 1a

浏览 2提问于2015-10-28得票数 9

回答已采纳

3回答

删除spark数据帧中重复的所有记录

scala、apache-spark、duplicates、apache-spark-sql、spark-dataframe

我有一个包含多个列的spark数据帧。我想找出并删除列中有重复值的行(其他列可以是不同的)。我尝试使用dropDuplicates(col_name)，但它只删除重复的条目，但仍然在数据帧中保留一条记录。我需要的是删除所有最初包含重复条目的条目。我使用的是Spark 1.6和Scala

浏览 4提问于2018-04-10得票数 5

回答已采纳

1回答

spark vs pandas dataframe (具有大列) jupyter笔记本中的head(n)

scala、pandas、apache-spark、apache-spark-sql、jupyter-notebook

几天后，数据带来了大量的功能。为了获得简短的数据摘要，人们将数据加载到数据框中，并使用head()方法显示数据。使用Jupyter Notebook( Toree for scala)进行实验是很常见的。Spark (scala)很适合处理大量数据，但是它的head()方法不能在水平滚动的notebook中显示

浏览 3提问于2018-06-13得票数 2

3回答

字符串列包含通过spark* scala进行精确匹配的单词*

scala、apache-spark、apache-spark-sql

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的</

浏览 1提问于2021-02-12得票数 0

1回答

如何删除星火(SCALA)中的整个数据帧？

scala

有一些函数可以删除Spark(SCALA)中的列和行，但是却找不到任何函数来删除整个数据frame.Is，有一种方法可以删除Spark(SCALA)中的数据帧吗？

浏览 0提问于2016-10-15得票数 3

1回答

在spark/scala中的另一个数据框中查找多个列值

scala、dataframe、apache-spark、lookup

我有两个数据帧A和B。A有30列- reason1,reason2.......reason30现在，我需要在B中查找所有以reason*开头的列，并在数据帧A的一列中获取相应的值。因此，最终的数据帧将具有reason1,reason

浏览 9提问于2021-05-17得票数 0

1回答

N列m行的动态数据帧

scala、apache-spark

从json(动态模式)读取数据，并将其加载到dataframe。示例数据帧：import spark.implicits._ (1, "ABC")ABC|| 3| GHIJ|要求:列数和名称可以是任何值。我想在循环

浏览 6提问于2020-06-04得票数 0

回答已采纳

2回答

当表已经存在时，使用spark* dataframe覆盖表失败*

python、postgresql、apache-spark、pyspark

为什么我的代码不能像预期的那样覆盖数据库中的数据？我已经使用客户端检查了该表，并且它确实存在(这应该无关紧要)。而且里面也有数据。怎么了？这会不会是内存问题？(commands.scala:68) at org.apache.spark.sql.execution.command.ExecutedCommandExec.doExecute(commands.scala(RDDOperationScope.<e

浏览 2提问于2019-12-13得票数 1

2回答

Spark-scala聚合列表中的多个列

scala、apache-spark、aggregate

我有一个数据帧，其中有几个数值列是不固定的(它们在每次执行过程中都会发生变化)。假设我有一个带有数字列名称的Seq对象。我想对这些列中的每一列应用一个聚合函数。(c).as(c) 但它给出了以下错误： scala> var avgTktsPerPeriodo =,exprs:

浏览 2提问于2018-09-04得票数 0

1回答

将RDD转换为Dataframe Spark

scala、apache-spark、apache-spark-sql、spark-dataframe

如何在scala中将具有以下结构的RDD转换为dataframe这里，RDD的每一行都包含一个索引Long和一个向量org.apache.spark.mllib.linalg.Vector。我希望将org.apache.spark.mllib.li

浏览 2提问于2017-02-26得票数 2

2回答

将csv文件作为spark数据帧读取

csv、apache-spark、dataframe

我有一个CSV文件和一个头文件，它必须作为数据帧通过Spark(2.0.0和Scala 2.11.8)读取。当我尝试将spark中的csv数据作为数据帧读取时，我遇到了问题，因为标题包含列(No.指项目)具有特殊字符“。我尝试用来读取csv数据的代码是： val spark = SparkSession.bui

浏览 0提问于2017-09-06得票数 3

1回答

Spark - Naive贝叶斯分类器值错误

apache-spark、apache-spark-mllib

我得到了这个错误：model = NaiveBayes.train(dataframe, 1.0) 但是，如果我使用一个数字而不是使用映射

浏览 0提问于2015-04-22得票数 1

2回答

如何在Spark* (2.4) SQL -Scala2.11中避免ArrayType的自动转换*

scala、apache-spark、casting、apache-spark-sql

给定Spark 2.4和scala 2.11中的代码 val df = spark.sql("""select array(45, "something", 45)""") 如果我使用df.printSchema()打印模式，我会看到spark自动转换为字符串CAST(45 AS STRING)。array (nullable = false) | |-- element: stri

浏览 30提问于2020-01-21得票数 3

3回答

如何使用createDataFrame创建pyspark数据帧？

pyspark

我知道这可能是一个愚蠢的问题。

浏览 1提问于2018-03-12得票数 2

回答已采纳

14回答

如何在Spark* Dataframe中显示完整的列内容？*

apache-spark、dataframe、spark-csv、output-formatting

我正在使用spark-csv将数据加载到DataFrame中。我想做一个简单的查询并显示内容：df.registerTempTable("tasks") results = sqlContext.sql("select c

浏览 2594提问于2015-11-17得票数 267

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将1列中的空值替换为另一列中的数据

如何替换所有数字和“。数据帧spark scala中列的"“

如何通过匹配Python中长度不同的字典中的值来替换列值？

在spark/scala中寻找计算数据帧频率分布的方法

AWS胶-不知道如何将NullType保存为红移

使用scala统计spark数据帧中列组合的实例

删除spark数据帧中重复的所有记录

spark vs pandas dataframe (具有大列) jupyter笔记本中的head(n)

字符串列包含通过spark* scala进行精确匹配的单词*

如何删除星火(SCALA)中的整个数据帧？

在spark/scala中的另一个数据框中查找多个列值

N列m行的动态数据帧

当表已经存在时，使用spark* dataframe覆盖表失败*

Spark-scala聚合列表中的多个列

将RDD转换为Dataframe Spark

将csv文件作为spark数据帧读取

Spark - Naive贝叶斯分类器值错误

如何在Spark* (2.4) SQL -Scala2.11中避免ArrayType的自动转换*

如何使用createDataFrame创建pyspark数据帧？

如何在Spark* Dataframe中显示完整的列内容？*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐