使用scala替换spark dataframe列中多次出现的字符串的正则表达式_Scala +如何从文件中替换Spark Dataframe列中的占位符？_使用多次出现的字符串替换 - 腾讯云开发者社区

scala、apache-spark、apache-spark-sql

我有一个列，其中一个特定的字符串出现了多次。出现的次数是不固定的。我可以多次得到这样的字符串。示例:列描述包含以下数据 The account account has been cancelled for the account account account and with the account在这里，基本上我想用一个帐户替换多个并发发生的

浏览 20提问于2021-04-08得票数 0

回答已采纳

7回答

如何在spark的数据中“负选择”列

scala、apache-spark、dataframe、apache-spark-sql

这个df有"A“、"B”和"C“列。现在假设我有一个Array，它包含这个df列的名称：我想以这样的方式来做一个df.select()，这样我就可以指定哪些列不能选择。例如:假设我不想选择列"B“。我试过了但这不起作用，因

浏览 21提问于2015-07-15得票数 22

回答已采纳

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

hadoop、apache-spark、hive、apache-spark-sql

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；是否有更好的方法使用<

浏览 3提问于2017-12-27得票数 0

回答已采纳

1回答

在java中激发Dataframe* sql -如何转义单引号*

apache-spark-sql

我使用的是火花-核心，火花-sql，Spark 2.10(1.6.1)，scala-反射2.11.2。"));commentValueToFilterOut= commentValueToFilterOut.replaceAll("'&quo

浏览 0提问于2018-07-17得票数 2

2回答

为什么$不能处理String类型的值(并且只直接处理字符串文本)？

scala、apache-spark、apache-spark-sql

" val Date = "Date"} 然后，我想按列对

浏览 2提问于2018-01-11得票数 2

回答已采纳

1回答

向dataframe星火/scala添加新列时遇到的问题

scala、apache-spark、dataframe、apache-spark-sql、user-defined-functions

，后者是DF中的列。我试图通过使用DF和when向dateDiff添加一个新列，后者使用dateDiff来获取日期之间的差异。的值没有被转换成字符串来解析为日期。这就是发生的事吗？如果是，如何将列值转换为字符串？下面是我从DF中使用的列的架构： |-- item_due_date: string (nulla

浏览 1提问于2017-11-27得票数 0

回答已采纳

1回答

Spark 1.4.0 org.apache.spark.sql.AnalysisException:无法解决给定输入列的“概率”

java、apache-spark

我目前正在使用Spark 1.4.0，并开始使用ML pipeline framework。使用'probability'方法对模型进行了适当的训练，但是当使用上面示例中的print语句测试模型时，我得到了以下错误:不存在fit列。本专栏仅提供给LogisticRegression吗？如果是这样的话，我可以看到在DecisionTreeClassifier预测输出之后可能出现的

浏览 4提问于2015-07-17得票数 1

1回答

在Spark* Scala中将变换应用于列*

scala、dataframe、apache-spark、apache-spark-sql、user-defined-functions

在Spark 2.40Scala中，将以下转换应用于dataframe中的列的最佳方式是什么？我正在尝试udf或正则表达式替换，但无法达到预期结果。下例中的column_1是一个字符串。数据帧输入： column_1#;#;#; 期望的结果 column_1 null#;null#;Runner#;null

浏览 38提问于2021-08-06得票数 0

回答已采纳

1回答

如何在不使用javaRDD的情况下通过dataframe从hbase获取数据

java

如何在不使用javaRDD的情况下使用dataframe(spark sql)从Hbase获取数据。”行中的异常: hbase.columns.mapping的行字符串的值无效:java.lang.IllegalArgumentException，城市字符串r: city‘at org.apache.hadoop.hbase.spark.DefaultSource.generate

浏览 4提问于2017-05-12得票数 0

4回答

如何使用Java中的spark将数据数据中的特定值替换为空值？

java、apache-spark

我正在努力提高Logistic回归算法在Spark中使用Java实现的准确性。为此，我试图用该列最常见的值替换列中的空值或无效值。例如：-a |a1a |a2b |a2c |d |c1 在本例中，我将将列"Name“中的所有空值替换</

浏览 0提问于2017-06-21得票数 27

回答已采纳

2回答

希望使用scala生成值更改后的唯一Ids。

scala、apache-spark

当值从给定列中的上一行发生变化时，我希望生成唯一的in。我有Scala中的dataframe，并希望将Unique_ID列添加到现有的dataframe中。我不能使用分区或groupBy上的行号作为相同的Product_IDs多次出现，每次到列时都要使用Unique_ID。P

浏览 4提问于2016-04-02得票数 1

回答已采纳

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

scala、apache-spark、dataframe、apache-spark-sql

Scala2.10在这里使用Spark1.6.2。我有一个与类似的(但不是相同的)问题，然而，被接受的答案不是，它假定了关于火花的某种“预先知识”；因此我无法复制它或理解它。(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加一列，然后将

浏览 4提问于2016-10-10得票数 7

回答已采纳

2回答

Spark列rlike将int转换为boolean

regex、scala、apache-spark、spark-dataframe

所以我使用regex和Spark的列rlike从字符串中提取最后一个数字。问题是，在它提取数字后，它会自动转换为布尔值。有没有办法阻止它自动转换为布尔值？$")) 输入：2015 Q 12015 Q 2truetrue预期：1 1 2 2 我尝试将其转换为整数，但它所做的只是返回

浏览 20提问于2017-07-26得票数 1

回答已采纳

1回答

如果regex不能匹配，如何返回null？

scala、apache-spark

我在Scala中使用了spark 2.4。我使用regexp_extract()从数据中提取相关字段：我有一个样本数据：我使用以下正则表达式提取字段\;\&]+)regexp_extract("foo/e/b24449378.277938302;dc_trk_ai

浏览 6提问于2022-07-27得票数 0

1回答

Spark Scala拆分字符串语法问题

apache-spark、apache-spark-sql

我尝试使用SparkSQL和Scala拆分DataFrame列中的字符串，这两种拆分条件的工作方式似乎有所不同使用Scala，这是可行的- val seq = Seq("12.1")val df =

浏览 18提问于2019-01-08得票数 0

回答已采纳

3回答

为什么Spark会将字符串" null“转换为对象null(浮点/双类型)？

scala、apache-spark、apache-spark-sql、spark-dataframe

我有一个包含float和double值的dataframe。scala> val df = List((Float.NaN, Double.NaN), (1f, 0d)).toDF("x", "y")| 1.0| 0.0| +

浏览 2提问于2017-05-12得票数 3

回答已采纳

2回答

使用SQL表达式删除Spark中的重复列

scala、apache-spark、apache-spark-sql

在Spark中，我们如何在删除重复列的情况下运行SQL查询？例如，在spark上运行的SQL查询left outer joinon a.id = b.id 在这种情况下，如何删除重复的列我知道我们可以在Spark中使用其他步骤，比如提供遗憾或重命名列，但是有没有一种更快的方法来简单地通过编写SQL查询来删除重复的<

浏览 8提问于2017-09-10得票数 1

1回答

为什么udf调用dataframe不起作用？

scala、apache-spark

，它将df中的"color“列替换为字符串长度：我将udf引用保存为性能> x.show|UDF(color)|| 8|+----------+ 但是，当我想与udf处理的列一起选择其他列时，我会得到以下

浏览 0提问于2018-11-06得票数 2

回答已采纳

2回答

如何在不从DataFrame转换和访问数据集的情况下向Dataset添加列？

scala、apache-spark

我知道使用.withColumn()向星火.withColumn()添加新列的方法，以及返回DataFrame的UDF。我还知道，我们可以将结果DataFrame转换为DataSet。我的问题是：如果我们仍然遵循传统的DF方法(即将列名作为UDF输入的字符串传递)，DataSet的类型安全性是如何发挥作用的？是否有一种“面向对象的方式”来访问列</e

浏览 1提问于2016-11-15得票数 11

回答已采纳

1回答

spark sql类似于区分大小写吗？

sql、apache-spark、apache-spark-sql

看起来spark sql对" like“查询是区分大小写的，对吧？spark.sql("select distinct status, length(status) from table")Active|6 不返回值 spark.sql("select distin

浏览 8提问于2018-11-28得票数 4

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云