如何在spark (scala)中规范化列中的全角字符

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、

我在dataframe中有一个列，它有全角字符和半角字符。我想将列规范化为半角字符，但我不确定如何做到这一点。,col(Normalizer.normalize($"Domain".toString(), Normalizer.Form.NFKC))) 我希望这会将这个域：@nlb.com (请注意，b是一个全角字符)更改为@nlb.com，但创建的列并未标准化。如何使用java

浏览 51提问于2020-12-02得票数 0

回答已采纳

2回答

为什么$不能处理String类型的值(并且只直接处理字符串文本)？

、、

" val Date = "Date"} 然后，我想按列对

浏览 2提问于2018-01-11得票数 2

回答已采纳

2回答

如何在Apache Spark中根据分隔符将单字符串列转换为多列

、、

我有一个包含字符串列的数据框，我想在其中创建多个列。我想从它创建多个列。字符串的格式是相同的- col1:value1 col2:value2 col3:value3 ... colN:valueN。在输出中，我需要多个列- col1 to colN，值作为每列的行。以下是输出-

浏览 23提问于2021-06-02得票数 0

回答已采纳

1回答

如何在执行DataFrame操作后从spark GroupBy列收集字符串列表？

、、

描述的解决方案(由zero323描述)非常接近于我想要的，只需两个曲折： org.apache.spark.sql.functions.collect_list(Column col)如该问题的解决方案中所描述的</

浏览 2提问于2016-02-10得票数 5

回答已采纳

2回答

如何为现有表生成行号作为列？

、、、

我希望将行号(row_num)创建为MySql中现有表的列，通过spark并行读取数据库(即分区列，因为表中的所有列都是字符串)。(ParseDriver.scala:197) at org.apache.spark.sql.catalyst.parser.AbstractSqlParser.parse(ParseDriver.scala(ParseDriver.scala

浏览 8提问于2017-10-16得票数 0

回答已采纳

1回答

java，如何在spark* 1.4.1中调用UDF*

、、、

在spark 1.4.1中，callUdf方法的参数是没有任何方法可以直接作用于列，如1.5.1中的方法那么如何在1.4.1中调用UDF呢？或如何将列类型更改为 scala.collectio

浏览 1提问于2016-11-28得票数 0

回答已采纳

1回答

如何在不使用javaRDD的情况下通过dataframe从hbase获取数据

如何在不使用javaRDD的情况下使用dataframe(spark sql)从Hbase获取数据。").options(map).load(); 异常：-线程“主”行中的异常: hbase.columns.mapping的行字符串的值无效:java.lang.IllegalArgumentException，城市字符串r: city‘at org.apache.hadoop.hbase.spark.Def

浏览 4提问于2017-05-12得票数 0

1回答

在dataframel中调用具有多个参数的Udf失败

、、、、

我在Scala和spark sql中工作，在那里我想调用UDF，它有多个参数。: org.json.JSONObject, arg1: String, arg2: String = ""): String = {} 我这样称呼它，这里的字段是SeqString，数据列包含json字符串 for(field <- fields){ df.withColumn(field, parseJsonUdf(col("data"), li

浏览 17提问于2020-06-19得票数 0

1回答

使用列比例列表进行Spark选择

、

我正在尝试找到一种使用List[ column，我正在分解一个列，而不是用我的分解列传回所有我感兴趣的列]来进行spark select的好方法。var columns = getColumns(x) // Returns a List[Column]试图找到一种好的方法，我知道，如果它是一个字符串，我可以这样做 val resu

浏览 0提问于2016-10-07得票数 9

回答已采纳

2回答

Apache :从Row提取值的问题

、、、

我和星火的排课有很多问题。在我看来，排课是一门设计很差的课程。从Row提取值应该并不比从Scala列表中提取值更困难；但是在实践中，您必须知道列的确切类型才能提取它。您甚至不能将列转换为字符串；对于一个伟大的框架(如Spark )来说，这有多荒谬呢？在现实世界中，在大多数情况下，您不知道列的确切类型，而且在许多情况下，您有几十个或数百个列。下面是一个示例，向您展示

浏览 0提问于2018-03-23得票数 1

回答已采纳

1回答

如何使用scala连接到Apache中的postgreSQL数据库？

、、

我想知道如何在scala中执行以下操作？编写SQL查询，如SELECT、UPDATE等，以修改数据库中的表。我知道如何使用scala来实现它，但是如何在打包时将psql scala的连接器jar导入sbt？

浏览 0提问于2014-07-23得票数 40

回答已采纳

2回答

如何在不从DataFrame转换和访问数据集的情况下向Dataset添加列？

、

我知道使用.withColumn()向星火.withColumn()添加新列的方法，以及返回DataFrame的UDF。我还知道，我们可以将结果DataFrame转换为DataSet。我的问题是：如果我们仍然遵循传统的DF方法(即将列名作为UDF输入的字符串传递)，DataSet的类型安全性是如何发挥作用的？是否有一种“面向对象的方式”来访问列(而不是将列名作为字符串传递)，

浏览 1提问于2016-11-15得票数 11

回答已采纳

1回答

为什么LogisticRegression在"IllegalArgumentException: IllegalArgumentException“中失败？

、、、

我试图运行简单的逻辑回归程序在火花。我得到了这个错误:我试图包含各种语言来解决问题，但这并不是解决问题。java.lang.IllegalArgumentException:需求失败:列pmi必须是org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7类型，但实际上是DoubleType，更新从dataset中删除了string value属性，该数据集是label。:128) at scala.collection.AbstractMap.getOrElse(

浏览 7提问于2017-06-30得票数 2

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

、、、

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；是否有更好的方法使用spark

浏览 3提问于2017-12-27得票数 0

回答已采纳

1回答

如何使用scala中的星火流将索引列附加到星火数据帧？

、

我用的是这样的东西：但我得到了一个例外，因为它不被支持：at org.apache.spark.sql.streaming.StreamingQueryManager.createQuery(StreamingQueryManager.

浏览 3提问于2021-01-05得票数 1

1回答

如何创建countVectorizer模型的一个列中包含值数组的火花数据

、、

中创建第4列，其中包含所有这3列的值数组，如| indiana|需要这个数组，因为countVectorizer模型的输入应该是包含值数组的列。它不应该像下面的错误消息中提到的那样是字符串数据类型：线程"main

浏览 1提问于2017-09-05得票数 0

回答已采纳

3回答

Spark:将字符串列转换为数组

、、

如何将作为字符串读取的列转换为数组列？即从下面的模式转换root |-- b: string (nullable = true) | a| b|| 1|2,3|| 2|4,5|至： scala> test1.printSchema另外，我如何在读取文件

浏览 1提问于2017-06-22得票数 20

回答已采纳

1回答

吡火花:如何使用列指定重新平衡分区提示

、、、

举个例子，让我们假设我们以下尝试失败：...如果不按名称(即简单字符串)指定列，如何指定这些列？")).explain() Type

浏览 15提问于2022-06-15得票数 0

回答已采纳

0回答

如何使用Spark* scala RDD获得基于两列的运行和*

、、

我有RDD的数据，其中有4列，如地理，产品，时间和价格。我想计算基于geog和time的运行总和。我需要像这样的结果。我需要这个spark-Scala-RDD。我是Scala领域的新手，我可以用SQL轻松实现这一点。我想在spark -Scala -RDD中这样做，就像使用(地图，平面地图)一样。提前感谢您的帮助。

浏览 3提问于2017-01-11得票数 0

1回答

Scala MurmurHash3库与Spark Hash函数不匹配

、

Scala MurmurHash3库不匹配Spark Hash函数scala和spark使用相同的Murmur hash3实现，但结果不同。有什么想法吗？

浏览 0提问于2020-07-27得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云