在spark scala中编写withcolumn的泛型函数_编写在scala中调用泛型函数的泛型函数_如何在scala中编写泛型函数？ - 腾讯云开发者社区

scala、spark-streaming、spark-dataframe

在这里，我试图将时间戳动态地添加到数据帧中， {“行动”：“事件”、"id":1173、"lat":0.0、"lon":0.0、"rollid":55、"event":"type“、"ccd":0、"fone":"ione”、"version":"10.1“、"item":"shack"} 在上面输入的数据中，im试图用下面的代码追加时间戳 foreachRDD(rdd=> 74

浏览 1提问于2017-01-17得票数 0

1回答

Scala: array.toList vs array.to[List]

arrays、scala

我想知道在数组中.toList和.toList有什么不同。我在spark-shell中做了这个测试，结果没有区别，但我不知道使用哪个更好。有什么意见吗？ scala> val l = Array(1, 2, 3).toList l: List[Int] = List(1, 2, 3) scala> val l = Array(1, 2, 3).to[List] l: List[Int] = List(1, 2, 3)

浏览 14提问于2019-08-15得票数 3

回答已采纳

1回答

激发UDF将列值拆分为多列。

scala、apache-spark、apache-spark-sql、apache-spark-2.0

我有一个名为“description”值的dataframe列，格式如下 ABC XXXXXXXXXXXX STORE NAME ABC TYPE1 我想把它解析成3列，如下所示 | mode | type | store | description | |------------------------------------------------------------------------| | ABC | TYPE1 | STORE NAME | ABC XXXXXXXXXXXX STORE NAM

浏览 1提问于2018-10-06得票数 3

回答已采纳

1回答

创建一个新的列，方法是读取json字符串中的不一致模式。

json、pyspark、apache-spark-sql、databricks

我有一个pyspark dataframe，其中重要信息作为json字符串存储在列中，这些字符串具有类似但不一致的模式。我的问题提出了三个问题，如下所述：如果要用json字符串列平平数据格式，应该创建一个新的结构列并使用explodeDo 将单个单元格值传递给它们包装的函数？如何将每个条目的不同长度和字段的json数组加载到单个列中？这种情况既发生在databricks中，也发生在火花放电的本地安装中。此代码可以生成此表的MWA： from pyspark.sql.functions import from_json from pyspark.sql.types import * j

浏览 6提问于2022-02-03得票数 0

1回答

Py4JJavaError同时将PySpark数据写入Parquet文件

python、apache-spark、hadoop、pyspark、parquet

总之，我有100 k行数据作为csv文件。这是它的样本： ID，姓名，姓氏，生日，详细信息 0，Agjqyru，Qtltzu，1923-02-23，{City=Neftchala，Gender=male，Education=collage} 1，Zkaczi，Gvuvwwle，2002-02-28，{City=Mingachevir，Gender=female，Education=doctor} 2，Hkbfros，Llmufk，1948-02-29，{City=Ujar，Gender=male，Education=collage} 3，Dddtulkeo，Fdnccbp，1903-07-0

浏览 4提问于2021-11-26得票数 1

回答已采纳

1回答

无法合并Scala Spark中的两个DataFrames

scala、apache-spark、merge

我一直在尝试将1个DataFrame附加到Scala中的另一个DF上。本例中的追加操作只是将一个相同大小的新列添加到现有列中-不涉及键匹配。两个DataFrames的形状相同(仅5行1列)。 scala> val coefficients = lrModel.coefficients.toArray.toSeq.toDF("coefficients") coefficients: org.apache.spark.sql.DataFrame = [coefficients: double] scala> coefficients.show() +---------

浏览 8提问于2017-08-05得票数 0

回答已采纳

1回答

当我尝试动态转换列并分配排序顺序时，Scala +Spark+Dataframe异常

scala、sorting、apache-spark、casting、comparator

我希望使用选定的列对数据进行排序，方法是将它们从giving类型转换为prederred类型和prederred order。，但是即使是简单的列转换也不起作用，从而导致了这种异常。我在这里提供了示例代码。 val conf = new SparkConf().setAppName("Sparkify").setMaster("local[*]") val sparkContext =new SparkContext(conf) val sqlContext = new SQLContext(sparkContext) var d

浏览 1提问于2016-04-14得票数 1

回答已采纳

2回答

向星火DataFrame添加随机值列时出错

scala、apache-spark、apache-spark-sql

当我想在Spark2.2中重命名我的DataFrame列并使用show()打印它的内容时，我会得到以下错误： 18/01/04 12:05:37 WARN ScalaRowValueReader: Field 'cluster' is backed by an array but the associated Spark Schema does not reflect this; (use es.read.field.as.array.include/exclude) 18/01/04 12:05:37 WARN ScalaRowValueRead

浏览 3提问于2018-01-04得票数 0

回答已采纳

2回答

如何使用python或Scala将复杂的SQL查询转换为spark-dataframe

python、scala、apache-spark、pyspark、apache-spark-sql

我已经在spark中使用sqlcontext进行了一次转换，但我只想使用Spark Data frame来编写相同的查询。此查询包含join操作和SQL的case语句。sql查询编写如下： refereshLandingData=spark.sql( "select a.Sale_ID, a.Product_ID," "CASE " "WHEN (a.Quantity_Sold IS NULL) THEN b.Quantity_Sold "

浏览 0提问于2020-10-18得票数 0

1回答

将spark dataframe map列转换为json

scala、apache-spark、apache-spark-sql、spark-dataframe、json4s

浏览 2提问于2018-04-12得票数 1

2回答

带纪元时间戳的spark读取csv

scala、csv、apache-spark

我有一个包含以下模式和数据示例的CSV文件： userId,movieId,tag,timestamp 28,63062,angelina jolie,1263047558 我有下面的代码来读取这个文件。 import org.apache.spark.sql.types._ val inputPath = "FileStore/tables/o8pa07nd1495067426592/tags.csv" val customSchema = StructType(Array( StructField("userId", StringType, tr

浏览 21提问于2017-06-24得票数 0

1回答

pyspark pandas_udf函数出错，随后是官方示例

pyspark、user-defined-functions

我关注了官方文档(pyspark version=2.4.4)： df = spark.createDataFrame([(1, "John Doe", 21)], ("id", "name", "age")) slen = pandas_udf(lambda s: s.str.len(), IntegerType()) df.select(slen("name")).show() @pandas_udf(StringType()) def to_upper(s): return s.str.upper(

浏览 0提问于2019-10-19得票数 0

1回答

ValueError:未能将字符串转换为浮点数/无效文本用于float()

python、pyspark、spark-dataframe、k-means

我试图使用火花数据作为输入我的k-均值模型。不管怎么说，我总是犯错误。(检查代码后的部分) 我的看起来像这样(大约有100万行)： ID col1 col2 Latitude Longitude 13 ... ... 22.2 13.5 62 ... ... 21.4 13.8 24 ... ...

浏览 2提问于2017-07-06得票数 2

1回答

PySpark -使用df.select(*column_list)后错误"IndexOutOfBoundsException: No group 2“

python、apache-spark、pyspark

我找了又找，但我找不到答案。我有一个函数，它本质上将列(根据它们的名称和数据类型)排序为我的公司在将DataFrames保存到SQL之前所需的特定顺序。我知道这个功能起作用。它所做的就是输出一个列列表(在源DataFrame中找到)。我调用这个排序列名列表col_list，并使用它作为df.select()的参数。这种方法几个月来一直行之有效。但是，在一个特定的项目中，当我试图通过以下方法将排序应用于数据访问时： df = df.select(*col_list) ...I得到了以下错误： org.apache.spark.SparkException: Job aborted due t

浏览 11提问于2022-04-13得票数 0

2回答

Spark Scala - rdd distinct nullpointerexception异常

scala、apache-spark

我正在使用spark完成一些小步骤，我的练习是将一个JSON文件加载到RDD中，选择一个列，然后使用distinct来获得惟一的值。我过滤的列包含多个值(CSV行)，必须拆分。 val sqlContext = spark.sqlContext import org.apache.spark.sql.hive.HiveContext val hiveCtx = new HiveContext(sc) import hiveCtx.implicits._ val bizDF = hiveCtx.jsonFile("/home/xpto/Documents/PersonalProjects

浏览 5提问于2020-12-02得票数 0

1回答

要检查的UDF是非零向量，不工作后CountVectorizer通过火花提交。

scala、apache-spark、apache-spark-mllib、minhash

根据这个，我正在应用udf来过滤CountVectorizer之后的空向量。 val tokenizer = new RegexTokenizer().setPattern("\\|").setInputCol("dataString").setOutputCol("dataStringWords") val vectorizer = new CountVectorizer().setInputCol("dataStringWords").setOutputCol("features") val pipeline

浏览 3提问于2018-02-12得票数 1

1回答

在多个dataframe列上，是否有一个吡火花函数可以给我两个小数位呢？

pyspark、apache-spark-sql

我对编码很陌生，对、pyspark、和python也很陌生(新的意思是我是个学生，正在学习它)。我的代码不断出错，我不知道为什么。我要做的是让我的代码给我一个2小数点的输出，如下所示。下面是我希望输出的示例输出： +------+--------+------+------+ |col_ID| f.name |bal | avg. | +------+--------+------+------+ |1234 | Henry |350.45|400.32| |3456 | Sam |75.12 | 50.60| +------+--------+------+------+

浏览 2提问于2021-04-17得票数 0

2回答

将Array[string]类型的两列合并为新的Array[string]列

scala、apache-spark、apache-spark-sql、user-defined-functions

我在Spark DataFrame中有两列，每一列中的每个条目都是字符串数组。 val ngramDataFrame = Seq( (Seq("curious", "bought", "20"), Seq("iwa", "was", "asj")) ).toDF("filtered_words", "ngrams_array") 我希望合并每一行中的数组，以便在新列中生成单个数组。我的代码如下： def concat_array(firstarray: Arra

浏览 1提问于2018-03-07得票数 9

回答已采纳

4回答

无法在Spark (Scala)中的数据帧上执行用户定义函数

scala、apache-spark、user-defined-functions

我有一个数据帧df，如下所示 +--------+--------------------+--------+------+ | id| path|somestff| hash1| +--------+--------------------+--------+------+ | 1|/file/dirA/fileA.txt| 58| 65161| | 2|/file/dirB/fileB.txt| 52| 65913| | 3|/file/dirC/fileC.txt| 99|1310

浏览 30提问于2019-04-01得票数 2

回答已采纳

1回答

org.apache.spark.SparkException:由: java.io.NotSerializableException引起的不可序列化的任务

scala、apache-spark

我有两个Scala代码-- MyMain.scala和MyFunction.scala，分别构建和构建的MyFunction jar将在MyMain中充当UDF。 MyFunction.scala基本上包含一个带有公共方法public String myFunc(String val0, String val1)的Java类。该项目是在SBT中构建的，build_jar编译输出作为工件存储(只存储所需的类，即MyFunction.class，而不是依赖项)。 MyMain.scala将上述工件jar导入lib文件夹下，并使用unmanagedBase := baseDirectory.valu

浏览 1提问于2019-10-27得票数 2

回答已采纳

1回答

在PySpark中使用Flashtext提取关键字

pyspark-dataframes

我正在尝试从PySpark数据文件中的一列菜单名称中提取关键字。下面是如何生成关键字处理器。keywords是一个关键字列表，如['sandwiches', 'burgers', ...]。 from flashtext import KeywordProcessor kp = KeywordProcessor() for keyword in keywords: kp.add_keyword(keyword) 我定义了一个从菜单名称中提取关键字的函数。 def extractKeywords(menu_name, kp=kp): keywo

浏览 3提问于2019-11-11得票数 1

回答已采纳

1回答

Spark Scala上的java.lang.NullPointerException问题

scala、apache-spark

我有地理区域表和地点表，在位置表中我只有geoarea_id，而在地理区域表中我有id和名称我的目标是创建一个接受geoarea_id数组并在names数组中进行转换的函数声明这些表： val geoareas = ( spark.table("location.geoareas") ) val places = ( spark.table("location.places") .select('id, 'name, 'geoareas, 'lat, 'lng) ) 功能： import

浏览 55提问于2019-10-07得票数 0

1回答

spark:只拆分dataframe中的一列，并保持其余列不变

scala、apache-spark、hadoop

我正在读取spark dataframe中的文件。在第一列中，我将获得两个用"_“连接的值。我需要将第一列拆分为两列，并保持其余列不变。我正在使用Scala和Spark 例如： col1 col2 col3 a_1 xyz abc b_1 lmn opq 我需要有新的DF作为： col1_1 col1_2 col2 col3 a 1 xyz abc b 1 lmn opq 只需将一列拆分为两列。我尝试使用df.select的拆分函数，但我需要为剩余的列编写select，并考虑具有100列

浏览 32提问于2019-05-01得票数 0

1回答

获取具有map数据类型列的两个spark数据帧之间的差异

scala、apache-spark、apache-spark-sql

我有两个具有map数据类型列的dataframe。我尝试使用传统的except方法来获取两个数据帧之间的差异，但是我得到了下面的错误。 scala> val outputDF = Seq( | (1, "Visa", 0, Map("Visa" -> 1)), | (2, "MC", 2, Map("Visa" -> 1, "MC" -> 1)), | (3, "Amex", 0, Map("Amex" -> 1)),

浏览 1提问于2020-10-28得票数 0

2回答

将稀疏特征向量分解为单独的列

scala、apache-spark、apache-spark-sql、apache-spark-mllib、apache-spark-ml

在我的spark DataFrame中，有一列包含了CountVectoriser转换的输出-它是稀疏向量格式的。我想要做的是将这列再次“分解”成一个密集的向量，然后是它的组成部分行(这样它就可以用于外部模型的评分)。我知道本专栏中有40个特性，因此在下面的示例中，我尝试了： import org.apache.spark.sql.functions.udf import org.apache.spark.mllib.linalg.Vector // convert sparse vector to a dense vector, and then to array<double&g

浏览 12提问于2018-01-30得票数 2

回答已采纳

1回答

toString数据Pyspark数据帧

apache-spark、pyspark、rdd

我正在尝试对一个列执行一些正则表达式操作。为了做到这一点，我用如下的基本小写操作进行了说明： df.select('name').map(lambda x: x.lower()) 这里的df是一个DataFrame，当我调用collect()操作时，该操作抛出了一个异常。 Ques 1: After map(or reduce) operation, every DataFrame converts to a Pipelined RDD. Am I right? 如果是这样，为什么这个命令在收集流水线RDD时抛出异常。我错过了什么吗？异常太大，无法读取： 17/07

浏览 11提问于2017-07-07得票数 0

回答已采纳

2回答

大型数据集的火花崩溃

python、apache-spark、pyspark

我正在学习火花放电，但遇到了这个错误。我已经坚持了几个小时了。我在StackOverflow上看到了许多问题，但大多数问题要么增加了驱动程序内存，要么增加了执行器内存。我也尝试过，但似乎没有发挥作用。如果这里的任何人都经历过这样的错误，我们将非常感谢您的帮助。如果我有一个较小的数据集，同样的代码也能工作，但是当我使用一个大数据集时，这个错误再次出现。我的笔记本电脑配置： Windows 10 home Pyspark 2.4+ Java 8 python 3.5 and pypy RAM: 16GB spark-defaults.conf spark.master

浏览 1提问于2020-10-13得票数 0

回答已采纳

3回答

如何使用在星火联接中创建的列？-歧义错误

scala、apache-spark

在scala中，我已经与此进行了一段时间的斗争，我似乎无法找到一个明确的解决方案。我有两个数据： val Companies = Seq( (8, "Yahoo"), (-5, "Google"), (12, "Microsoft"), (-10, "Uber") ).toDF("movement", "Company") val LookUpTable = Seq( ("B", "Buy"), ("S", "Sell

浏览 1提问于2019-11-11得票数 0

回答已采纳

2回答

具有自动分区发现功能的Spark读取多路径

scala、apache-spark、spark-avro

我正在尝试从多个路径读取一些avro文件到DataFrame。假设我的路径是这个路径下的"s3a://bucket_name/path/to/file/year=18/month=11/day=01"，我还有两个分区，假设是country=XX/region=XX 我想一次读取多个日期，而不需要明确命名国家和地区分区。此外，我希望国家和地区是这个DataFrame中的列。 sqlContext.read.format("com.databricks.spark.avro").load("s3a://bucket_name/path/to/file/yea

浏览 2提问于2018-12-03得票数 2

1回答

重新格式化scala代码和if/ else语句

scala、apache-spark、apache-spark-sql

我已经编写了Scala代码与spark dataframe相结合。起初，它是有效的(只有当我不使用if else语句时)。虽然它不是一个干净的代码，但我想知道如何转换它？其次，if/ else语句不起作用，我如何像python中那样将值附加到上面的变量中，并在以后将其用作dataframe？对不起，我是Scala的新手。 %scala for(n <- Scalaconfigs){ var bulkCopyMetadata = new BulkCopyMetadata val sourceTable = n(0) val tar

浏览 3提问于2018-08-24得票数 0

回答已采纳

1回答

从avro文件中获取火花dataframe列中每一行的数据

dataframe、scala、apache-spark

我正在尝试处理我的dataframe中的一个列，并从每个条目对应的avro文件中检索一个度量。基本上，我想做以下几点：读取路径列的每一行，这是作为数据读取到avro文件中的avro文件的路径&获取精度度量，它以Struct的形式创建一个名为的新列，该列具有精度度量。这也可以看作是应用spark.read.format("com.databricks.spark.avro").load(avro_path)，但适用于Path列中的每一行。这是我的输入数据： +----------+-----+--------------------------+ |timestam

浏览 4提问于2022-07-01得票数 0

3回答

在pyspark中读取嵌套的JSON文件

json、pyspark

我想要从hdfs中的json文件中创建一个。 json文件有以下内容： {“产品”：{ "0"：“桌面计算机”、"1"：“平板电脑”、"2"："iPhone“、"3"：”膝上型计算机“}、”价格“：{ "0"：700、"1"：250、"2"：800、"3"：1200 } 然后，我使用pyspark 2.4.4 df = spark.read.json("/path/file.json")读取了这个文件所以，我得到了这样的结果： df.

浏览 1提问于2019-09-05得票数 8

回答已采纳

1回答

无法使用sparkDataframe:org.apache.spark.sql.AnalysisException:获取Json列，无法解析'explode；

json、scala、apache-spark、apache-spark-sql

有人能在这个场景中帮助我吗?我正在使用spark/scala读取一个Json文件，然后尝试访问列名，但在访问列名时，我得到了下面的错误消息。 org.apache.spark.sql.AnalysisException: cannot resolve 'explode(`b2b_bill_products_prod_details`.`amt`)' due to data type mismatch: input to function explode should be array or map type, not DoubleTy

浏览 58提问于2020-07-11得票数 0

回答已采纳

1回答

星星之火数据格式列名未被识别

scala、apache-spark

，df有以下列名： scala> df.columns res6: Array[String] = Array(Age, Job, Marital, Education, Default, Balance, Housing, Loan, Contact, Day, Month, Duration, Campaign, pdays, previous, poutcome, Approved) 通过列名对df的sql查询工作得很好： scala> spark.sql(""" select Age from df limit 2 ""

浏览 0提问于2018-05-14得票数 1

回答已采纳

1回答

MapType在Spark3.x: Encoders.bean中导致一个map<String对象的AnalysisException，someClass>失败，这在Spark2.4中工作得很好

java、apache-spark

试图将Java代码从2.4迁移到3.x，我有一个数据集--一个包含MapType的数据集。 /** * Renvoyer le schéma du Dataset. * @return Schema. */ public StructType schemaEntreprise() { StructType schema = new StructType() .add("siren", StringType, false) .add("statutDiffusionUniteLegale", StringType, true)

浏览 2提问于2020-10-13得票数 7

回答已采纳

1回答

Scala火花UDF函数，它接受输入并将其放入数组中

scala、apache-spark、apache-spark-sql、user-defined-functions

我正在尝试为Spark创建一个Scala，它可以在Spark中使用。该函数的目标是接受任何列类型作为输入，并将其放入ArrayType中，除非输入已经是ArrayType。下面是我到目前为止掌握的代码： package com.latitudefinancial.spark.udf import org.apache.spark.sql.api.java.UDF1 import org.apache.spark.sql.types._ import org.apache.spark.sql.SparkSession class GetDatatype extends UDF1[Obj

浏览 8提问于2022-05-06得票数 0

1回答

Spark Structured streaming -使用模式从文件读取时间戳

apache-spark、spark-structured-streaming

我正在做一个结构化的流媒体工作。我从文件中读取的数据包含时间戳(以毫秒为单位)、deviceId和该设备报告的值。多个设备报告数据。我正在尝试编写一个作业，将所有设备发送的值聚合(和)到1分钟的滚动窗口中。我遇到的问题是时间戳。当我试图将"timestamp“解析为Long时，窗口函数抱怨它需要"timestamp type”。当我试图像下面的代码片段那样解析成TimestampType时，我得到了.MatchError异常(完整的异常可以在下面看到)，我正在努力找出原因以及正确的处理方法 // Create schema StructType readSchema

浏览 16提问于2021-04-19得票数 0

回答已采纳

1回答

将简单值从映射映射到spark DataFrame错误

scala、apache-spark、apache-spark-sql

我最近开始在Scala中使用Spark，我发现自己处于这样一种情况:我想要将一些值从hashmap/map映射到dataframe，而不必构造新的dataframe，然后执行某种连接。我有这个数据框架： +---+-------+---+----------+---------+ | id| name|age| date|genderKey| +---+-------+---+----------+---------+ | 1|Rodrigo| 30|2019-01-01| male| | 2|Roberto| 23|2019-01-01| male| |

浏览 2提问于2020-04-10得票数 0

1回答

向现有DataFrame添加mapType列

scala、dataframe、apache-spark

关于Spark中的Scala中的DataFrames，我有一个简单而快速的问题。我有一个现有的Spark DataFrame (在Scala2.10.5和Spark 1.6.3上运行)，我想用ArrayType或MapType添加一个新列，但不知道如何实现。但不知道该怎么处理。我不想用“单一”值创建多个列，而是将它们存储在一个列中。这将缩短我的代码，并使其更容易更改。 import org.apache.spark.sql.types.MapType ... // DataFrame initial creation val df = ... // adding new columns

浏览 9提问于2019-11-20得票数 0

1回答

如果方案为空或嵌套为空，则无法将数据框写入宗地文件

scala、apache-spark、amazon-s3、apache-spark-sql、parquet

我对scala和spark都很陌生。我有一个非常愚蠢的问题。我有一个从elasticsearch创建的数据框架。我正试图用拼图格式编写那个s3。下面是我看到的代码块和错误。一个好心的撒玛利亚人能在这个问题上给我指点一下吗？ val dfSchema = dataFrame.schema.json // log.info(dfSchema) dataFrame .withColumn("lastFound", functions.date_add(dataFrame.col("last_found"), -457

浏览 14提问于2019-08-25得票数 1

回答已采纳

1回答

scala程序搜索最近的值

scala、apache-spark、bigdata

我想基于下面的hive创建一个df： WITH FILTERED_table1 AS (select * , row_number() over (partition by key_timestamp order by datime DESC) rn FROM table1) scala function: import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.functions._ import org.apache.spark.sql.SparkSession val table1 = Wi

浏览 0提问于2018-08-28得票数 0

回答已采纳

1回答

火花的快速数字散列函数(PySpark)

pyspark、amazon-emr、crc32、hash-function

我正在尝试将哈希函数应用于PySpark DataFrame (在EMR集群上运行)的列中的短字符串，并获得一个数字值作为新列。例如，CRC3会做这项工作。我知道this question，但它是Scala的，我需要一个python版本。 (顺便说一句，我知道pyspark.sql.functions中的sha1和sha2，但我需要一个更快的散列函数，它只返回一个数字，比如校验和(但冲突尽可能少)。) 我做了以下工作： import zlib crc32 = udf(zlib.crc32) df2= df.withColumn("crc32", crc32(col("

浏览 15提问于2019-10-16得票数 3

1回答

(PySpark)创建一个新的数组列，其中包含列表列和静态列表的二进制比较结果

python、apache-spark、pyspark

场景我有一个包含以下数据的数据： import pandas as pd from pyspark.sql.types import ArrayType, StringType, IntegerType, FloatType, StructType, StructField import pyspark.sql.functions as F a = [1,2,3] b = [['a', 'b', 'c'], ['d', 'e', 'f'], ['g', 'h',

浏览 9提问于2022-10-09得票数 1

回答已采纳

1回答

浇铸列时的星火SQL - java.lang.UnsupportedOperationException: empty.init

java、scala、apache-spark、apache-spark-sql

在试图对列执行强制转换(从带有头的逗号分隔的csv文件中读取)时，我会得到以下错误。下面是我使用的代码： var df = spark.read.option("header","true").option("delimiter",",").csv("/user/sample/data") df.withColumn("columnCast", expr("CAST(SaleAmount) AS LONG")).count 这将导致每次引发下列异常。我试过不同的栏目，当铸造和一些抛

浏览 1提问于2019-11-26得票数 1

回答已采纳

1回答

Apache-Sedona with Pyspark - java.lang.ClassCastException：[B不能强制转换为org.apache.spark.unsafe.types.UTF8String

apache-spark、binary、geospatial、geospark

我正在从spark中的拼图加载数据，其中一列是Binary Type。我想要将此列转换为几何类型，为此我使用Apache Sedona/GeoSpark。我使用st_geomfromwkb来完成此操作，但遇到错误 df = spark.read.parquet("dbfs:/FileStore/tables/geometry.parquet") df.printSchema() root |-- geo_key: string (nullable = true) |-- STATEFP: string (nullable = true) |-- geometr

浏览 107提问于2021-09-19得票数 2

1回答

添加新列DataFrame Spark

apache-spark-sql

我尝试通过在dataframe中添加一个新列来使用SparkSQL。我的守则是： val df= sc.read.json("C:/Users/A661758/Desktop/TEST-XSLT.json") df.withColumn("UID", new org.apache.spark.sql.Column("UID")) 错误：'**UID**‘给定的输入列无法解析：我使用Spark2.1.0和Scala2.11.8 谢谢。

浏览 1提问于2017-03-14得票数 1

2回答

无法在文件中转换拼花列，预期: bigint，查找: INT32

apache-spark、pyspark、amazon-emr、parquet、aws-glue

我有一个带有tlc列的胶水表，它的数据类型是Bigint。我试图使用PySpark执行以下操作：读取Glue表并将其写入dataframe 与另一个表，将结果数据写入S3 path 我的代码看起来是： df = spark.sql('select tlc from monthly_table') df.createOrReplaceTempView('sdc') df_a = spark.sql('select tlc from monthly_table_2') df_a.createOrReplaceTempView('abc&#

浏览 4提问于2020-03-24得票数 10

1回答

从Databricks笔记本向Azure Eventhubs发送火花数据帧时出错(java.lang.NoSuchMethodError)

python、azure、pyspark、azure-databricks、azure-eventhub

我需要从我的Databricks笔记本上发送一个到一个Eventhub。这个问题发生在代码的这一部分： ehWriteConf = { 'eventhubs.connectionString' : EVENT_HUB_CONNECTION_STRING } def send_to_eventhub(df:DataFrame): ds = df.select(struct(*[c for c in df.columns]).alias("body"))\ .select("body")\ .write.form

浏览 10提问于2022-10-05得票数 0

1回答

如何将发电机数据库表中的数据读入dataframe？

scala、apache-spark、amazon-dynamodb、dynamodb-queries

下面是我试图从发电机数据库中读取数据并将其加载到数据帧中的代码。使用scanamo也可以做到这一点吗？ import org.apache.hadoop.io.Text; import org.apache.hadoop.dynamodb.DynamoDBItemWritable import org.apache.hadoop.dynamodb.read.DynamoDBInputFormat import org.apache.hadoop.dynamodb.write.DynamoDBOutputFormat import org.apache.hadoop.mapred.JobCo

浏览 25提问于2019-12-17得票数 1

回答已采纳

2回答

星火无法计算表达式:窗口表达式的滞后

scala、apache-spark、cassandra、spark-cassandra-connector

我试图对cassandra表中的数据文件执行大量操作，然后将其保存在另一个表中。其中一项行动如下： val leadWindow = Window.partitionBy(col("id")).orderBy(col("timestamp").asc).rowsBetween(Window.currentRow, 2) df.withColumn("lead1", lag(sum(col("temp1")).over(leadWindow), 2, 0)) 当我运行我的工作时，我会得到一个异常，说明不能计算lag操作。 2018-

浏览 0提问于2018-10-01得票数 5

回答已采纳