如何在Spark (Scala)中将数组中的每一行分解为列？_如何在spark scala中将数组的列改为分隔列？_如何在Xamarin中将图像放在一行内的每一列中？ - 腾讯云开发者社区

apache-spark、apache-spark-sql

在spark-sql中，我有一个列为col的数据帧，其中包含一个大小为100的Int数组(例如)。我希望将该列聚合为一个值，该值是一个大小为100的Int数组，它包含该列中每个元素的总和。可以通过调用以下方法来完成此操作： dataframe.agg(functions.array((0 until 100).map(i => functions.sum(i)) : _*)) 这将生成明确执行100个聚合的代码，然后将100个结果显示为包含100个项的数组。然而，这似乎非常低效，因为如果我的数组大小超过大约1000项，catalyst甚至无法为此生成代码。在spark-sql中有没有一

浏览 2提问于2018-10-17得票数 0

2回答

如何在行中计数值

scala、multidimensional-array、apache-spark、row

我对Spark和Scala...and都是新手，我必须读取一个数据文件，并计算列和行中包含的值。数据集的结构如下： 0 0 2 0 2 2 0 2 0 2 0 0 0 0 0 0 1 0 为了在每一栏中计算"2“的数目：我导入了文件： val ip = sc.textFile("/home/../data-scala.txt") 我创建了一个数组来保存我的结果 var ArrayCol = Array.ofDim[Long](3) val cols = ip.map(line => line.split(" ")) for (i <-

浏览 6提问于2015-07-22得票数 1

回答已采纳

2回答

如何使用Spark写入PostgreSQL hstore

postgresql、jdbc、apache-spark、spark-dataframe、hstore

我正在尝试将星火数据集写入现有的postgresql表中(不能像列类型一样更改表元数据)。这个表中的一个列是类型的，它造成了麻烦。在启动写入时，我看到了以下异常(此处原始映射为空，转义时为空字符串)： Caused by: java.sql.BatchUpdateException: Batch entry 0 INSERT INTO part_d3da09549b713bbdcd95eb6095f929c8 (.., "my_hstore_column", ..) VALUES (..,'',..) was aborted. Call getNextExc

浏览 4提问于2016-12-05得票数 7

回答已采纳

1回答

如何在Apache中使用saveAsTextFile()函数？

apache-spark

我是新来的火花，我有一些问题，登记信息在一个文件。问题如下：我使用以下命令声明了avglens RDD： var avglens = sc.textFile("C:/Program Files/spark-3.1.1-bin-hadoop2.7/README.md") .flatMap(line => line.split(' ')) .map(word => (word(0), word.length)) .groupByKey() .map(pair => (pair._1, pair._2.sum/pair._2.size.toDou

浏览 1提问于2021-06-17得票数 1

回答已采纳

2回答

将Array[string]类型的两列合并为新的Array[string]列

scala、apache-spark、apache-spark-sql、user-defined-functions

我在Spark DataFrame中有两列，每一列中的每个条目都是字符串数组。 val ngramDataFrame = Seq( (Seq("curious", "bought", "20"), Seq("iwa", "was", "asj")) ).toDF("filtered_words", "ngrams_array") 我希望合并每一行中的数组，以便在新列中生成单个数组。我的代码如下： def concat_array(firstarray: Arra

浏览 1提问于2018-03-07得票数 9

回答已采纳

2回答

自日期起的周数

apache-spark、pyspark、apache-spark-sql

我有这样一个数据格式，列date的格式是yyyy-mm-dd： +--------+----------+---------+----------+-----------+--------------------+ |order_id|product_id|seller_id| date|pieces_sold| bill_raw_text| +--------+----------+---------+----------+-----------+--------------------+ | 668| 886059| 3205|2015-01-1

浏览 0提问于2020-12-01得票数 0

回答已采纳

1回答

如何在PySpark中配置PyCharm？我有个问题

python、apache-spark、pyspark

我在PyCharm中配置PyCharm有问题。我使用的是: Java 1.0_311，Python3.10.1，Spark-3.2.0bin-hadoop3.2。我遵循了本教程：我的代码是： from pyspark.sql import SparkSession spark=SparkSession.builder.master("local[*]").appName("SparkExamples.com").getOrCreate() rdd=spark.sparkContext.parallelize([1,2,3,4,5,6]) print(rd

浏览 16提问于2022-01-07得票数 -1

1回答

包含SparseVector的Spark.ml DataFrame

apache-spark、apache-spark-mllib

我有一个包含许多列的spark.ml DataFrame，每列中的每一行都包含一个SparseVector。我想对每一列应用MultivariateStatisticalSummary.colStats，colStats签名是： def colStats(X: RDD[Vector]): MultivariateStatisticalSummary 看起来很完美..。除了我似乎不能从该DataFrame中select一列并将其转换为RDD[Vector]。这是我的尝试： val df: DataFrame = data.select(shardId) val col = df.as[(org

浏览 0提问于2017-02-16得票数 0

1回答

scala.collection.mutable.WrappedArray$ofRef不能强制转换为整数

apache-spark、apache-spark-sql、spark-dataframe

我是Spark和Scala的新手。我试图调用一个函数作为Spark UDF，但我遇到了这个错误，我似乎无法解决。我知道在Scala中，Array和Seq是不同的。WrappedArray是Seq的一个子类型，并且在WrappedArray和数组之间存在隐式转换，但我不确定为什么在使用自定义函数的情况下不会发生这种转换。任何能帮助我理解和解决这个问题的建议都是非常感谢的。这是一段代码片段 def filterMapKeysWithSet(m: Map[Int, Int], a: Array[Int]): Map[Int, Int] = { val seqToArray = a.toArra

浏览 0提问于2016-10-23得票数 23

回答已采纳

1回答

运行PySpark命令时出错

python、hadoop、apache-spark、pyspark

我在Hadoop2.6.0中安装了Spark1.4.1，并尝试运行以下PySpark命令来计算行数。它抛出以下错误。我是新来的火花，无法找到错误。有人能提供解决方案吗。 >>> distFile = sc.textFile("/home/hduser2/spark-1.4.1-bin-hadoop2.6/README.md") 15/12/31 09:31:50 INFO storage.MemoryStore: ensureFreeSpace(213560) called with curMem=695185, maxMem=278019440 15/12

浏览 0提问于2015-12-31得票数 0

回答已采纳

4回答

如何使用collect作为key，col作为value，以map的形式收集spark数据帧

apache-spark

我正在寻找一种整洁的方法来找到每一列的最大值，并收集在地图中作为{col name:max value of col}。下面是我在一个玩具示例中所取得的进展。在我的完整数据中有数百列，所以手动转换每一列是不可行的。 scala> import spark.implicits._ import spark.implicits._ scala> import org.apache.spark.sql.functions._ import org.apache.spark.sql.functions._ scala> scala> val df = Seq((1,3)

浏览 49提问于2020-06-12得票数 0

回答已采纳

1回答

PySpark sql dataframe熊猫UDF - java.lang.IllegalArgumentException:要求失败:十进制精度8超过最大精度7

apache-spark、pyspark、apache-spark-sql

我正在使用Databricks 4.3 (包括ApacheSpark2.3.1，Scala2.11)，Python版本3.5。我有一个火花数据框架df_spark，我运行熊猫分组UDF，以获得一个新的火花数据框架df_spark2，其中只有一列的字符串类型。当我显示df_spark2的头部时，我得到了错误： org.apache.spark.SparkException: Job aborted due to stage failure: Task 18 in stage 12.0 failed 4 times, most recent failure: Lost task 18.3 in

浏览 1提问于2019-01-23得票数 1

3回答

检查spark dataframe中的每一列是否具有特定值

scala、apache-spark、dataframe、apache-spark-sql

我们是否可以使用Spark-SQL或scala检查spark数据帧中的每一列是否都包含特定的字符串(例如"Y")？我已经尝试了以下方法，但我认为它不能正常工作。 df.select(df.col("*")).filter("'*' =='Y'") 谢谢，Sai

浏览 0提问于2017-09-09得票数 2

回答已采纳

2回答

如何将函数应用于Spark DataFrame的列？

scala、apache-spark、dataframe、apache-spark-sql

让我们假设我们有一个Spark DataFrame df.getClass Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFrame 使用下面的模式 df.printSchema root |-- rawFV: string (nullable = true) |-- tk: array (nullable = true) | |-- element: string (containsNull = true) 假设Scala列的每一行都是一个字符串数组，那么如何编写一个tk函数

浏览 2提问于2016-01-05得票数 7

回答已采纳

1回答

PYSPARK :从RDD读取错误

apache-spark、pyspark

我正试着从我的RDD中阅读，但得到的错误。请给我建议。该文件存在于HDFS中。我使用hadoop文件系统命令将文件移动到HDFS。代码： baby_names = sc.textFile("/user/rahul/baby_names.csv") rows = baby_names.map(lambda line:line.split(",")) for row in rows.take(rows.count()):print(row[1]) 错误： Py4JJavaError Traceback (

浏览 3提问于2017-02-14得票数 0

2回答

从JSON数组在Apache Spark中创建RDD时出错

apache-spark

people.json [{"name":"Michael"}, {"name":"Andy", "age":30}, {"name":"Justin", "age":19}] 我正在尝试使用以下代码将上述JSON加载到RDD中 val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext._ case class Person(name: String, age: Int)

浏览 2提问于2015-02-20得票数 0

1回答

星火中每列值之和

python、dataframe、apache-spark

我需要一些关于火花的帮助。我所做的是将我在Spark中获得的数据some转换为Pandas (使用Spark2Pandas命令)，然后对其进行如下工作：基本上，我有一个有100列的Pandas dataframe，每个列都称为"FirstP XX SecondP"，是从00到99的列号。因此，首先，我删除了每一列文本的"FirstP“和”SecondP“部分(基本上，我只保留数字)。之后，使用for循环创建一个新列，在该列中，我将添加每个列的所有值的总和。然后，我删除包含所有数据的原始列。我使用的代码如下： data.columns = data.columns.

浏览 3提问于2022-01-06得票数 -2

回答已采纳

1回答

使用pyspark请求JSON

python、json、pyspark、pyspark-sql

我正在尝试请求一个具有复杂架构的JSON文件(从Google Maps API)，以获取所有的lat和lng。请在这里找到JSON示意图： root |-- geocoded_waypoints: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- geocoder_status: string (nullable = t

浏览 1提问于2018-03-23得票数 0

2回答

如何在Apache Spark中根据分隔符将单字符串列转换为多列

apache-spark、pyspark、apache-spark-sql

我有一个包含字符串列的数据框，我想在其中创建多个列。这是我的输入数据，pagename是我的字符串列我想从它创建多个列。字符串的格式是相同的- col1:value1 col2:value2 col3:value3 ... colN:valueN。在输出中，我需要多个列- col1 to colN，值作为每列的行。以下是输出- 我如何在spark中做到这一点？Scala或Python都适合我。下面的代码创建输入数据帧- scala> val df = spark.sql(s"""select 1 as id, "a:100 b:50

浏览 23提问于2021-06-02得票数 0

回答已采纳

1回答

如何从拼花文件中读取和写入自定义类

java、apache-spark、apache-spark-sql、spark-dataframe、parquet

我试图使用DataFrame/datasets为某个类类型编写一个parquet读/写类类模式： class A { long count; List<B> listOfValues; } class B { String id; long count; } 代码： String path = "some path"; List<A> entries = somerandomAentries(); JavaRDD<A> rdd = sc.parallelize(entries, 1); DataFrame d

浏览 3提问于2016-10-14得票数 1

回答已采纳

1回答

用嵌套用户定义的对象创建DataFrame

java、mongodb、apache-spark、dataframe、apache-spark-sql

我正在使用MongoDB连接器来读取具有嵌入式文档的集合。 JSON收藏: PersonaMetaData { "user_id" : NumberLong(2), "persona_created" : true, "persona_createdAt" : ISODate("2016-02-24T06:41:49.761Z"), "persona" : [{"persona_type" : 1, "created_using_alg

浏览 6提问于2016-03-14得票数 2

回答已采纳

1回答

Spark无法读取由AvroParquetWriter写入的拼图文件中的十进制列

apache-spark、parquet、apache-kafka-connect、s3-kafka-connector

我有一些拼图文件写使用AvroParquetWriter (从卡夫卡连接S3连接器)。文件aseg_lat中的一列具有模式DECIMAL(9, 7)。我可以使用PyArrow和PrestoSQL很好地阅读这篇专栏文章。尝试通过在AWS EMR上运行的Spark 3.0.0读取它时，我收到以下错误： scala> var df2 = df.select("aseg_lat") df2: org.apache.spark.sql.DataFrame = [aseg_lat: decimal(9,7)] scala> df2.show() 20/08/25 12

浏览 106提问于2020-08-25得票数 2

回答已采纳

1回答

如何将scala数组/列表中的空格替换为下划线和编码值

scala、apache-spark

我有一个spark scala dataframe，它有列"Name“，我已经将该列的值提取到scala arraystring中 org_name: Array[String] = Array(SARATOGA SENIOR HIGH SCHOOL) 我想用_替换空格，并将该值编码为utf-8 (只要用其他字符替换特殊字符，任何编码都可以)，因此如果有任何特殊字符，这些字符将被删除。稍后，我想在文件路径中使用它们。 var org_name = orgsFlatDF.rdd.collect .map( _.getString(2)) 这就是我提取这些字符的方法^^。我还没有找到任何

浏览 21提问于2020-07-15得票数 0

1回答

如何在PySpark中对数组进行置换？

apache-spark、pyspark

我有一个包含字符串数组的DataFrame列。我尝试过创建一个udf并使用numpy进行置换(unit是列名)： def permute(row): return np.random.permutation(row) udfPermute = udf(permute, ArrayType(StringType())) print(units.withColumn("shuffled", udfPermute("unit")).head(5)) Py4JJavaError: An error occurred while calling o4246.

浏览 1提问于2017-04-03得票数 0

1回答

从文件中读取图形

scala、apache-spark、spark-graphx、sparklyr

希望在我的Windows机器上运行一个GraphX示例，使用SparklyR安装Hadoop/Spark的SparklyR。首先可以从安装目录启动shell： start C:\\Users\\eyeOfTheStorm\\AppData\\Local\\rstudio\\spark\\Cache\\spark-2.0.0-bin-hadoop2.7\\bin\\spark-shell 输出： 17/01/02 12:21:04 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... u

浏览 3提问于2017-01-02得票数 0

回答已采纳

1回答

向HDFS写入数据时引发OOM问题

scala、apache-spark、dataframe、hdfs、cloudera

得到这个问题与斯帕克2.3。我在Cloudera集群上运行这个任务，它有7个节点: 64 GB ram，每个16核相关conf：--conf spark.executor.memoryOverhead=5G --executor-memory 30G --num-executors 15 --executor-cores 5 火花执行器会引发错误： java.lang.OutOfMemoryError: Requested array size exceeds VM limit at java.lang.StringCoding.encode(StringCoding.java:350)

浏览 1提问于2018-07-18得票数 0

1回答

通过Spark运行时出现Sqoop错误

apache-spark、cloudera、sqoop

当我通过sqoop命令运行此代码时，它可以工作 sqoop import --connect "jdbc:sqlserver://myhost:port;databaseName=DBNAME" \ --username MYUSER -P \ --compress --compression-codec snappy \ --as-parquetfile \ --table MYTABLE \ --warehouse-dir /user/myuser/test1/ \ --m 1 然后创建spark scala代码，如下所示。但是当我使用spark-submit执

浏览 1提问于2018-03-09得票数 0

1回答

如何在.CSV或.XLSX文件中高效导出python中使用pyspark生成的关联规则

pyspark、python-3.6、fpgrowth

在解决了这个问题之后：How to limit FPGrowth itemesets to just 2 or 3，我正在尝试将使用pyspark的fpgrowth的关联规则输出导出到python中的.csv文件。在运行了近8-10小时后，它给出了一个错误。我的机器有足够的空间和内存。 Association Rule output is like this: Antecedent Consequent Lift ['A','B'] ['C']

浏览 19提问于2019-07-02得票数 2

2回答

有没有可能使用pyspark来加速对一个非常大的数组的每一列的回归分析？

numpy、pyspark

我有一个非常大的数组。我想对数组的每一列进行线性回归。为了加快计算速度，我创建了一个列表，将数组的每一列作为其元素。然后，我使用pyspark创建了一个RDD，并在其上进一步应用了一个已定义的函数。我在创建RDD (即并行化)时遇到了内存问题。我试图通过设置spark.driver.memory -defaults.conf将spark改进为50g，但程序似乎仍然死了。 import numpy as np from sklearn.linear_model import LinearRegression from sklearn.metrics import r2_score, mean_

浏览 4提问于2019-06-18得票数 1

1回答

对星火scala中的每一列数据进行排序

scala、apache-spark、apache-spark-sql

我在Spark & Scala工作，拥有数百个列的数据格式。我想按每一列对数据进行排序。在Scala/Spark中有这样的做法吗？我试过： val sortedDf = actualDF.sort(actualDF.columns) 但是.sort不支持Array[String]输入。以前有人问过这个问题：，但是没有Scala的答案

浏览 1提问于2021-11-26得票数 2

回答已采纳

1回答

如何在dataframe中将json字符串解析为字符串数组

arrays、json、scala、apache-spark、spark-dataframe

我对Scala很陌生，我花了3个小时试图弄清楚如何将一个简单的json字符串解析为dataframe中的一个字符串数组。这是我的密码： import spark.implicits._ import org.apache.spark.sql.functions._ ... emailsDf.select(from_json($"emails", Array[String])).show() emailsDf dataframe有一个名为“email”的列，在每一行中它是一个字符串数组的json字符串：["test1@mail.com", test2@mail.

浏览 3提问于2017-12-04得票数 2

回答已采纳

2回答

Apache :无法将分组数据保存为CSV

python、apache-spark、pyspark、pyspark-sql

我想做一件简单的事。我想把所有的事件统计成2分钟的时间戳。效果很好。 df = df.groupBy(window(df["time_value"], "2 minutes")).count() df.show() +--------------------+-----+ | window|count| +--------------------+-----+ |[2018-04-10 15:00...| 770| |[2018-04-10 00:42...| 100| |[2018-04-10 04:14...| 54| |[2018-04-06 15:

浏览 1提问于2018-05-15得票数 1

回答已采纳

2回答

通过Spark [AnalysisException]读取嵌套JSON无法解析列

json、scala、apache-spark、apache-spark-sql

我有这样的JSON数据： { "parent":[ { "prop1":1.0, "prop2":"C", "children":[ { "child_prop1":[ "3026" ] } ] } ] } 从S

浏览 2提问于2017-05-06得票数 3

回答已采纳

1回答

N列m行的动态数据帧

scala、apache-spark

从json(动态模式)读取数据，并将其加载到dataframe。示例数据帧： scala> import spark.implicits._ import spark.implicits._ scala> val DF = Seq( (1, "ABC"), (2, "DEF"), (3, "GHIJ") ).toDF("id", "word") someDF: org.apache.spark.sql.DataFrame = [number: int, wor

浏览 6提问于2020-06-04得票数 0

回答已采纳

4回答

如何总结Scala数组的每一列？

arrays、scala

如果我在Scala中有一个数组(类似于矩阵)，那么如何有效地总结矩阵的每一列呢？例如，如果我的数组如下所示： val arr = Array(Array(1, 100, ...), Array(2, 200, ...), Array(3, 300, ...)) 我想总结每一列(例如，总结所有子数组的第一个元素，总结所有子数组的第二个元素，等等)。并获得如下所示的新数组： newArr = Array(6, 600, ...) 如何在Spark中有效地做到这一点？

浏览 6提问于2015-10-01得票数 5

回答已采纳

1回答

Apache注册一个UDF返回的数据

scala、apache-spark、user-defined-functions

我有一个返回数据的UDF。就像下面的那个 scala> predict_churn(Vectors.dense(2.0,1.0,0.0,3.0,4.0,4.0,0.0,4.0,5.0,2.0)) res3: org.apache.spark.sql.DataFrame = [noprob: string, yesprob: string, pred: string] scala> predict_churn(Vectors.dense(2.0,1.0,0.0,3.0,4.0,4.0,0.0,4.0,5.0,2.0)).show +------------------+------

浏览 3提问于2016-12-20得票数 3

回答已采纳

2回答

在试图查看时使用map(lambda)返回错误更改RDD中的NumPy数组的值

python、numpy、pyspark、lambda、rdd

我是PySpark的新手。我正在使用的RDD有NumPy数组，每个数组都有自己的相关键。下面是使用rdd.take(1)从我的RDD中提取数据的示例： ('418292', array([0.07541697, 0.03698332, 0.01885424, ..., 0. , 0. , 0. ])) 我试图更改NumPy数组中的值，以便将任何大于0的值设置为1，否则值将保持为0。我编写了以下代码来尝试进行更改： binary = rdd.map(lambda x: 1 if x[1] > 0 else 0) bin

浏览 13提问于2022-03-30得票数 0

1回答

手动迭代Spark SQL数据框并创建列值是否效率低下？

scala、apache-spark、apache-spark-sql、apache-spark-ml

为了运行一些ML算法，我需要创建额外的数据列。这些列中的每一列都涉及一些相当密集的计算，包括保持移动平均值，并在您遍历每行时记录信息(并同时更新它)。我已经用一个简单的Python脚本做了一个模拟，并且它可以工作，我现在正打算将它转换成一个可以在更大的数据集上运行的Scala Spark脚本。问题是，对于使用Spark SQL的这些应用程序似乎是高效的，最好使用内置的语法和操作(类似SQL)。在SQL表达式中编码逻辑似乎是一个非常耗费心思的过程，所以我想知道，如果我只是通过迭代每一行、跟踪变量并在末尾插入列值来手动创建新的列值，会有什么缺点。

浏览 2提问于2016-06-07得票数 0

1回答

如何将数据帧中的org.apache.spark.mllib.linalg.Vector保存到cassandra

apache-spark、cassandra、apache-spark-sql、spark-dataframe、spark-cassandra-connector

我需要在其中一列中保存包含org.apache.spark.mllib.linalg.Vector的dataframe。在cassandra中从dataframe创建表时，抛出错误。 java.lang.Exception: Cassandra Writer Failed. java.lang.IllegalArgumentException: Unsupported type: org.apache.spark.mllib.linalg.VectorUDT@f71b0bce at com.datastax.spark.connector.types.ColumnType$.u

浏览 28提问于2016-08-09得票数 3

1回答

如何在DataFrame中使用CountVectorizerModel.vocabulary将termIndices转换为term？

apache-spark、user-defined-functions、apache-spark-ml

我使用CountVectorizerModel创建文本外的要素，以便在LDA中进行训练 +-----+--------------------------------------+-------------------------------------------------+-------------------------------------------------------------------+ |label|sentence |words

浏览 0提问于2018-12-17得票数 0

1回答

在Scala中将org.apache.spark.mllib.linalg.Matrix转换为星星之火

scala、apache-spark、matrix、apache-spark-sql、apache-spark-mllib

我有一个输入数据input_df，如下所示： +---------------+--------------------+ |Main_CustomerID| Vector| +---------------+--------------------+ | 725153|[3.0,2.0,6.0,0.0,9.0| | 873008|[4.0,1.0,0.0,1.0,...| | 625109|[1.0,0.0,6.0,1.0,...| | 817171|[0.0,4.0,0.0,7.0,...| |

浏览 0提问于2018-06-26得票数 1

回答已采纳

1回答

在spark/scala中的另一个数据框中查找多个列值

scala、dataframe、apache-spark、lookup

我有两个数据帧A和B。 A有30列- reason1,reason2.......reason30 B有两列- reason, Value 现在，我需要在B中查找所有以reason*开头的列，并在数据帧A的一列中获取相应的值。因此，最终的数据帧将具有reason1,reason2.......reason30, value 我试图将每一列与其他数据帧连接起来，但这不是一种整洁的方法。请帮助我使用spark/scala获得优化和快速的解决方案。

浏览 9提问于2021-05-17得票数 0

2回答

没有为org.locationtech.jts.geom.Point找到编码器

scala、apache-spark、jts、geomesa

在使用Geomesa和Scala时，我一直试图使用下面的代码片段在Spark中对2列进行编码，但我不断收到一个问题，似乎Scala无法将返回的对象序列化为Dataframe。当使用Postgres和PostGIS时，生活很容易--这是一个容易的问题吗?还是有一个更好的库可以处理来自包含双格式的纬度和经度的星火数据的地理空间查询？我在SBT中使用的版本是：火花: 2.3.0 scala: 2.11.12 地势a: 2.2.1 jst-*：1.17.0-快照线程“主”java.lang.UnsupportedOperationException中的异常:没有为org

浏览 1提问于2019-03-06得票数 1

2回答

scala.MatchError：[Ljava.lang.String；(指类[Ljava.lang.String；])

scala、apache-spark

当我想读文件时，我的文件格式是：12334这个:23，word:21，老师:23 val fp = "/user/user_id.txt" sc.textFile(fp).map { s => val Array(did, info_s) = s.split("\t") val info = info_s.split(",").map { kv => val Array(k, v) = kv.split(":") (k, v.toDouble) }.toSeq

浏览 11提问于2016-12-12得票数 6

回答已采纳

1回答

如何匹配Spark代码中每个文档的ngram

scala、apache-spark、lda

我正在使用中给出的火花中LDA的示例代码。我有一个语料库文件，其中每一行都是一个文档，我使用 val corpus: RDD[String] = sc.textFile("C:/corpus.txt") 我还有一个ngram文件，其中每一行都是bigram/trigram等，我使用 val ngramFile: RDD[String] = sc.textFile("C:/ngram.txt") 我想修改下面的一行，并在每个文档中只取匹配的ngram val tokenized: RDD[Seq[String]] = corpus .map(_.toLowe

浏览 0提问于2015-06-22得票数 0

1回答

调用o898.save时出错。Azure Synapse Analytics连接器代码中遇到异常

sql-server、azure、azure-databricks

def synapsedump(targetmount,targetfolder,table,df): dbutils.fs.rm("/mnt/tmp", recurse=True) df.createOrReplaceTempView(table) spark.conf.set("spark.databricks.sqldw.writeSemantics", "copy") schema = "Amazon" schematable = schema + "." + table df =

浏览 39提问于2021-08-03得票数 0

1回答

星火请求的数组大小超出了BufferHolder.grow的VM限制

scala、apache-spark、apache-spark-sql、out-of-memory、spark-dataframe

在运行于Hadoop集群上的Spark2.1上，在混合scala应用程序(类似于Zeppelin)上会出现此错误： 18/04/09 08:19:34 ERROR Utils: Uncaught exception in thread stdout writer for /x/python/miniconda/bin/python java.lang.OutOfMemoryError: Requested array size exceeds VM limit at org.apache.spark.sql.catalyst.expressions.codegen.BufferHold

浏览 1提问于2018-04-09得票数 0

回答已采纳

2回答

scala.MatchError:在Dataframes

java、scala、apache-spark、spark-streaming、apache-spark-sql

我有一个Spark (version 1.3.1)应用程序。在其中，我试图将一个Java bean RDD JavaRDD<Message>转换为Dataframe，它有许多不同数据类型的字段(整数、字符串、列表、地图、双数据)。但是当我在执行我的代码的时候。 messages.foreachRDD(new Function2<JavaRDD<Message>,Time,Void>(){ @Override public Void call(JavaRDD<Message> arg0, Time

浏览 6提问于2015-06-12得票数 0

回答已采纳

1回答

星星之火SQL DataFrame漂亮打印

json、scala、apache-spark-sql

我对Scala不是很在行(我更喜欢R)，我希望使用WrappedArray在spark-shell中使用Scala在两行中显示spark-shellelemnt的内容(参见下面的sqlDf.show())。我试过explode()函数，但没能做得更好. scala> val sqlDf = spark.sql("select t.articles.donneesComptablesArticle.taxes from dau_temp t") sqlDf: org.apache.spark.sql.DataFrame = [taxes: array<array&l

浏览 3提问于2016-12-21得票数 3

回答已采纳

1回答

Dataframe.rdd.map().collect在PySpark中不起作用

python-2.7、apache-spark、pyspark、apache-spark-sql、spark-dataframe

我对Python非常陌生。使用Python 2.7 我正在尝试运行这段简单的代码。我正在从CSV文件创建这个DF。这个Dataframe只有2列。我尝试了下面的代码片段，但每次尝试都失败 newDf = fullDf.rdd.map(lambda x: str(x[1])).collect() # FAILS newDf = fullDf.rdd.map(lambda x: x.split(",")[1]).collect() # FAILS 这里的问题是什么。同样的事情也适用于Scala-Spark。我的Spark版本是2.1.0，Python版本是2.7 我不

浏览 1提问于2018-03-09得票数 1