Spark Scala值的唯一键和_Scala spark，显示不同的列值和计数出现次数_Scala:使用嵌套json结构转换和替换Spark DataFrame的值 - 腾讯云开发者社区

apache-spark、mesos、spark-structured-streaming

我为ApacheSpark2.3.0编写了一个自定义的状态存储和状态存储提供程序，并尝试使用附加参数部署该作业： --conf spark.sql.streaming.stateStore.providerClass=com.sample.state.CustomStateStoreProvider 对于运行星火作业，我使用马拉松和Mesos，该作业在异常开始后就会失败： java.lang.ClassNotFoundException: com.sample.state.CustomStateStoreProvider at java.net.URLClassLoader.find

浏览 0提问于2018-07-20得票数 5

回答已采纳

1回答

为什么年和月函数会导致Spark中的长时间溢出？

scala、apache-spark、cassandra、spark-cassandra-connector

我正在尝试从spark中名为logtimestamp (类型为TimeStampType)的列中创建year和month列。数据源为cassandra。我正在使用sparkshell来执行这些步骤，以下是我编写的代码- import org.apache.spark.sql.cassandra._ import org.apache.spark.sql.types._ var logsDF = spark.read.cassandraFormat("tableName", "cw").load() var newlogs = logsDF.withColumn

浏览 34提问于2021-11-02得票数 4

回答已采纳

2回答

Spark并发作业失败

apache-spark、cloudera、hadoop-yarn、cloudera-cdh

如果我在yarn-client上使用spark运行单个作业，一切正常，但在多个(>1)并发作业上，我在容器节点上得到以下异常。我正在使用带有CDH5.3和Spark-Jobserver的Spark 1.2 java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_3_piece0 of broadcast_3 at org.apache.spark.util.Utils$.tryOrIOException(Utils.scala:1011) at org.apache.spa

浏览 2提问于2015-02-03得票数 3

1回答

Spark dataset显示模式，但为show()方法抛出UnsupportedOperation异常

apache-spark、apache-spark-dataset

我使用自定义java类的bean编码器创建了Spark数据集 Encoder<CustomJavaType> customJavaEncoder = Encoders.bean(CustomJavaType.class); Dataset<CustomJavaType> customJavaTypeDataset = sparkRunner.getSparkConfig().getSparkSession() .createDataset(listofCustomJavaTypeObjects, customJavaEncoder); customJavaTypeDat

浏览 0提问于2018-02-22得票数 1

1回答

Pyspark无法连接到executor

apache-spark

我对apache-spark有个问题。我使用的是yarn客户端模式。这是我的配置： conf.set("spark.executor.memory", "4g") conf.set("spark.driver.memory", "4g") conf.set("spark.driver.cores", "4") conf.set("spark.default.parallelism", "3") conf.set("spark.executor.cores&#

浏览 4提问于2016-01-06得票数 0

1回答

在无界的前面和无界的后续之间的行上激发SQL秩()会失败

apache-spark-sql

我遇到了一个Spark行为不同的SQL子句( bug?)来自其他人(我和蜂巢比较)。您可以复制和粘贴以下语句，以便在hive中进行测试。 hive> CREATE TABLE t (v INT); INSERT INTO t (v) VALUES (11), (21), (31), (42), (52); SELECT v % 10 AS d, v, RANK() OVER (PARTITION BY v % 10 ORDER BY v ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) AS rank FROM t;

浏览 0提问于2018-05-24得票数 2

回答已采纳

1回答

Delta : org.apache.spark.sql.catalyst.parser.ParseException:不匹配输入“FROM”

amazon-emr、delta-lake

我正在尝试运行对EMR/EMR笔记本的查询()- SELECT max(version), max(timestamp) FROM (DESCRIBE HISTORY delta.`s3://a/b/c/d`) 但我得到了以下错误- 同样的查询在Databricks上运行得很好。我的另一个疑问是-为什么s3位置的颜色会改变post //。因此，我尝试打破上面的查询，只运行描述历史查询。出于某种原因上面写着- 错误日志- An error was encountered: org.apache.spark.sql.AnalysisException: Table or

浏览 4提问于2021-02-18得票数 2

2回答

使用pandas_udf时“索引处的值为空”错误

pyspark、apache-spark-sql

对于吡火花中的DataFrame，如果使用F.lit(1) (或任何其他值)初始化列，则将其赋值给pandas_udf内部的一些值(在本例中使用shift()，但可能发生在任何其他函数)，这将导致“值在索引上为空”错误。有人能提供一些提示，为什么会发生这种情况？是火星雨里的虫子吗？请参阅下面的代码和错误。 spark = SparkSession.builder.appName('test').getOrCreate() df = spark.createDataFrame([Row(id=1, name='a', c=3), Row(id=2, name=

浏览 0提问于2019-07-22得票数 4

回答已采纳

1回答

星火回归只处理一个功能

apache-spark、pyspark、databricks

我有一些关于服务提供商客户的数据(~1MB)。我正在尝试根据几个特性来预测是否会终止订阅(PySpark on Databricks)。单特征模型首先，我只试了一个功能，并看到了成功的培训： # Create vector assembler to merge independent features (in this case just one) into one feature as a list vectorAssembler = VectorAssembler(inputCols=['MonthlyCharges'], outputCol='Charges&

浏览 2提问于2021-07-23得票数 3

回答已采纳

1回答

为什么这个List[String]到数据仓库NullPointerException在斯派克斯卡拉？

scala、apache-spark

下面的代码将导致NullPointerException。我不确定，这个异常是发生在某些行上，还是总是因为dataframe很大而无法指向行。 def removeUnwantedLetters(str: String): String = { str.split("\\W+").filter(word => (word.matches("[a-z]+") && (word.length > 1))).mkString(" ") } val myudf = spark.udf.register("le

浏览 0提问于2018-11-30得票数 0

回答已采纳

1回答

BigDecimal : NaN类型的AWS胶坏值

apache-spark、pyspark、aws-glue、aws-glue-data-catalog、aws-glue-spark

我正试图将一个从postgres(rds)数据库中爬出来的表导出到胶水中。有一个带十进制(10，2)类型的字段。现在我有几个问题。使用以下代码将表从glue(使用spark 2.4，3.1python 3)导出到s3中： datasource = glueContext.create_dynamic_frame.from_catalog( database='source_database', table_name='table', ) glueContext.write_dynamic_frame.from_options( fra

浏览 5提问于2021-09-13得票数 1

1回答

火花SQL卡桑德拉如何处理时间戳空值？

cassandra、apache-spark、apache-spark-sql

我目前正在使用ApacheCassandra2.1.2集群和Spark1.2.0连接器。对于一些初始测试，我需要通过Spark命令从Cassandra表中选择一些行。我们在键空间 ks中使用了一个名为tabletest的表。例如，这个表包含一个id (bigint)和一个ts (时间戳)。这是我的星星之火： import com.datastax.spark.connector._ import org.apache.spark.sql.cassandra.CassandraSQLContext val cc = new CassandraSQLContext(sc) cc.setKeys

浏览 5提问于2015-01-29得票数 0

1回答

获取java.lang.IllegalArgumentException:从java应用程序调用Sparks StreamingKMeans时要求失败

java、apache-spark、bigdata、hadoop2、spark-streaming

我是Spark和MLlib的新手，我试图从我的java应用程序中调用StreamingKMeans，但我得到了一个我似乎不理解的异常。下面是我用来转换训练数据的代码： JavaDStream<Vector> trainingData = sjsc.textFileStream("/training") .map(new Function<String, Vector>() { public DenseVector call(String line) throws Exception {

浏览 1提问于2015-06-10得票数 6

1回答

用RegexTokenizer和Word2Vec标记句子并将其矢量化

python、pyspark、apache-spark-sql、tokenize、word2vec

我有一个火花DataFrame，我可以标记"body“列中的句子。DataFrame如下所示：我想将创建的text_token列矢量化。我使用下面的代码来完成此操作。 word2vec = Word2Vec(vectorSize = 100, minCount = 5, inputCol = 'text_token', outputCol = 'result') model = word2vec.fit(df_token) result = word2Vec.transform(df_token) 但我得到的错误如下： Py4JJavaErr

浏览 4提问于2021-08-14得票数 0

回答已采纳

1回答

连接器不映射数据

apache-spark、mongodb-hadoop

我试图在星火应用程序中映射来自mongodb连接器的数据。在此之前，我没有其他错误，所以我假设到mongodb的连接是成功的。我使用以下代码来映射： JavaRDD<AppLog> logs = documents.map( new Function<Tuple2<Object, BSONObject>, AppLog>() { public AppLog call(final Tuple2<Object, BSONObject> tuple) { AppLog log = new AppLog();

浏览 5提问于2016-10-13得票数 1

回答已采纳

3回答

LogesticRegression fit()函数正在抛出此错误

machine-learning、pyspark、model-fitting

我在跟踪，当我执行以下行时，会得到这个错误 best_lr = lr.fit(training) 误差 --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) <ipython-input-102-88042cb88c20> in <module>() ----> 1 best_lr = lr.fit(training)

浏览 0提问于2018-12-04得票数 0

1回答

无法对多个列使用字符串索引器执行用户定义函数($anonfun$9：( String ) => double

scala、apache-spark、apache-spark-mllib

我正在尝试在多个列上应用字符串索引器。以下是我的代码 val stringIndexers = Categorical_Model.map { colName =>new StringIndexer().setInputCol(colName).setOutputCol(colName + "_indexed")} var dfStringIndexed = stringIndexers(0).fit(df3).transform(df3) // 'fit's a model then 'transform's data for(x<

浏览 77提问于2019-07-22得票数 7

2回答

在试图查看时使用map(lambda)返回错误更改RDD中的NumPy数组的值

python、numpy、pyspark、lambda、rdd

我是PySpark的新手。我正在使用的RDD有NumPy数组，每个数组都有自己的相关键。下面是使用rdd.take(1)从我的RDD中提取数据的示例： ('418292', array([0.07541697, 0.03698332, 0.01885424, ..., 0. , 0. , 0. ])) 我试图更改NumPy数组中的值，以便将任何大于0的值设置为1，否则值将保持为0。我编写了以下代码来尝试进行更改： binary = rdd.map(lambda x: 1 if x[1] > 0 else 0) bin

浏览 13提问于2022-03-30得票数 0

3回答

在java中加入spark RDD时需要帮助

java、apache-spark、spark-cassandra-connector

需要在spark中执行以下join操作 JavaPairRDD<String, Tuple2<Optional<MarkToMarketPNL>, Optional<MarkToMarketPNL>>> finalMTMPNLRDD = openMTMPNL.fullOuterJoin(closedMTMPNL); 要执行此操作，我需要两个JavaPairRDD，即closedMTMPNL和openMTMPNL。OpenMTM和closeMTM运行得很好，但是两个RDD上的keyBy在运行时都出现了错误。 JavaPairRDD<Strin

浏览 0提问于2015-06-28得票数 1

1回答

错误清除广播异常

java、apache-spark、spark-streaming、stateful

在运行星火流应用程序时，我得到以下错误:运行多个有状态(使用mapWithState)和无状态操作的大型应用程序。由于火花本身挂起，所以很难隔离错误，我们看到的唯一错误是火花日志，而不是应用程序日志本身。该错误只发生在4-5分钟后，微批间隔为10秒.我使用Spark1.6.1在一个基于Kafka的ubuntu服务器上进行输入和输出流。请注意，我不可能提供最小的代码来重新创建这个错误，因为它不会发生在单元测试用例中，而且应用程序本身是非常大的。任何你能给出的解决这个问题的方向都是有帮助的。如果我能提供更多的信息，请告诉我。以下是内联错误： [2017-07-11 16:15:15,338

浏览 2提问于2017-07-18得票数 1

回答已采纳

1回答

键列年的com.datastax.spark.connector.writer.NullKeyColumnException:无效空值

java、apache-spark、cassandra、spark-streaming、spark-cassandra-connector

下面是我的密码。 directKafkaStream.foreachRDD(rdd -> { rdd.foreach(record -> { messages1.add(record._2); }); JavaRDD<String> lines = sc.parallelize(messages1); JavaPairRDD<Integer, String> data = lines

浏览 1提问于2017-03-09得票数 0

回答已采纳

1回答

如何解决在中插入Tweet数据时出现的错误？

python、apache-spark、apache-kafka、cassandra、tweepy

我试图使用tweepy库接收tweet对象，使用Apache和Apache，我尝试将json tweet对象流并转换为结构化格式，而不是将其插入cassandra db。我的数据管道如下；我有两个.py文件 kafka_tweet_producer.py 被写成接收被期望的标签过滤的tweet对象，并与Kafka一起流。 twitter_structured_stream_spark_kafka_cassandra.py 编写以创建火花会话，从kafka读取，将json转换为结构化格式，最后将这些数据插入Cassandra db。我用自己的名字过滤了推特

浏览 6提问于2021-03-02得票数 2

回答已采纳

1回答

使用ML管道进行字符串匹配时抛出错误，无法执行用户定义的函数($anonfun$1：(vector) => array<vector>)

pyspark、string-matching、fuzzy-search

我正在尝试对两个数据帧进行字符串匹配。假设dataframe1包含X个句子和dataframe2 Y个句子。我需要检查一下，Dataframe1中的任何句子都与Dataframe2匹配。我正在尝试使用ML管道，如下所示： def match_names(df_1, df_2): pipeline = Pipeline(stages=[ RegexTokenizer( pattern="", inputCol="name", outputCol="tokens", minTokenLength=1

浏览 2提问于2019-04-11得票数 1

1回答

不能在flatMap后使用数据分组(Spark )

apache-spark、apache-spark-sql、bigdata

浏览 3提问于2021-12-02得票数 0

回答已采纳

1回答

Pyspark: k表示模型拟合时的聚类误差

python、pyspark、k-means、apache-spark-mllib、apache-spark-dataset

虽然运行K意味着使用pyspark进行集群，但我使用以下代码行来查找最佳K值。但是在模型拟合线上经常会出现一些错误。预处理阶段包括去除NAs和标记编码， from pyspark.sql.functions import when,col #Encode column "Potential" from dataframe df high = list(range(86,101)) middle = list(range (71, 86)) low = list(range(56, 71)) very_low = list(range(45,56)) #checking

浏览 47提问于2020-06-01得票数 1

回答已采纳

1回答

使用XGBoost和hyperopt在python中使用mlflow和机器学习项目的错误

python、xgboost、mlflow、hyperopt

我在一个机器学习项目中遇到了一些问题。我使用XGBoost对仓库项目的供应进行预测，并尝试使用hyperopt和mlflow来选择最佳的超级参数。这是代码： import pandas as pd import glob import holidays import numpy as np import matplotlib.pyplot as plt from scipy import stats from sklearn import metrics,model_selection from sklearn.model_selection import train_test_split

浏览 8提问于2022-11-10得票数 0

回答已采纳

1回答

将任务添加到ForEachPartition后无法序列化任务

scala、apache-spark、spark-streaming

当我试图在spark structured streaming中实现Apache pulsar Sink时，我在spark中收到了一个任务不可序列化异常。我已经尝试将PulsarConfig外推到一个单独的类，并在JDBC函数中调用它，这是我通常对.foreachPartition连接和其他集成到spark structured streaming中的系统所做的操作，如下所示： PulsarSink类 class PulsarSink( sqlContext: SQLContext, parameters: Map[Strin

浏览 78提问于2019-09-15得票数 0

回答已采纳

1回答

使用DataFrame和Pandas制作列时出错

pandas、ipython、pyspark、spark-dataframe、jupyter-notebook

我使用的是spark1.5.1和Python3.5 anaconda distribution.My代码一直运行得很好，直到我在第7个单元 pd.DataFrame(CV_data.take(5), columns=CV_data.columns) 我在这个单元格上遇到错误 Py4JJavaError Traceback (most recent call last) <ipython-input-10-d3dfeab0b119> in <module>() ----> 1 pd.DataFrame(CV_data.take(5), columns=CV_dat

浏览 1提问于2016-06-29得票数 0

2回答

执行mapreduce作业时PySpark抛出错误

hadoop、apache-spark、pyspark

我有下面的pyspark代码，它会抛出错误 data = sc.textFile("file:///zika-map/cdc_zika/update_clean_zika.csv") header = data.first() byCountryNoHeader = data.filter(lambda x: x!=header) sepColumn = byCountryNoHeader.map(lambda x: x.split(",")) byCountry =sepColumn.map(lambda x: (x[1], x[5])).reduceByKe

浏览 3提问于2016-08-15得票数 0

回答已采纳

2回答

Spark 2.4.0 Master正在下降

java、apache-spark、apache-kafka、spark-streaming

我们运行的是Spark 2.4.0 / Scala 2.11，我们运行的是监听Kafka主题的Spark流媒体应用程序。这是Spark Kafka Direct streaming API，我们正在运行4个Spark streaming应用程序，收听4个不同的主题。我们平均每秒收到10-20封邮件。Spark master在运行1-2个小时后就会关机。下面给出了例外。随之而来的还有火花执行者被杀。这不会发生在Spark 2.1.1中，它是从Spark 2.4.0开始发生的，任何帮助/建议都很感谢。我们看到的例外情况是： Exception in thread "main"

浏览 0提问于2019-02-27得票数 0

1回答

org.elasticsearch.hadoop.rest.EsHadoopRemoteException: search_context_missing_exception:没有找到id的搜索上下文

scala、apache-spark、elasticsearch、elasticsearch-spark

由于“没有找到id的搜索上下文”，星火任务正在失败。我试了几个选择，比如 spark.es.input.max.docs.per.partition 250 spark.es.scroll.size 100 spark.es.batch.size.bytes 32 但任务仍在失败。我们使用的是：Spark版本: 2.3.1，Elasticsearh集群版本: 6.5.4，elasticsearch版本: 6.5.4 org.elasticsearch.hadoop.rest.EsHadoopInvalidRequest: org.elasticsearch.hadoop.rest.Es

浏览 2提问于2019-01-06得票数 3

1回答

在星火中使用mapPartitions或除法器按键进行有效分组

apache-spark、grouping、partition

所以，我有如下数据， [ (1, data1), (1, data2), (2, data3), (1, data4), (2, data5) ] 我想将其转换为以下内容，以供进一步处理。 [ (1, [data1, data2, data4]), (2, [data3, data5]) ] 我使用了groupByKey和reduceByKey，但是由于数据量很大，它失败了。数据不是很高，而是很宽。换句话说，键在1到10000之间，但是值列表从100 K到900 k不等。我正在努力解决这个问题，并计划应用mapPartitions或(Hash)partitioner。所以，如果其中一个可行

浏览 5提问于2016-01-26得票数 6

1回答

在不存储在cassandra中的dataframe中键入null值

date、apache-spark、dataframe、cassandra

我在ApacheSpark1.6.0工作。我有一个280列的数据，其中一些列是时间戳类型的。时间戳字段的一些值为空。当我试图向cassandra写同样的数据时，我得到了一个IllegalArgumentException。这列看起来像是- +------------------------+ | LoginDate| +-------------------------+ | null| | 2014-06-25T12:27:...| | 2014-06-25T12:27:...| |

浏览 1提问于2017-08-02得票数 0

回答已采纳

1回答

java.sql.SQLException:其他错误:在使用mysql-连接器-java5.1.6连接器连接到数据库时，请求过时

mysql、apache-spark、jdbc、mysql-connector、tidb

在使用TIDB通过Spark连接到mysql-connector-java 5.1.6 connector时获取以下错误。请注意，我使用并行连接选项创建了jdbc连接，其中我们指定了列名、下限、上限和分区数。 Spark然后将其分解为(分区数目)查询，将列名的下限和上界划分为相同的大小。 java.sql.SQLException: other error: request outdated. at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:1055) at com.mysql.jdbc.SQLError.createS

浏览 2提问于2018-10-05得票数 0

回答已采纳

1回答

如何将数据帧中的org.apache.spark.mllib.linalg.Vector保存到cassandra

apache-spark、cassandra、apache-spark-sql、spark-dataframe、spark-cassandra-connector

我需要在其中一列中保存包含org.apache.spark.mllib.linalg.Vector的dataframe。在cassandra中从dataframe创建表时，抛出错误。 java.lang.Exception: Cassandra Writer Failed. java.lang.IllegalArgumentException: Unsupported type: org.apache.spark.mllib.linalg.VectorUDT@f71b0bce at com.datastax.spark.connector.types.ColumnType$.u

浏览 28提问于2016-08-09得票数 3

1回答

Spark:从2.1.0升级到2.2.1时，Dataframe操作非常慢

java、scala、apache-spark

我刚刚把spark 2.1.0升级到了spark 2.2.1。有人在dataframe.filter(…).collect()上看到过极慢的行为吗？..具体地说，就是之前使用filter进行的collect操作。dataframe.collect看起来运行得很好。然而，dataframe.filter(…).collect()耗时很长。它只包含2条记录。这是在单元测试中。当我回到spark 2.1.0时，它又回到了正常的速度我查看了线程转储，但找不到明显的原因。我已经努力确保我正在使用的所有库也使用Spark 2.2.1。任何建议都将不胜感激。它似乎卡在这个堆栈跟踪上了。 scala.co

浏览 2提问于2018-11-21得票数 1

2回答

在星火中向DataFrame添加一个新列

scala、exception、apache-spark、dataframe、rdd

我希望向DataFrame中的Spark(Scala)中添加一个带有行id的新列。这就是我所采取的方法。我正在创建一个带有索引id的新行和一个包含了另一个StructType的新StructField。 val rdd = df.rdd.zipWithIndex().map(indexedRow => Row.fromSeq(indexedRow._2.toString ++ indexedRow._1.toSeq )) val list = StructType(Seq(StructField("Row Number", StringType, true)).++(

浏览 4提问于2016-05-02得票数 0

回答已采纳

1回答

作为客户在纱线上运行火花

apache-spark、hadoop-yarn

我正试着用以下方法来运行一个与纱线有关的火花作业： ./bin/spark-submit --class "KafkaToMaprfs" --master yarn --deploy-mode client /home/mapr/kafkaToMaprfs/target/scala-2.10/KafkaToMaprfs.jar 但面对这个错误： /opt/mapr/hadoop/hadoop-2.7.0 17/01/03 11:19:26警告NativeCodeLoader:无法为平台加载本机hadoop库.在适用的情况下使用内置java类17/01/03 11:19:38错

浏览 0提问于2017-01-03得票数 1

1回答

如何foreachRDD从卡夫卡的记录在星火流？

scala、apache-kafka、spark-streaming、apache-spark-1.6

我想运行一个以Kafka为数据源的Spark流应用程序。它在本地运行良好，但在集群中失败。我使用的是spark 1.6.2和Scala2.10.6。下面是源代码和堆栈跟踪。 DevMain.scala 对象DevMain通过日志记录{扩展应用程序 1.val lme: RawMetricsExtractor = new JsonExtractor[HttpEvent](props, topicArray) 2 val broadcastLme=sc.broadcast(lme) 3. val lines: DStream[MetricTypes.InputStreamType] = m

浏览 2提问于2016-12-26得票数 0

1回答

在将server添加到pyspark的类路径后无法查询单元

sql-server、jar、pyspark、hiveql、pyspark-sql

正确设置了Hive，我可以在使用spark.sql输入repl之后使用pyspark查询它。我想从sql server读取一个表，并将其保存到hive中。如果启动像pyspark --driver-class-path sqljdbc4.jar --jars sqljdbc4.jar这样的jdbc中的repl，我可以从sql server读取。然而现在星星之火无法进入蜂巢。对现有的hive表的任何查询都会导致Lzo Codec错误(见下文)。我想知道如何查询/解压外部sql server表，然后将其保存到现有的单元表中。 spark.sql("select max(product_

浏览 6提问于2017-06-08得票数 0

回答已采纳

1回答

从HDFS错误中读取火花:调用o32.csv时发生错误

hadoop、pyspark、hdfs

我在HDFS中有一个csv文件，并且正在尝试将它加载到一个中，在EMR中使用pyspark一个python脚本。我得到以下错误(最后是完全错误) py4j.protocol.Py4JJavaError: An error occurred while calling o32.csv 下面是我要做的事情 df = spark.read.csv("http://localhost:9870/foo/tsla_202210_min.csv", schema = stockSchema) 我把什么东西放错了吗？全误差 File "/home/hadoop/.local/

浏览 9提问于2022-11-20得票数 0

2回答

向HDFS写入数据时发生NumberFormatException错误

scala、hadoop、apache-spark、pyspark、hdfs

我正在编写dataframe到HDFS，其中包含以下代码 final_df.write.format("com.databricks.spark.csv").option("header", "true").save("path_to_hdfs") 它给了我以下错误： Caused by: java.lang.NumberFormatException: For input string: "124085346080" 以下是完整的堆栈： at org.apache.spark.sql.execution.data

浏览 1提问于2017-05-30得票数 0

回答已采纳

1回答

2在where子句中不工作的dataframe列值

scala、apache-spark

val creation_timestamp = df.groupBy().agg(min($"userCreation_timestamp").alias("ts")).col("ts") df.filter(col("userCreation_timestamp").cast("timestamp") >= creation_timestamp).show() or df.where(col("userCreation_timestamp").cast("timestamp

浏览 13提问于2022-04-22得票数 2

3回答

为什么连接失败与"java.util.concurrent.TimeoutException:期货超时后[300秒]“？

scala、apache-spark、join、apache-spark-sql

我用的是火花1.5。我有两份表格的数据： scala> libriFirstTable50Plus3DF res1: org.apache.spark.sql.DataFrame = [basket_id: string, family_id: int] scala> linkPersonItemLessThan500DF res2: org.apache.spark.sql.DataFrame = [person_id: int, family_id: int] libriFirstTable50Plus3DF有766,151记录，linkPersonItemLessThan

浏览 5提问于2016-12-13得票数 71

回答已采纳

1回答

如何在批处理模式下使用spark-cassandra连接器加载集合数据类型

apache-spark、collections、spark-cassandra-connector

我正在尝试将spark数据帧加载到Cassandra表中，该数据帧具有两个具有集合数据类型的属性。在传入的提要文件中，这些属性是文本/字符串。我使用下面的代码将String类型分别转换为List和Map类型： spark.udf.register("getLst", (input: String) => input.split(",").toList) spark.udf.register("getMap", (input:String) => parse(input).values.asInstanceOf[M

浏览 18提问于2019-01-23得票数 0

回答已采纳

1回答

为什么Spark与来自Hive的hive-site.xml的"NumberFormatException: For：“1s”一起失败？“

hive、apache-spark、apache-spark-sql

15/03/24 23:06:45 INFO ParseDriver: Parse Completed Exception in thread "main" java.lang.RuntimeException: java.lang.NumberFormatException: For input string: "1s" at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:346) at org.apache.spark.sql.hi

浏览 3提问于2015-03-24得票数 2

1回答

spark中的分区和自定义分区中的重新分区和排序以及spark中的数组越界异常

apache-spark、partitioner

6我尝试实现了所解释的东西。当我在自定义分区中保持分区数等于1时，它是有效的，但当我更改它时，保留任何其他值，它会给出超出边界的数组异常 Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 6, deenbandhu): java.lang.ArrayIndexOutO

浏览 2提问于2016-06-10得票数 2

1回答

火花-外壳错误：“必须设置spark.dynamicAllocation.{min/max}执行器。

scala、apache-spark、cloudera-quickstart-vm

在cloudera快速启动VM上设置Spark1.2.1之后，我正在尝试启动星火壳。我得到了下面的error.Looking帮助解决这个问题。感谢在这方面的任何快速帮助，以解决这个问题。错误日志如下所示： 16/03/03 09:40:37 INFO EventLoggingListener: Logging events to hdfs://quickstart.cloudera:8020/user/spark/applicationHistory/local-1457026830824 org.apache.spark.SparkException: spark.dynamicAlloca

浏览 3提问于2016-03-03得票数 3

1回答

java.io.IOException:帧大小[...]大于最大长度[...]！

apache-spark、alluxio

我在独立模式下运行Spark + Alluxio进行数据访问。更具体地说，我有一个火花大师和一个火花工作者。当运行我的作业时，我得到以下错误： 17/03/22 14:35:43 WARN TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, 10.254.22.6): java.io.IOException: Frame size (67108864) larger than max length (16777216)! at alluxio.AbstractClient.checkVersion(AbstractClient

浏览 78提问于2017-03-23得票数 0

1回答

ValueError:未能将字符串转换为浮点数/无效文本用于float()

python、pyspark、spark-dataframe、k-means

我试图使用火花数据作为输入我的k-均值模型。不管怎么说，我总是犯错误。(检查代码后的部分) 我的看起来像这样(大约有100万行)： ID col1 col2 Latitude Longitude 13 ... ... 22.2 13.5 62 ... ... 21.4 13.8 24 ... ...

浏览 2提问于2017-07-06得票数 2