Spark二进制列拆分成多列

Spark是一个开源的大数据处理框架，可以高效地处理大规模数据集。在Spark中，二进制列拆分成多列是指将二进制数据按照一定规则拆分成多个列，以便更好地进行数据处理和分析。

拆分二进制列可以通过使用Spark的内置函数和操作来实现。以下是一种常见的拆分二进制列的方法：

首先，使用Spark的withColumn函数创建一个新的列，将二进制列拆分成多个子列。可以使用split函数将二进制列按照指定的分隔符拆分成一个数组。

import org.apache.spark.sql.functions._

val df = spark.read.format("parquet").load("data.parquet") // 读取二进制列所在的数据集
val splitCols = df.withColumn("split_col", split(col("binary_col"), ",")) // 将二进制列拆分成一个数组

接下来，可以使用Spark的getItem函数获取数组中的每个元素，并创建新的列。

val finalCols = splitCols.withColumn("col1", $"split_col".getItem(0)) // 获取数组中的第一个元素
                          .withColumn("col2", $"split_col".getItem(1)) // 获取数组中的第二个元素
                          .withColumn("col3", $"split_col".getItem(2)) // 获取数组中的第三个元素
                          // 继续根据需要获取更多的元素

通过以上步骤，我们可以将二进制列拆分成多个子列，并将其添加到原始数据集中。

拆分二进制列的优势是可以更好地处理和分析二进制数据。例如，如果二进制列包含多个字段的数据，拆分后可以更方便地对每个字段进行处理和分析。

拆分二进制列的应用场景包括但不限于：

日志分析：将包含多个字段的二进制日志数据拆分成多个列，以便更好地分析和提取有用的信息。
数据清洗：将包含多个字段的二进制数据拆分成多个列，以便更好地清洗和处理数据。
特征工程：将包含多个特征的二进制数据拆分成多个列，以便更好地进行特征提取和建模。

腾讯云提供了多个与Spark相关的产品和服务，例如：

腾讯云EMR（Elastic MapReduce）：提供了基于Spark的大数据处理和分析服务，支持快速、高效地处理大规模数据集。产品链接：https://cloud.tencent.com/product/emr
腾讯云COS（Cloud Object Storage）：提供了高可靠、低成本的对象存储服务，可以用于存储和管理Spark处理的数据。产品链接：https://cloud.tencent.com/product/cos

请注意，以上只是腾讯云提供的一些相关产品和服务，其他云计算品牌商也提供类似的产品和服务。

页面内容是否对你有帮助？

有帮助

没帮助

Spark多标签分类

、、

我希望用Spark实现，这是一种具有多输出的多标签分类算法，但令我惊讶的是，Spark机器学习库中没有任何模型可以做到这一点。我怎么才能用Spark做到这一点呢？此外，Scikit Learn Logistic Regresssion支持输入/输出中的多标签分类，但不支持用于训练的大量数据。要查看scikit学习中的代码，请单击以下链接：

浏览 35提问于2016-08-26得票数 11

1回答

当我尝试Apache来解决多类分类问题时，我得到了以下错误。有谁能解释一下是否有一种方法可以使用Apache Spark MLlib进行支持向量机多类分类？ Exception in thread "main" org.apache.spark.SparkException: Input validation failed. at org.apache.spark.mllib.regression.GeneralizedLinearAlgorithm.run(GeneralizedLinearAlgorithm.scala:251) at org.apache.

浏览 2提问于2016-12-02得票数 1

回答已采纳

1回答

Spark ML 2.0 -使用与spark.mllib类似的spark.ml库提供的评估指标

、、

我们正在运行一个RandomForest模型，它创建了3个分类器，我们想要计算AUC值，以用于评估我们的模型，而不是使用准确性如果我们使用spark.ml，会有一种方法吗？目前我们调用MulticlassClassificationEvaluator，并使用度量准确度。在清单中，它没有auc作为它的一部分，但只有以下指标： * param for metric name in evaluation (supports `"f1"` (default), `"weightedPrecision"`,* `"weightedRecall"`,

浏览 2提问于2018-01-23得票数 0

1回答

scala udf中的空比较

、、

我有一个spark数据帧，其中列A、B、C、D都是双精度类型的。我需要添加一个新的列'ratio‘，它的计算方法如下： if(A IS NULL && B IS NULL) then 0 if(A IS NOT NULL && B IS NULL) then A/D if(A IS NULL && B IS NOT NULL) then C/B if(A IS NOT NULL && B IS NOT NULL) then A/B 在scala中如何做到这一点，因为双精度不能与NULL进行比较？

浏览 13提问于2017-02-16得票数 0

1回答

Spark -如何计算Spark 1.6数据帧中的百分位数？

、

我使用的是spark 1.6。我需要为dataframe中的一列找到多个百分位数。我的数据非常庞大，至少有1000万条记录。我尝试使用配置单元上下文，如下所示 hivecontext.sql("select percentile_approx(col,0.25),percentile_approx(col,0.5) from table") 但是这种方法非常慢，而且需要大量的时间。我听说过approxQuantile，但似乎它在spark 2.x中可用。在spark 1.6中，是否有使用spark dataframe的替代方法来提高性能。我看到了另一种使用hive UDAF的

浏览 14提问于2019-10-31得票数 0

回答已采纳

1回答

使用Spark的Cassandra简单插入语句在org.apache.spark.sql.catalyst.parser.ParseException中失败

、、

我试图用Spark将数据插入Cassandra表中，如下所示： String query = "CREATE TEMPORARY TABLE my_table USING org.apache.spark.sql.cassandra OPTIONS (table \"my_table\",keyspace \"my_keyspace\", pushdown \"true\")"; spark.sparkSession.sql(query); spark.sparkSe

浏览 5提问于2017-05-13得票数 0

回答已采纳

2回答

Scala和Spark中多类分类的自定义损失函数

、、、

我想问一下，是否可以使用Scala在Spark中为多类分类编写一个自定义损失函数。我想用Scala编写代码。我搜索了Spark文档，但没有得到任何提示。

浏览 0提问于2019-07-27得票数 1

1回答

pyspark:如何将带有time列的dataframe转换为spark流对象？

、、、

假设您有一个Spark dataframe df，它有一个代表时间的列timestamp，假设是unix-time格式(自1970年以来的秒数)。如何让Spark.Streaming将其作为输入，以便对数据执行滑动窗口？谢谢!

浏览 0提问于2016-05-25得票数 2

1回答

在scala中根据字符串长度拆分字符串

、、、

我有一个包含两列的表，一列是id，另一列是value。我的值列包含1488个字符。我必须将这一列分成多行，每行12个字符。示例：数据帧： ID Value 1 123456789987653ABCDEFGHI 预期输出： ID Value 1 123456789987 1 653ABCDEFGHI 在Spark中如何做到这一点呢？

浏览 23提问于2019-11-11得票数 0

回答已采纳

1回答

如何在Pyspark中安装MultiLayerPerceptron分类器？

、、、、

您好，我正在尝试为MultiLayerPerceptron安装PySpark 2.4.3机器学习库。但每次我尝试拟合算法时，我都会得到以下错误： Py4JJavaError:调用o4105.fit时出错。用法:作业由于阶段故障而中止:阶段784.0中的任务0失败了4次，最近一次失败:阶段784.0中丢失的任务0.3 (TID 11663，hdpdncwy87013.dpp.acxiom.net，executor 1)：org.apache.spark.SparkException:无法在org.apache.spark.sql.catalyst.expressions.GeneratedCl

浏览 30提问于2020-04-30得票数 1

1回答

如何与CSV文件中的数据集一起使用决策树？

、、、、

我想像下面的代码一样使用Spark的org.apache.spark.mllib.tree.DecisionTree，但是编译失败。 import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.DecisionTreeClassifier import org.apache.spark.ml.classification.DecisionTreeClassificationModel import org.apache.spark.ml.feature.{StringIndexer, IndexTo

浏览 4提问于2017-05-22得票数 0

1回答

用Python进行Logistic回归多类分类

、、

目前Python还不支持星火内的多类分类，但将来会像在Spark页面中描述的那样。是否有任何发行日期或是否有机会使用Python运行它，它实现了Logistic回归的多类？我知道它适用于Scala，但我想使用Python运行它。谢谢。

浏览 1提问于2016-08-09得票数 1

1回答

Apache作为Hibernate L2缓存存储重复实体

、、

环境：运行MySQL 5.6的流浪者 Java 1.8 Hibernate 4.2.16最后 Apache Ignite 1.6 设置：具有字符串id和On/Off状态枚举的实体ToggleSwitch 等于()和hashcode()都是针对id实现的 @Cache使用READ_WRITE和默认区域读取节点执行EM.find()并每秒钟显示一次当前状态编写节点执行EM.find()并每3秒切换一次状态配置了事务原子性、分区缓存模式和FULL_SYNC写同步模式的两个节点。使用TcpDiscoverySharedFsIpFinder

浏览 4提问于2016-06-30得票数 3

回答已采纳

1回答

GraphX不适用于相对较大的图

、

我不能处理有230米边的图形。我克隆了apache.spark，构建了它，然后在集群上试用了它。我使用星火独立集群： -5 machines (each has 12 cores/32GB RAM) -'spark.executor.memory' == 25g -'spark.driver.memory' == 3g 图有231359027条边。它的文件重4,524,716,369字节。图以文本格式表示： sourceVertexId destinationVertexId 我的代码： object Canonical { def main(args:

浏览 3提问于2015-03-14得票数 3

1回答

Spark Dynamic Partition overwrite on multiple columns生成空白输出

、、

我在HDP 2.6.5集群和hadoop 2.7.5上使用spark 2.3.0。今天晚上我遇到了一个问题。我在我的一个验证脚本中使用了下面的动态分区覆盖。 DF.coalesce(1).write.partitionBy("run_date","dataset_name").mode("overwrite").csv("/target/path") 但是它只用_SUCCESS文件写入空白输出。我在spark会话中设置了以下配置。 .config("spark.sql.sources.partitionOverwrite

浏览 19提问于2020-09-10得票数 0

1回答

火花的洗牌排序合并连接。一个DataFrame是桶状的。斯派克会利用这个机会吗？

我记得在使用RDD时，如果一个键值RDD (rdd1)有一个已知的分区，那么使用不同的、不分区的键值RDD (rdd2)执行一个连接就会提高性能。这是因为1)只有rdd2的数据需要在网络上传输，2) rdd2的每个元素只需要传输到一个节点，而不是所有节点，方法是将rdd1的密钥划分到rdd2的密钥上。我正在学习与DataFrames的洗牌排序合并连接。我正在读的这本书(学习火花，第二版)中的例子是为了加入两个基于DataFrames列的user_id。该示例试图演示如何从联接操作中消除Exchange阶段，因此，在连接之前，两个DataFrames将被加入的列放入相同数量的桶中。我的问题是

浏览 2提问于2020-08-06得票数 0

回答已采纳

1回答

如何将数据帧中的org.apache.spark.mllib.linalg.Vector保存到cassandra

、、、、

我需要在其中一列中保存包含org.apache.spark.mllib.linalg.Vector的dataframe。在cassandra中从dataframe创建表时，抛出错误。 java.lang.Exception: Cassandra Writer Failed. java.lang.IllegalArgumentException: Unsupported type: org.apache.spark.mllib.linalg.VectorUDT@f71b0bce at com.datastax.spark.connector.types.ColumnType$.u

浏览 28提问于2016-08-09得票数 3

3回答

比较空字符和字符抛出异常

、

为什么下面的代码会抛出一个NPE？ Character c = null; if(c == ' ') { System.out.println("Is space"); } 这是c.equals(' ')的一些语法糖吗？

浏览 1提问于2018-05-09得票数 3

3回答

读取spark中的字节列

、、、

我有一个数据集，其中包含一个ID字段，该字段使用未知(而不是友好)编码。我可以使用平原python读取单个列，并验证这些值在多个数据集之间是不同的和一致的(也就是说，它可以用作连接的主键)。当使用spark.read.csv加载文件时，spark似乎正在将该列转换为utf-8。但是，一些多字节序列被转换为Unicode字符U+FFFD REPLACEMENT CHARACTER. (EF BF BD in十六进制)。是否有一种方法可以强制Spark以字节而不是字符串的形式读取列？下面是一些代码，可以用来重新创建我的问题(让列a作为ID字段)：使用示例数据创建文件 data = [

浏览 1提问于2018-08-21得票数 10

1回答

当下面的消息显示时，Spark SQL正在做什么

、

我是Spark SQL的新手，我试着运行一个查询，并注意到Spark SQL已经有很长一段时间了。 scala> spark.time(query.collect) [Stage 169:===========> (44 + 4) / 58][Stage 170:> (0 + 0) / 58] 有谁知道像169，(44 + 4) / 58或(0 + 0) / 58)这样的表达方式吗？

浏览 16提问于2019-10-09得票数 0

1回答

在查询优化和总体效率方面，MySQL是否比Apache spark更高效

、

我发现在spark数据帧上进行相同的查询和相同的表查询时，Apache spark要比MySQL服务器慢得多。那么，spark在哪里比MySQL更有效呢？注意:在一个包含100万行的表上进行了尝试，所有10列的类型都是text。 json中的表大小约为10 is 使用独立的pyspark笔记本电脑，配备至强16核和64 on内存，位于同一服务器MySql上一般来说，我想知道在目标数据大小方面何时使用SPARK与SQL server的指导原则，以便从分析查询中获得真正快速的结果。

浏览 0提问于2016-06-19得票数 0

1回答

无法从dataframe提取数组/列表，AnalysisException :需要struct类型但获得二进制

、、、、

我有一个带有String[]的数据集，我很难从其中提取列。这是密码 import static org.apache.spark.sql.functions.col; //Read parquet data Dataset<Row> readerDF = spark.readStream().format("parquet"). List<String> columns = Arrays.asList("city","country"); //Interested in only field in data for n

浏览 1提问于2017-08-15得票数 0

回答已采纳

1回答

将粘贴问题从ssms 2012复制到Excel

、、

我面临着从ssms 2012复制和粘贴数据到excel的问题。在复制粘贴时，某些行会被分解到excel中。例如:下面这行在excel中被拆分成多列。 (310) 277 4657 Lori Parkes called adv not auth on the account, provided general info re LEASE EXTENSION: 1 2 mo. as courtesy. 4 more with Prod# or POD. Max 6 mo Same mo pymt, credit reporting remains active. Prorated

浏览 3提问于2019-08-29得票数 0

1回答

在保存到CSV时，火花写入额外行

、

我写了一个包含1,000,000行的文件。当我把拼花文件读回来时，结果是1,000,000行。 df = spark.read.parquet(parquet_path) df.count() >>> 1000000 当我将拼花文件保存到CSV，读取它，然后数行，输出是1,000,365。 df.write.csv(csv_path, sep='\t', header=False, mode='overwrite') df_csv = spark.read.csv(csv_path, sep='\t', header=Fals

浏览 6提问于2022-05-05得票数 0

回答已采纳

2回答

星火未能将字符串转换为时间戳。

、、、、

我有一个包含String列的hive表:这是一个示例： | DT | |-------------------------------| | 2019-05-07 00:03:53.837000000 | 当我试图导入Scala中的表时，将字符串转换为时间戳时，我只有空值： val df = spark.sql(s

浏览 0提问于2019-08-01得票数 0

回答已采纳

1回答

如何在Pyspark中读取多行CSV文件

、、、

我将此推文数据集与Pyspark一起使用，以便对其进行处理，并根据推文的位置获取一些趋势。但我在尝试创建数据帧时遇到了一个问题。我使用spark.read.options(header="True").csv("hashtag_donaldtrump.csv")创建数据帧，但是如果我查看tweets列，我会得到以下结果： ? 你知道如何清理CSV文件，以便它可以被Spark处理吗？提前谢谢你！

浏览 14提问于2021-01-15得票数 0

回答已采纳

1回答

Spark Java堆错误

、、、

我不确定这里发生了什么以及为什么。我有一个数据帧，这是加载为熊猫和火花数据帧。数据帧是稀疏的，这意味着大部分数据都是零。它的尺寸是56K×9K。所以不是很大我还在spark/conf/spark-defaults.conf文件中放入了以下命令 spark.driver.memory 8g spark.executor.memory 2g spark.driver.maxResultSize 2g spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value s

浏览 2提问于2016-09-07得票数 1

1回答

由于配置单元元存储中的许多分区而导致的错误

、、、

我使用Apache spark-sql从数据库中查询数据。我知道Spark在默认情况下共享同一转移的hive。我已经根据列id对输入数据进行了分区，这些列有超过300k个不同的值。到目前为止，该表有超过300k的分区，而且还会定期增加。有没有因此而产生的问题？

浏览 0提问于2015-11-23得票数 0

1回答

pyspark应为: decimal(16,2)，找到: BINARY

、、

当我试图查看从拼图文件创建的dataframe中的数据时，我遇到了下面的错误。 Expected: decimal(16,2), Found: BINARY at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.nextIterator(FileScanRDD.scala:221) at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.hasNext(FileScanRDD.scala:130)

浏览 153提问于2020-04-30得票数 2

1回答

如何用火花决策树调整分类阈值

、、

我正在使用Spark2.0和新的spark.ml。包。是否有办法调整分类阈值，以减少假阳性的数量。如果重要的话，我也在使用CrossValidator。我看到RandomForestClassifier和DecisionTreeClassifier都输出了一个概率列(我可以手动使用它，但是GBTClassifier没有。

浏览 1提问于2016-09-07得票数 5

回答已采纳

1回答

Spark中使用梯度提升树的多类分类:仅支持二分类

、、、、

同时尝试在Spark mllib中使用梯度增强树运行多类分类。但是它给出了一个错误“只支持二进制分类”。因变量有8个水平。数据有276列和7000个实例。 import org.apache.spark.SparkContext._ import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPoint import org.apache.spark.mllib.util.MLUtils import org.apache.spark.mllib.feature.Chi

浏览 1提问于2016-03-07得票数 1

1回答

为什么加入星火在本地模式是如此缓慢？

、、、

我使用星火在本地模式和一个简单的连接是太长。我获取了两个数据文件:a (8列和230万行)和B(8列和120万行)，并使用A.join(B,condition,'left')连接它们，最后调用了一个操作。它创建一个包含三个阶段的单个作业，每个阶段用于两个数据文件提取，另一个用于加入。令人惊讶的是，提取数据的阶段A大约需要8分钟，而数据B则需要1分钟。几秒钟之内就会加入。我的重要配置设置是： spark.master本地的* spark.driver.cores 8 spark.executor.memory 30g spark.driver.memory 30g

浏览 0提问于2016-12-25得票数 5

回答已采纳

1回答

Snowplow -在运行时获取错误

、

我正在根据上的指南使用Spark来解析snowplow的事件。我的代码看起来像这样 import com.snowplowanalytics.snowplow.analytics.scalasdk.json.EventTransformer import org.apache.spark.{ SparkConf, SparkContext } import org.apache.spark.SparkContext._; import java.util.Calendar import org.apache.spark.graphx._ import org.apache.spark.rdd

浏览 16提问于2016-09-05得票数 2

3回答

火花拼花统计(最小/最大)集成

、

我一直在研究星火如何在Parquet中存储统计数据(min/max)，以及它如何使用信息进行查询优化。我有几个问题要问。第一次安装: Spark 2.1.0，下面设置一个1000行的Dataframe，其中包含一个长类型和一个字符串类型列。不过，它们是按不同的列排序的。 scala> spark.sql("select id, cast(id as string) text from range(1000)").sort("id").write.parquet("/secret/spark21-sortById") scala> sp

浏览 3提问于2017-01-17得票数 8

回答已采纳

1回答

处理计算中的负值(Databricks-Spark SQL)

当将spark SQL表中的两列与随机负值相乘时，对于其中一列中具有负值的列，将返回"NaN“。有什么技术可以帮助计算吗？ SELECT temperature * days FROM weather_data

浏览 48提问于2021-02-05得票数 0

回答已采纳

1回答

如何将Avro中的字节列(逻辑类型为十进制)转换为十进制？

、、、、

在我的avro模式中，我的十进制列"TOT_AMT“定义为类型”字节“，逻辑类型为”十进制“。在使用databricks -avro在spark中创建数据框架之后，当我尝试使用sum函数对TOT_AMT列进行求和时，它抛出“函数和需要数值类型而不是Binarytype”错误。列的定义如下所示， name="TOT_AMT"，"type":"null"，{“type”：“字节”，“逻辑类型”：“十进制”，“精度”：20，“缩放”：10} 我正在创建数据收集和总结， val df=sqlContext.read.format("c

浏览 2提问于2017-03-06得票数 1

1回答

如何在Spark Rdd中转换Seq

、、

我正在使用Spark Scala和Play框架，我有一个这样的seq //a sequence of Book objects val books:[Seq[Book]] 我用json文件中的format方法填充： implicit val bookFormat: Format[Libri] = { ((JsPath \ "City").format[String] and (JsPath \ "GEN").format[Int] and (JsPath \ "SER").format[Int] ) (Lib

浏览 0提问于2016-10-19得票数 3

1回答

StackOverflowError失败

、、、

我计划在AWS Glue中将固定宽度转换为Parquet，我的数据大约有1600列，大约3000行。似乎当我试图写火花数据(在地板)，我得到了"StackOverflow“的问题。即使在count()、show()等情况下也会发现问题。我尝试调用cache()、重新分区()，但仍然看到这个错误。如果我将列数减少到500列，代码就能工作。请帮帮忙下面是我的代码 data_df = spark.read.text(input_path) schema_df = pd.read_json(schema_path) df = data_df for

浏览 8提问于2021-11-10得票数 0

回答已采纳

1回答

如何跳过格林梅利表中的串行列而从火花数据插入到格林梅

、、、

以下是所有所需的信息和代码： val gscReadOptionMap = Map( "url" -> s"jdbc:postgresql://${jdbcHostname}:${jdbcPort}/${jdbcDatabase}", "user" -> jdbcUsername, "password" -> jdbcPassword, "dbschema" -> "public", "dbtable"

浏览 8提问于2022-05-03得票数 1

4回答

如何将空映射类型列添加到DataFrame？

、、、、

我想向dataframe添加一个新的map类型列，如下所示： |-- cMap: map (nullable = true) | |-- key: string | |-- value: string (valueContainsNull = true) 我试过密码： df.withColumn("cMap", lit(null).cast(MapType)).printSchema 错误是： :132: error:重载的方法值转换为可选方法： (致: String)org.apache.spark.sql.Column ( to : org.apache.sp

浏览 12提问于2017-05-28得票数 10

回答已采纳

2回答

每批大小的火花流调整记录的数量不起作用？

、、

我的星火流应用程序是从卡夫卡读取使用DStream方法，我试图获得批量大小，以处理60,000条消息在10秒内。我所做的，创建了一个具有3个分区的主题 spark.streaming.kafka.maxRatePerPartition = 60000 spark.streaming.backpressure.enabled = true 创建StreamingContext时，将批处理持续时间设置为10秒在纱线模式下运行，有2个执行器(4个芯，3个分区) 现在我如何测试这是可行的。我有一个制作人，它会立即向这个主题发送6万条信息。当我检查spark时，会得到

浏览 0提问于2019-07-08得票数 2

回答已采纳

1回答

分区上的星火数据格式withColumn

、、、

dataframe中的列"colA“包含整数值： +-----+ | colA| +-----+ | 1| | 2| | 1| | 3| +-----+ 这些整数值可以通过Redis字典映射到字符串： +----+------+ | key| value| +----+------+ | 1| a| | 2| b| | 3| c| +----+------+ 我需要创建一个新列"colB“，它将包含"colA”到字符串值的映射： +-----+-----+ | colA| colB| +-----+-----+

浏览 0提问于2018-02-05得票数 1

回答已采纳

1回答

我如何配置纱线地址的纱线-客户模式在火花？

、

从远程scala程序中，使用Spark1.3，如何初始化sparkContext，以便能够连接到运行在纱线上的Spark？也就是说，我应该把纱线节点的地址放在哪里？目前，我的程序包括： val conf = new SparkConf().setMaster("yarn-client").setAppName("MyApp") val sc = new SparkContext(conf) 它会产生 [error] (run-main-0) java.lang.ExceptionInInitializerError java.lang.Exceptio

浏览 3提问于2015-05-18得票数 0

回答已采纳

1回答

用二进制(原始缓冲区)列读取拼图

、、

浏览 6提问于2022-01-17得票数 3

1回答

向DeepLearning4J模型输入Spark

、、、

我的spark dataframe (df)中有数据，它有24个特性，第25列是我的目标变量。我想在这个dl4j上拟合我的dataset模型，它以org.nd4j.linalg.api.ndarray.INDArray, org.nd4j.linalg.dataset.Dataset或org.nd4j.linalg.dataset.api.iterator.DataSetIterator的形式输入。如何将我的dataframe转换成所需的类型？我还尝试使用管道方法直接将火花数据输入到模型中。但是dl4j火花-ml的sbt依赖不起作用。我的build.sbt文件是： scalaVersion

浏览 0提问于2017-06-13得票数 1

回答已采纳

1回答

在码头集装箱齐柏林飞艇运行火花时未发现lzo

、、、

我试图在齐柏林飞艇上运行星火代码，我得到了这样的信息: java.lang.ClassNotFoundException:类com.hadoop.compression.lzo.LzoCodec未找到同样的问题与齐柏林飞艇嵌入式火花和从我自己安装的火花外壳(1.6.3) Conf : 来自debian的码头集装箱:jessie 齐柏林飞艇版本: 0.6.2 (安装自tar，而不是从源代码构建) cdh版本: 5.9.0 liblzo2-dev和hadoop-lzo安装在容器上。 SPARK_HOME和HADOOP_HOME被设置为env var，在conf/zeppeli

浏览 0提问于2016-12-30得票数 2

回答已采纳

1回答

如何根据同一行中的另一个下拉列表设置dataprovider？

、、、、

我有一个可编辑的flex spark datagrid，有两列。参数和值。我被要求更改datagrid，这样第一列参数只能设置为来自设置的datalist的值。第二列值也必须根据下拉框设置为离散值，该下拉框基于参数列中的值。如何设置Values列的dataprovider，使其依赖于Parameter列中选定的项？ **注意，这里提供的代码是简化的，在我的实际代码中，我将项目渲染设置为不同的类。但如果我必须这样做才能使数据可用，我会内联。 <s:columns> <s:ArrayList> <s:GridColumn m

浏览 11提问于2014-02-25得票数 1

1回答

如何从列表中创建spark数据帧

、

我有一个scala List List[Any] = List("a", "b",...)，我需要获取一个Spark dataframe，它只包含列表中所有列的一行。我正在尝试用返回org.apache.spark.rdd.RDD[Any] = ParallelCollectionRDD[5834] at parallelize at <console>:81的sc.parallelize(myList)来创建一个RDD 但是，我也不能选择该行的特定元素：sc.parallelize(myList).map(line => line(0))返回

浏览 2提问于2018-09-26得票数 1

1回答

如何在火花配置中使用来自AssumeRole的临时凭据

、、

我目前面临的一个问题是，我无法创建一个使用临时凭据(来自不同AWS帐户中假定的角色)的星火会话(通过PySpark)。其想法是在帐户B中承担一个角色，获得临时凭据，并在帐户A中创建星火会话，以便允许帐户A通过火花会话与帐户B进行交互。我几乎已经尝试了火花会话中所有可用的配置。是否有人使用临时凭据创建火花会话的参考资料？ role_arn = "arn:aws:iam::account-b:role/example-role" duration_seconds = 60*15 # durations of the session in seconds # obtain th

浏览 9提问于2022-02-22得票数 -1

1回答

用IN子句订购是如何在火种中工作的？

、

我在spark.sql中运行下面的查询，它有带有order by语句的IN子句这是我的原始数据：查询： SELECT *, ROW_NUMBER() OVER (PARTITION BY id ORDER BY category IN ('TV','laptop'), created_at desc) as rn FROM table2 结果：你能帮我解释一下这个结果吗？我在IN子句中添加了“TV”和“膝上型电脑”，然后它应该位于最上面的行(rn =1到4)。我在雪花上也观察到了同样的行为。在查询中添加IN ('T

浏览 3提问于2022-01-10得票数 2