在Apache Spark中使用toDF方法创建乱序数据帧_在Spark Scala中动态创建数据帧_Spark在IDE中创建数据帧(使用databricks-connect) - 腾讯云开发者社区

scala、apache-spark、sbt、databricks、databricks-connect

我正在尝试使用databrick connect在IDE中运行我的databricks笔记本中的一些代码。我似乎想不出如何创建一个简单的数据帧。使用： import spark.implicits._ var Table_Count = Seq((cdpos_df.count(),I_count,D_count,U_count)).toDF("Table_Count","I_Count","D_Count","U_Count") 给出错误消息value toDF is not a member of Seq[(Long, L

浏览 69提问于2021-09-14得票数 0

6回答

如何在spark中将rdd对象转换为dataframe

scala、apache-spark、apache-spark-sql、rdd

如何将RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row])转换为数据帧org.apache.spark.sql.DataFrame。我使用.rdd将数据帧转换为rdd。在处理之后，我想把它放回数据帧中。我该怎么做呢？

浏览 56提问于2015-04-01得票数 150

回答已采纳

1回答

将向量集合转换为数据帧时出现架构错误

scala、apache-spark

我有一个名为values的矢量集合，我正尝试将其转换为数据帧 scala.collection.immutable.Vector[(String, Double)] = Vector((1,1.0), (2,2.4), (3,3.7), (4,5.0), (5,4.9)) 我定义了一个自定义模式，如下所示，并尝试进行转换。 val customSchema = new StructType() .add("A", IntegerType, true) .add("B", DoubleType, true) val df = values.to

浏览 9提问于2019-01-04得票数 0

2回答

DataFrame错误：“重载方法值select with alternatives”

scala、apache-spark、dataframe

我尝试通过从数据帧中选择小时+分钟/60和其他列来创建新的数据帧，如下所示： val logon11 = logon1.select("User","PC","Year","Month","Day","Hour","Minute",$"Hour"+$"Minute"/60) 我得到的错误如下： <console>:38: error: overloaded method value select with alternatives: (

浏览 0提问于2017-02-12得票数 2

回答已采纳

2回答

如何在spark中使用Regexp_replace

scala、apache-spark、apache-spark-sql、regexp-replace

我是spark的新手，我想在数据帧的列上执行一个操作，以便用.替换列中的所有, 假设有一个数据帧x和列x4 x4 1,3435 1,6566 -0,34435 我希望输出结果为 x4 1.3435 1.6566 -0.34435 我使用的代码是 import org.apache.spark.sql.Column def replace = regexp_replace((x.x4,1,6566:String,1.6566:String)x.x4) 但是我得到了以下错误 import org.apache.spark.sql.Column <console>:1: error: &

浏览 1提问于2016-10-17得票数 17

1回答

左连接错误: org.apache.spark.sql.AnalysisException:检测到隐式笛卡尔乘积

scala、apache-spark、apache-spark-sql

"left join“需要在一个数据帧上使用"spark.sql.crossJoin.enabled=true”或调用"persist()“。 SELECT * FROM LHS left join RHS on LHS.R = RHS.R 如何在没有"spark.sql.crossJoin.enabled=true“和持久化数据帧的情况下使”左连接“工作？下面的例外发生在Spark 2.3.3和2.4.4中。线程"main“org.apache.spark.sql.AnalysisException中出现异常:检测到逻辑计划OneRowRelati

浏览 0提问于2019-09-07得票数 0

1回答

将DataStream数据保存到MongoDB /将DS转换为DF

mongodb、apache-spark、apache-kafka、spark-streaming

我可以将数据帧保存到mongoDB，但是我在spark streaming中的程序提供了数据流( kafkaStream )，并且我无法将其保存在mongodb中，我也无法将此数据流转换为数据流。有没有什么库或方法可以做到这一点？我们非常感谢您提供的任何意见。 import org.apache.spark.SparkConf import org.apache.spark.streaming.StreamingContext import org.apache.spark.streaming.Seconds import org.apache.spark.streaming.kafka.Ka

浏览 0提问于2016-05-10得票数 0

1回答

将函数映射到pyspark RDD后无法收集数据

python、apache-spark、pyspark

我有一个单列的pyspark.sql.dataframe.DataFrame (评论)，它看起来像这样： +--------------------+ | comment| +--------------------+ | nan| | nan| | nan| |So far it has per...| |I purchased it fo...| +--------------------+ 我直接从这个数据帧中以这种方式映射了一个函数： tokens_rdd = com

浏览 0提问于2019-03-01得票数 1

2回答

将dataframe中的字符串数据转换为双精度

scala、apache-spark、apache-spark-sql

我有一个包含双type.When的csv文件，我加载到一个数据帧中，我收到这个消息，告诉我类型字符串是java.lang.String，不能转换为java.lang.Double，尽管我的数据是numeric.How，我是否应该修改代码，从这个包含双type.how的csv文件中获得数据帧？ import org.apache.spark.sql._ import org.apache.spark.sql.functions._ import org.apache.spark.sql.SparkSession import org.apache.spark.sql.types.{ArrayTy

浏览 2提问于2017-01-02得票数 4

1回答

在Scala / Spark 1.6中将多个输入文件加载到一个数据帧中

scala、dataframe

我正在尝试将多个输入文件加载到单个数据帧中： val inputs = List[String]("input1.txt", "input2.txt", "input3.txt") val dataFrames = for ( i <- inputs; df <- sc.textFile(i).toDF() ) yield {df} val inputDataFrame = unionAll(dataFrames, sqlContext) // union of all given DataFrames private

浏览 2提问于2016-10-11得票数 0

1回答

在Apache Spark中使用toDF方法创建乱序数据帧

scala、apache-spark、apache-spark-sql、rdd

我使用Spark 2.4.4并尝试获取下面给出的数据帧。 val spark = SparkSession .builder .master("local[*]") .appName("App") .getOrCreate import spark.sqlContext.implicits._ import spark.implicits._ val justNow = spark.sparkContext.parallelize( S

浏览 45提问于2021-01-03得票数 1

回答已采纳

1回答

如何在Spark中向数据集添加模式？

apache-spark

我正在尝试将一个文件加载到spark中。如果我将一个普通的textFile加载到Spark中，如下所示： val partFile = spark.read.textFile("hdfs://quickstart:8020/user/cloudera/partfile") 结果是： partFile: org.apache.spark.sql.Dataset[String] = [value: string] 我可以在输出中看到一个数据集。但是如果我加载一个Json文件： val pfile = spark.read.json("hdfs://quickstart:80

浏览 6提问于2017-07-07得票数 0

回答已采纳

2回答

在添加新列时，date_trunc函数不能处理spark数据帧

scala、apache-spark、apache-spark-sql

我想在包含date列的数据框上使用date_trunc函数，这样我就可以创建一个新列，该列将给出该记录与哪个季度相关联的信息。我试过的东西如下： import org.apache.spark.sql.functions._ val test = Seq(("2010-03-05"),("2018-01-16"),("2018-04-20")).toDF("TestDates") display(test) //this displays the date in the notebook val datetrunctest

浏览 17提问于2020-09-16得票数 1

1回答

Scala Spark基于另一列中的值的聚合计数在数据帧中创建新列

scala、apache-spark

我有一个spark数据框架，如下所示 +-----+----------+----------+ | ID| date| count | +-----+----------+----------+ |54500|2016-05-02| 0| |54500|2016-05-09| 0| |54500|2016-05-16| 0| |54500|2016-05-23| 0| |54500|2016-06-06| 0| |54500|2016-06-13| 0| |54441|2016

浏览 0提问于2020-09-08得票数 0

1回答

为什么我的数据类型在作为Int开始时是Any？

scala、types、spark-dataframe

我正在读入一个带有权重的有向边(源节点和目标节点)的文件；第一部分似乎工作得很好： import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import org.apache.spark.sql.SQLContext import org.apache.spark.sql.functions._ object Q2 { case class Edge(src: Int, tgt: Int, weight: Int) ca

浏览 0提问于2018-03-11得票数 1

1回答

如何在不在参数类中建模的情况下通过spark映射器传递数据？

scala、apache-spark、spark-structured-streaming

我需要对dataframe行进行有状态处理。为此，我需要创建一个bean或case类，对有状态处理所需的数据进行建模。我希望保留数据帧中的其他数据，以便在有状态处理之后使用，而不是在case类中对其进行建模。如何做到这一点？在无状态处理中，我们可以通过使用UDF在某种程度上停留在DataFrame领域，但我们在这里没有这样的选择。这是我尝试过的： package com.example.so import org.apache.spark.sql.{Row, SparkSession} import org.apache.spark.sql.functions._ import org

浏览 18提问于2018-12-25得票数 0

2回答

将列名添加到从csv文件读取的不带列名的数据

scala、csv、apache-spark、apache-spark-sql

我在Scala中使用Apache Spark。我有一个csv文件，它的第一行没有列名。它是这样的： 28,Martok,49,476 29,Nog,48,364 30,Keiko,50,175 31,Miles,39,161 这些列表示ID、名称、年龄、numOfFriends。在我的Scala对象中，我使用SparkSession从csv文件创建数据集，如下所示： val spark = SparkSession.builder.master("local[*]").getOrCreate() val df = spark.read.option("inferSc

浏览 4提问于2017-11-05得票数 10

回答已采纳

1回答

无法将spark json数据帧加载到配置单元表中

scala、apache-spark、apache-spark-sql、spark-dataframe

我希望将数据帧转换为json对象，并将其加载到json表中。下面是代码创建表 spark.sql("""create table IF NOT EXISTS user_tech.tests ( Z struct<A:string, B:string, C:string> ) stored as orc """) import org.apache.spark.sql._ 初始数据帧 val df = Seq((1,2,3),(2,3,4)).toDF("A", "B", "C"

浏览 1提问于2018-02-17得票数 0

回答已采纳

1回答

如何创建带时间戳的spark数据帧

scala、apache-spark

如何在一步中创建具有timestamp数据类型的spark数据帧？下面是我如何在两个步骤中做到这一点。使用spark 2.4 首先创建带有时间戳字符串的dataframe import org.apache.spark.sql.types._ import org.apache.spark.sql.functions.to_timestamp val eventData = Seq( Row(1, "2014/01/01 23:00:01"), Row(1, "2014/11/30 12:40:32"), Row(2, "2016/1

浏览 10提问于2019-02-27得票数 5

回答已采纳

1回答

从地图序列创建火花数据

scala、apache-spark-sql

我有一系列的地图。每个映射包含作为键的列名和作为值的列值。一张地图描述了一行。我不知道地图上会有多少个条目。所以我不能在代码中创建一个固定长度的元组。我想把序列转换成数据帧。我尝试了以下代码： val mapRDD= sc.parallelize(Seq( Map("col1" -> "10", "col2" -> "Rohan", "col3" -> "201"), Map("col1" -> "13", "col2"

浏览 0提问于2018-09-04得票数 0

回答已采纳

1回答

org.apache.spark.sql.AnalysisException:无法解析给定的输入列的'`AB`‘：无法解析spark sql查询中的变量

scala、apache-spark、apache-spark-sql

所以我在Scala中使用spark SQL API。我在查询中使用了一个变量。下面是代码片段。DF2_VIEW是为数据帧创建的视图。 val x = 'AB' val newDf = spark.sql(s"""select * from GLOBAL_TEMP.DF2_VIEW WHERE $x = SOME_FIELD_IN_DF2_VIEW""") 它向我显示了错误 Exception in thread "main" org.apache.spark.sql.AnalysisE

浏览 29提问于2019-03-13得票数 0

回答已采纳

1回答

Spark SCALA -连接两个数据帧，其中一个数据帧中的连接值位于第二个数据帧中的两个字段之间

apache-spark、apache-spark-sql、spark-streaming

我有两个数据帧(删除与问题无关的字段)： df1: org.apache.spark.sql.DataFrame = [rawValue: bigint] df2: org.apache.spark.sql.DataFrame = [startLong: bigint, endLong: bigint] 我现在想连接两个数据帧，其中： rawValue(df1) >= startLong(df2) AND <= endLong(df2) 有没有人能推荐一种有效的方法呢？我想的一个选择是连接df2，然后做一个直接的连接，但是如果有一个有效的方法来做上面的join，我不想这么做。

浏览 0提问于2018-03-09得票数 0

1回答

Scala Spark中的udf出现运行时错误

scala、apache-spark、apache-spark-sql、spark-dataframe、udf

我正在尝试在DataFrame中创建一个新列。这个新列将包含一个由长时间戳创建的格式化数据字符串，单位为毫秒。我一直收到这个错误： Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.sql.DataFrameReader.jdbc(Ljava/lang/String;Ljava/lang/String;Ljava/util/Properties;)Lorg/apache/spark/sql/Dataset; 它出现在下面的代码中： import org.apache.spark.S

浏览 2提问于2017-06-13得票数 1

1回答

将RDD转换为Dataframe Spark

scala、apache-spark、apache-spark-sql、spark-dataframe

如何在scala中将具有以下结构的RDD转换为dataframe org.apache.spark.rdd.RDD[(Long, org.apache.spark.mllib.linalg.Vector)] = MapPartitionsRDD[42] 这里，RDD的每一行都包含一个索引Long和一个向量org.apache.spark.mllib.linalg.Vector。我希望将org.apache.spark.mllib.linalg.Vector的每个组件放在一行数据帧中的单独列中。

浏览 2提问于2017-02-26得票数 2

1回答

使用创建火花DataFrames的最佳方法是什么？

scala、unit-testing、apache-spark、spark-dataframe

我正在为一个星火方法编写单元测试，它以多个数据帧作为输入参数，并返回一个数据帧。火花方法的代码如下所示： class processor { def process(df1: DataFrame, df2: DataFrame): DataFrame = { // process and return resulting data frame } } 相应单元测试的现有代码如下： import com.holdenkarau.spark.testing.DataFrameSuiteBase import org.apache.spark.sql.DataFrame

浏览 5提问于2017-12-19得票数 0

回答已采纳

2回答

如何根据项目或描述的列表在dataframe中删除不需要的行

scala、list、apache-spark、dataframe、filter

我有一个装满ip地址的数据。我有一个ip地址列表，我想从我的数据删除。在根据"lista“删除所有ip地址之后，我想要一个新的数据格式"filtered_list”。我在看到了一个例子。但我似乎无法让它工作，甚至在做一个“不”的过滤器，请帮助。示例： var df = Seq("119.73.148.227", "42.61.124.218", "42.61.66.174", "118.201.94.2","118.201.149.146", "119.73.234.82", &

浏览 1提问于2019-06-12得票数 1

回答已采纳

1回答

在scala for循环中附加数据loop后，Dataframe变为空

scala、apache-spark-sql

实际上，我试图在scala中的for循环中将一个dataframe附加到一个空的dataframe中。但是附加的数据文件每次都变成空的。下面是代码 import org.apache.spark.sql.SparkSession import org.apache.spark.sql._ import org.apache.spark.sql.types._ import org.apache.spark.sql.functions._ import java.io._ import org.apache.spark.sql.DataFrame object obj_Spark_url_Zi

浏览 4提问于2020-09-28得票数 0

回答已采纳

1回答

将RDD转换为DataFrame时的java.lang.StackOverFlowError

python、dataframe、rdd、pyspark-sql

尝试为大量RDD文档计算tf-idf分数，每当我尝试将其转换为数据帧时，它总是崩溃。我得到的初始错误是 org.apache.spark.SparkException: Job aborted due to stage failure: Task serialization failed: java.lang.StackOverflowError 然后是这个，重复了很多很多次： at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509) at java.io.Object

浏览 26提问于2019-11-08得票数 0

1回答

使用pyspark将RDD行转换为dataframe时出错

python、apache-spark、dataframe、pyspark

我编写了一个函数，希望将其应用于数据帧，但首先必须将数据帧转换为要映射的RDD。然后打印出来，这样就可以看到结果了： x = exploded.rdd.map(lambda x: add_final_score(x.toDF())) print(x.take(2)) 函数add_final_score接受一个数据帧，这就是为什么我必须在传递x之前将它转换回DF。但是，它给我的错误是toDF不在列表中： Py4JJavaError Traceback (most recent call last) <ipython-input-491

浏览 0提问于2018-05-07得票数 1

1回答

如何在Apache Spark中检查一列的值是否在另一列的数组中？

scala、apache-spark、apache-spark-sql

浏览 19提问于2021-06-02得票数 1

1回答

在Scala中将dataframe转换为Map时出现编译器错误

scala

我正在尝试将下面的dataframe: chunkMeta转换为scala中的映射： tablename Code table1 432 table2 567 table3 987 scala> val dataMap = chunkMeta.select($"tablename", $"code".cast("long")).as[(String, Long)].collect.toMap 如果我打印上面的地图，我可以看到数据： scala> dataMap.foreach(println) =&

浏览 42提问于2019-03-12得票数 1

回答已采纳

1回答

基于条件创建火花数据框架

scala、apache-spark、hive、spark-dataframe

我有两个数据帧：dataframe1有70000行，如下所示： location_id, location, flag 1,Canada,active 2,Paris,active 3,London,active 4,Berlin,active 第二，df lookup为每个位置修改了is (此数据帧不时被修改)，如下所示： id,location 1,Canada 10,Paris 4,Berlin 3,London 我的问题是，我需要从location_id中获取新id作为lookup，如果location_id与id不同，那么，将相应位置的旧id保持为非活动id (用于维护历史数据)，而

浏览 1提问于2017-09-29得票数 0

回答已采纳

1回答

如何使用spark 2.1将联合数据帧并行到一个数据帧

scala、apache-spark、apache-spark-sql

我希望将联合数据放入另一个数据帧的foreach循环中，但似乎丢失了一些数据。有什么解决方案可以解决我的问题吗？代码示例如下：本地set master(“/** *”)会丢失数据，set master("local1")不会丢失数据。**/ object testParallelizeDF extends App { import scala.util.Random import org.apache.spark.sql.SparkSession //val spark = SparkSession.builder().master("local[1]")

浏览 6提问于2019-08-01得票数 0

回答已采纳

1回答

通过在apache spark scala中编写单元测试来测试实用函数

scala、unit-testing、apache-spark

我有一个用scala编写的实用函数，可以从s3存储桶中读取拼图文件。有人能帮我写单元测试用例吗？下面是需要测试的功能。 def readParquetFile(spark: SparkSession, locationPath: String): DataFrame = { spark.read .parquet(locationPath) } 到目前为止，我已经创建了一个主节点为本地的SparkSession import org.apache.spark.sql.SparkSession trait Spark

浏览 16提问于2019-04-24得票数 3

回答已采纳

1回答

创建spark数据集时出现问题

apache-spark-sql

我正在尝试将json读入数据帧，然后再读入数据集。我正面临着下面的问题。谁能快点帮帮我。已成功创建PrintDF数据帧，下面是架构。 scala> personDF.printSchema(); root |-- personDF: struct (nullable = true) | |-- city: string (nullable = true) | |-- line1: string (nullable = true) | |-- postalCode: string (nullable = true) | |-- state: string (nul

浏览 0提问于2016-10-08得票数 0

2回答

在spark中为dataframe中的特定列应用逻辑

scala、apache-spark、dataframe、apache-spark-sql

我有一个Dataframe，它是从mysql导入的 dataframe_mysql.show() +----+---------+-------------------------------------------------------+ | id|accountid| xmldata| +----+---------+-------------------------------------------------------+ |1001| 12346|<AccountSetup

浏览 2提问于2018-08-29得票数 0

2回答

是否可以在创建DataFrame时指定列名

apache-spark

我的数据在csv文件中。该文件没有任何标题列 United States Romania 15 United States Croatia 1 United States Ireland 344 Egypt United States 15 如果我读了它，Spark会自动为列创建名称。 scala> val data = spark.read.csv("./data/flight-data/csv/2015-summary.csv") data: org.apache.spark.sql.DataFrame = [_c0: string, _c1: s

浏览 0提问于2019-02-03得票数 0

1回答

值toDF不是成员org.apache.spark.rdd.RDD

scala、apache-spark、spark-dataframe

def main(args: Array[String]) { val conf = new SparkConf().setMaster("local").setAppName("test") val sc = new SparkContext(conf) //require spark sql environment val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ val df1 = sc

浏览 0提问于2016-07-05得票数 4

3回答

Spark 1.5.2: org.apache.spark.sql.AnalysisException:未解析的运算符联合；

apache-spark

浏览 0提问于2016-07-29得票数 16

回答已采纳

1回答

如何使用PySparkSQL设置列的标题？

python、apache-spark、pyspark、apache-spark-sql

只是简单的提问伙计们。对于熊猫，我们可以创建一个dataframe并设置一个标题如下： import pandas as pd df = pd.read_csv('/file/path', sep='|', names = ['A','B']) 使用PySpark： text_file = sc.textFile('path/file') 另一方面，尽管我已经准备好阅读文档，但我没有找到如何设置标题和分隔符，也没有找到如何将数据集中的每一列的名称设置为熊猫。知道如何用PySparkSQL为每一列加上名称吗？更新：

浏览 0提问于2016-03-13得票数 1

1回答

Pyspark自联接，错误为“缺少已解析的属性”

python、python-3.x、pyspark、apache-spark-2.3

在执行pyspark dataframe自连接时，我收到一条错误消息： Py4JJavaError: An error occurred while calling o1595.join. : org.apache.spark.sql.AnalysisException: Resolved attribute(s) un_val#5997 missing from day#290,item_listed#281,filename#286 in operator !Project [...]. Attribute(s) with the same name appear in the oper

浏览 152提问于2019-07-03得票数 2

回答已采纳

1回答

为什么Dataset不接受自己的类型转换架构？

scala、apache-spark、apache-spark-dataset

我正在努力理解如何构建数据集模式。我有一个来自聚合的数据集，键元组在一列中，聚合在第二列中： > ds.show +------+------+ | _1| _2| +------+------+ |[96,0]| 93439| |[69,0]|174386| |[42,0]| 12427| |[15,0]| 2090| |[80,0]| 2626| |[91,0]| 71963| |[64,0]| 191| |[37,0]| 13| |[48,0]| 13898| |[21,0]| 2510| |[59,0]| 1874| |[32,0]| 373|

浏览 4提问于2016-07-27得票数 0

回答已采纳

1回答

将spark scala数据集转换为特定的RDD格式

scala、rdd、apache-spark-dataset

我有一个数据帧，看起来像这样： +--------------------+-----------------+ | recommendations|relevant_products| +--------------------+-----------------+ |[12949, 12949, 71...| [4343]| |[12949, 12949, 71...| [1589]| |[12949, 12949, 71...| [11497]| evaluation_ds:org.apache.spark.sql.Da

浏览 31提问于2019-03-02得票数 0

回答已采纳

2回答

聚合到一个列表中

scala、apache-spark-sql、spark-dataframe

假设我有以下Spark SQL数据帧(即org.apache.spark.sql.DataFrame)： type individual ================= cat fritz cat felix mouse mickey mouse minnie rabbit bugs duck donald duck daffy cat sylvester 我想将其转换为数据帧，如下所示： type individuals ================================ cat [fritz, feli

浏览 0提问于2017-06-30得票数 0

回答已采纳

1回答

星星之火:将rdd[row]转换为数据row，其中行中的一个列是一个列表

scala、apache-spark、apache-spark-sql、spark-dataframe

我有一个rddrow，每一行都有以下数据 [guid, List(peopleObjects)] ["123", List(peopleObjects1, peopleObjects2, peopleObjects3)] 我想把这个转换成数据格式我使用以下代码 val personStructureType = new StructType() .add(StructField("guid", StringType, true)) .add(StructField("personList", StringType, true

浏览 3提问于2016-06-07得票数 0

回答已采纳

1回答

spark在UDF中创建数据帧

scala、apache-spark、apache-spark-sql、user-defined-functions

我有一个例子，想在UDF中创建Dataframe。类似于下面的内容 import org.apache.spark.ml.classification.LogisticRegressionModel import org.apache.spark.ml.linalg.Vector import org.apache.spark.ml.feature.VectorAssembler 数据到数据帧 val df = Seq((1,1,34,23,34,56),(2,1,56,34,56,23),(3,0,34,23,23,78),(4,0,23,34,78,23),(5,1,56,23,2

浏览 2提问于2018-11-30得票数 1

2回答

使用case类将未知列添加为null

scala、apache-spark

我正在创建一个新的dataframe (由case类设置)，它的输入dataframe的列数可能比现有的要少/不同。我正在尝试使用case类将不存在的值设置为null。我使用这个case类来驱动要创建的新数据帧。输入数据帧(incomingDf)可能没有上面设置为null的所有变量字段。 case class existingSchema(source_key: Int , sequence_number: Int , subscriber_id: String

浏览 35提问于2019-04-17得票数 2

回答已采纳

3回答

从火花数据访问特定行

scala、apache-spark、azure-databricks

我是个新手，喜欢用天蓝色的星火/数据库来访问特定的行，例如数据文件中的第10行。到目前为止，这就是我在笔记本上所做的。 1.读取表中的CSV文件 spark.read .format("csv") .option("header", "true") .load("/mnt/training/enb/commonfiles/ramp.csv") .write .mode("overwrite") .saveAsTable("ramp_csv") 2.为“表”ramp_csv创

浏览 0提问于2019-10-24得票数 2

回答已采纳

2回答

错误:重载方法值createDataFrame

apache-spark

我试着创建Apache Spark dataframe val valuesCol = Seq(("Male","2019-09-06"),("Female","2019-09-06"),("Male","2019-09-07")) valuesCol: Seq[(String, String)] = List((Male,2019-09-06), (Female,2019-09-06), (Male,2019-09-07)) 模式 val someSchema = List(StructField

浏览 8提问于2019-09-19得票数 0

回答已采纳

1回答

org.apache.spark.ml.classification.LogisticRegression fit()的输入格式是什么？

scala、apache-spark

在训练LogisticRegression模型的示例中，他们使用RDDLabeledPoint作为fit()方法的输入，但他们写道："//我们使用LabeledPoint，这是一个case类。Spark SQL可以将case类//的RDD转换为SchemaRDD，其中它使用case类的元数据来推断模式。“ 这种转换发生在哪里？当我尝试此代码时： val sqlContext = new SQLContext(sc) import sqlContext._ val model = lr.fit(training); ，在训练类型为RDDLabeledPoint的情况下，它会给出一个编译错

浏览 7提问于2016-08-01得票数 1

回答已采纳