我正在尝试使用databrick connect在IDE中运行我的databricks笔记本中的一些代码。我似乎想不出如何创建一个简单的数据帧。 使用: import spark.implicits._
var Table_Count = Seq((cdpos_df.count(),I_count,D_count,U_count)).toDF("Table_Count","I_Count","D_Count","U_Count") 给出错误消息value toDF is not a member of Seq[(Long, L
我尝试通过从数据帧中选择小时+分钟/60和其他列来创建新的数据帧,如下所示:
val logon11 = logon1.select("User","PC","Year","Month","Day","Hour","Minute",$"Hour"+$"Minute"/60)
我得到的错误如下:
<console>:38: error: overloaded method value select with alternatives:
(
我正在尝试将多个输入文件加载到单个数据帧中:
val inputs = List[String]("input1.txt", "input2.txt", "input3.txt")
val dataFrames = for (
i <- inputs;
df <- sc.textFile(i).toDF()
) yield {df}
val inputDataFrame = unionAll(dataFrames, sqlContext)
// union of all given DataFrames
private
我想在包含date列的数据框上使用date_trunc函数,这样我就可以创建一个新列,该列将给出该记录与哪个季度相关联的信息。 我试过的东西如下: import org.apache.spark.sql.functions._
val test = Seq(("2010-03-05"),("2018-01-16"),("2018-04-20")).toDF("TestDates")
display(test) //this displays the date in the notebook
val datetrunctest
所以我在Scala中使用spark SQL API。我在查询中使用了一个变量。下面是代码片段。DF2_VIEW是为数据帧创建的视图。 val x = 'AB'
val newDf = spark.sql(s"""select * from GLOBAL_TEMP.DF2_VIEW
WHERE $x = SOME_FIELD_IN_DF2_VIEW""") 它向我显示了错误 Exception in thread "main" org.apache.spark.sql.AnalysisE
尝试为大量RDD文档计算tf-idf分数,每当我尝试将其转换为数据帧时,它总是崩溃。我得到的初始错误是
org.apache.spark.SparkException: Job aborted due to stage failure: Task serialization failed: java.lang.StackOverflowError
然后是这个,重复了很多很多次:
at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509)
at java.io.Object
我的数据在csv文件中。该文件没有任何标题列
United States Romania 15
United States Croatia 1
United States Ireland 344
Egypt United States 15
如果我读了它,Spark会自动为列创建名称。
scala> val data = spark.read.csv("./data/flight-data/csv/2015-summary.csv")
data: org.apache.spark.sql.DataFrame = [_c0: string, _c1: s
def main(args: Array[String]) {
val conf = new SparkConf().setMaster("local").setAppName("test")
val sc = new SparkContext(conf)
//require spark sql environment
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext.implicits._
val df1 = sc
在执行pyspark dataframe自连接时,我收到一条错误消息: Py4JJavaError: An error occurred while calling o1595.join.
: org.apache.spark.sql.AnalysisException: Resolved attribute(s) un_val#5997 missing from day#290,item_listed#281,filename#286 in operator !Project [...]. Attribute(s) with the same name appear in the oper
我正在创建一个新的dataframe (由case类设置),它的输入dataframe的列数可能比现有的要少/不同。我正在尝试使用case类将不存在的值设置为null。 我使用这个case类来驱动要创建的新数据帧。 输入数据帧(incomingDf)可能没有上面设置为null的所有变量字段。 case class existingSchema(source_key: Int
, sequence_number: Int
, subscriber_id: String
在训练LogisticRegression模型的示例中,他们使用RDDLabeledPoint作为fit()方法的输入,但他们写道:"//我们使用LabeledPoint,这是一个case类。Spark SQL可以将case类//的RDD转换为SchemaRDD,其中它使用case类的元数据来推断模式。“
这种转换发生在哪里?当我尝试此代码时:
val sqlContext = new SQLContext(sc)
import sqlContext._
val model = lr.fit(training);
,在训练类型为RDDLabeledPoint的情况下,它会给出一个编译错