将datetime字符串转换为spark sql_使用Spark SQL将字符串格式化为datetime_Spark SQL -将字符串转换为ASCII - 腾讯云开发者社区

、、、

我使用joda.time.Datetime库将字符串转换为datetime字段，但它引发不受支持的异常，这里是主要类代码： //create new var with input data without header var inputDataWithoutHeader: RDD[String] = dropHeader(inputFile) var inputDF1 = inputDataWithoutHeader.map(_.split(",")).map{p => val dateYMD: DateTime = DateTimeFormat.forPattern(

浏览 4提问于2016-01-14得票数 2

回答已采纳

1回答

PySpark:数据并不总是符合模式逻辑来修改数据

、、、

我刚开始使用PySpark，正在编写一个脚本，从.csv文件中读取。我已经在下面显式地定义了模式&这个脚本在当时的perfectly...most中工作。问题是，有时会有一个值进入不符合模式的文件，例如'-‘可能出现在整数字段中&因此，我们得到一个类型错误-当脚本中到达df1.show()时抛出错误。我试图想出一种有效的方法--如果值与定义的数据类型不匹配，那么将其替换为'‘ 有人知道这是否可能吗？任何建议都会很棒的！ from pyspark.sql import SparkSession import pyspark.sql.functions as

浏览 0提问于2018-09-20得票数 0

回答已采纳

1回答

将datetime列读取为stringType，并将其转换为给予空记录的日期时间

、、

我正在读取一个API调用，其中的datetime列中有以下格式的2016-07-27T11:34:33Z+0000。现在，我正在使用定义自定义模式来创建数据格式。 StructField("xyz",TimestampType(),True), StructField("abc",TimestampType(),True) Dataframe正在被创建，但是当我调用action时，它会产生错误。 org.apache.spark.SparkException: Job aborted due to stage failure: Task 6 in stag

浏览 3提问于2022-04-21得票数 1

1回答

Prem Large Table迁移至Redshift AWS Glue

、、

我有下面的脚本来移动不同大小的表中的所有列，9000万到2.5亿条记录，从本地Oracle数据库到AWS Redshift。该脚本还附加了几个给定的审计列： add_metadata1 = custom_spark_df.withColumn('line_number', F.row_number().over(Window.orderBy(lit(1)))) add_metadata2 = add_metadata1.withColumn('source_system', lit(source_system)) add_metadata3 = add_meta

浏览 12提问于2018-09-20得票数 0

2回答

如何在Spark SQL查询中使用Interval中的动态值

、、

一个工作的Spark SQL： SELECT current_timestamp() - INTERVAL 10 DAYS as diff from sample_table 我尝试过的Spark SQL (不起作用)： SELECT current_timestamp() - INTERVAL col1 DAYS as diff from sample_table 从上面的查询中得到的错误： mismatched input 'DAYS' expecting == SQL == SELECT current_timestamp() - INTERVAL col1 DAYS

浏览 6提问于2019-09-24得票数 4

2回答

在星火DataFrame中格式化TimestampType

、、、

当我尝试将字符串字段转换为TimestampType时，输出值将带有微秒精度( yyyy-MM-dd HH:mm:ss.S)。但我需要的格式是yyyy-MM-dd HH:mm:ss ie，不包括微秒精度。另外，我想将它保存为时间戳字段，同时将其写入一个拼花文件中。因此，我字段的数据类型应该是格式yyyy-MM-dd HH:mm:ss的时间戳。我试着用TimestampType作为 col("column_A").cast(TimestampType) or col("column_A").cast("timestamp") 将字段转换为时间戳。

浏览 2提问于2017-07-06得票数 3

1回答

将字符串转换为Pyspark中的时间戳对象

、、、、

我正在尝试将字符串转换为时间标记格式。 from pyspark.sql.types import DateType df = spark.createDataFrame([('28/Mar/2021:06:29:54 -0700',)], ['dt']) df.select(date_format('dt', 'd/M/y:h:m:s Z').alias('date')).collect() 这似乎不起作用，可能是因为date_format函数不承认这是一种有效的格式。我明白了： Row(date=None)

浏览 1提问于2021-04-01得票数 1

回答已采纳

1回答

从Apache Spark访问包含文本列的MySql表

、、、

我正在尝试使用Jdbc从Apache Spark读取一个MySql表。我得到了以下异常： 17/02/26 09:00:18 ERROR Executor: Exception in task 0.0 in stage 0.0 (TID 0) java.sql.SQLException: Value ' 5023512432017-02-14 16:25:4654617a68ad457d2c2017-02-14 16:07:280000-00-00 00:00:0282.460741.7354 1024.1963sphoneUTRAN13966003659671810.162.

浏览 1提问于2017-02-27得票数 0

1回答

SparkSQL (Spark1.3)用于日期操作的UDF

、、

我有一个包含两个字符串列的数据框架，其中包含日期信息(即"2014-01-01")。我想对这样的列做操作，比如强制转换到日期格式，并减去日期。我尝试使用我在internet上发现的内容来定义UDF，例如： import org.apache.spark.sql.types.DateType import org.apache.spark.sql.functions._ import org.joda.time.DateTime import org.joda.time.format.DateTimeFormat val d = DateTimeFormat.forPatter

浏览 1提问于2016-01-12得票数 1

回答已采纳

1回答

将2个Scala Spark Dataframe和一个Long值转换为一个JSON字符串

、

我在scala/spark数据管道中有3个对象。2是数据帧，1是长值。我需要创建一个单独的json对象，其中包括3个对象。例如，如果将特定日期作为请求传递给应用程序api： val df1 = getDF_1(date) val df2 = getDF_2(date) val value_3 = getValue_3(date) 我可以单独地将它们转换为json，但我很难创建一个JSON响应，比如： response = {"date":date, "values"{ "df1&#

浏览 8提问于2020-08-06得票数 0

1回答

如何与流窗口操作一起指定groupby中的多列？

、、

我无法在groupBy函数中指定列列表以及窗口操作。我现在的代码是： val groupCols = List("SINR_Distribution","NE_VERSION","NE_ID","NE_NAME","cNum","EarfcnDl","datetime","circle") val aggDFrame = dframe.groupBy(groupCols, window($"EVENT_TIME", "60 minutes

浏览 4提问于2020-10-30得票数 0

回答已采纳

1回答

时间戳格式为("dd-MMM-yy hh:mm:ss:SSSSSSSSS“)的字段的Spark (Scala)解析问题

、、、、

我想解析一个excel文件。这个文件有几个字段值作为时间戳格式("dd-MMM-yy hh:mm:ss:SSSSSSSSS aa")我已经将字段类型定义为时间戳，但是我的应用程序无法识别数据类型并且无法加载数据，尽管如果我使用StringType作为数据类型，那么它可以解析文件，但我不想使用这种替代方法。因此，寻找正确的解决方案。我的代码如下： ReadExcel("C:path\to\the\raw_file\Consignments.xlsx", "A1", MySchema, spark, "dd-MM-yyyy", &#

浏览 1提问于2019-10-05得票数 3

1回答

spark将带有hashMap的数据帧作为json写入postgres

、、

我正在与<spark.version>2.2.1</spark.version>合作，我想写一个数据帧，其中有一个映射字段到postgres作为json字段。示例代码： import java.util.Properties import org.apache.spark.SparkConf import org.apache.spark.sql.{SaveMode, SparkSession} import scala.collection.immutable.HashMap case class ExampleJson(map: HashMap[String

浏览 44提问于2021-05-19得票数 1

回答已采纳

1回答

在mysqldump中指定日期格式

、、、

我正在尝试将数据从mysql数据库迁移到MS Sql Server2014，但mysqldump生成的转储出现了问题。这个问题是因为日期的格式，在转储中它们是这样的： yyyy-MM-dd HH:mm:ss.sss 当我在sql server的datetime列中插入此格式的值时，它会将其理解为： yyyy-dd-MM HH:mm:ss.sss 有没有办法告诉mysqldump使用不同的日期格式？

浏览 1提问于2015-12-04得票数 1

2回答

将Spark dataframe列从字符串转换为日期

、

我有一个从sql上下文构建的spark dataframe。我使用DATE_FORMAT(time, 'Y/M/d HH:00:00') AS time_hourly截断了a日期时间字段现在，列类型是一个字符串。如何将字符串dataFrame列转换为datetime类型？

浏览 2提问于2016-08-18得票数 1

1回答

如何在DataFrame中使用具体的时间戳填充任何值？

、、

我使用Spark2.1和python2.7.12。假设以下内容： from pyspark.sql.functions import * import timestamp data = [Row(time=datetime.datetime(2017, 1, 1, 0, 0, 0, 0)), Row (time=datetime.datetime(1980, 1, 1, 0, 0, 0, 0)), Row(time=None) ] df = spark.createDataFrame(data) 如何使用df.fillna({'time': datetime.dateti

浏览 3提问于2017-05-16得票数 6

回答已采纳

1回答

星火转换列到存储在字符串中的sql类型

、、、

简单的请求是，我需要帮助将列添加到dataframe，但是，列必须是空的，它的类型来自...spark.sql.types，类型必须由字符串定义。我也许可以用ifs或case来完成这个任务，但是我正在寻找更优雅的东西。不需要为org.apache.spark.sql.types中的每一种类型编写案例的东西例如，如果我这样做： df = df.withColumn("col_name", lit(null).cast(org.apache.spark.sql.types.StringType)) 它按预期工作，但我将类型存储为字符串， var the_type = "

浏览 4提问于2017-08-31得票数 2

回答已采纳

1回答

Apache get_json_object java.lang.String不能转换为org.apache.spark.unsafe.types.UTF8String

、、、、

我试图使用结构化流从Apache中的MQTT代理读取json流，读取传入json的一些属性并将它们输出到控制台。我的代码是这样的： val spark = SparkSession .builder() .appName("BahirStructuredStreaming") .master("local[*]") .getOrCreate() import spark.implicits._ val topic = "temp" val brokerUrl = "tcp://localhost:1883" v

浏览 0提问于2020-11-13得票数 1

回答已采纳

1回答

如何在Scala+Spark中读取csv文件并将一列转换为Map[String，String]类型？

、、、、

我有一个包含几列的.csv文件。以一行为例： aaa,bbb,{'foo': 'xxx', 'bar': 'zzz'} 我想阅读它并转换成以下类型的模式： field1: String, field2: String, field3: Map[String, String] 我可以用这样的原始类型来完成这个任务： private val someSchema = StructType( StructField("field1", StringType, true) :: Struc

浏览 6提问于2022-01-24得票数 1

回答已采纳

1回答

另存为配置单元中的表:失败，并出现异常:必须至少为表指定一列

、

我有一个简单的spark作业，它从文件中拆分单词并加载到hive中的表中。 public static void wordCountJava7() { // Define a configuration to use to interact with Spark SparkConf conf = new SparkConf().setMaster("local[4]").setAppName("Work Count App"); SparkContext sc = new SparkContext(conf); // Crea

浏览 1提问于2016-04-29得票数 1

1回答

如何用微秒写日期时间给卡桑德拉和火花？

、、、、

我想将特定的日期格式流到Cassandra datetime列中。我的传入日期格式为下列日期格式： "%Y-%m-%dT%H:%M:%S.%f" e.g. "2021-05-18T11:12:13.123456" 我的卡桑德拉桌是： CREATE TABLE table_name ( id text, timestamp timestamp, PRIMARY KEY (id) ) 进食我的火花工作如下： val df = spark.readStream .format("kafka") .option(

浏览 5提问于2021-05-18得票数 1

回答已采纳

3回答

如何连接两个RDD: value不是org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]的成员

、、

我正在使用Spark2.1.0和Scala2.10.6 当我尝试这样做的时候： val x = (avroRow1).join(flattened) 我知道错误： value join is not a member of org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] 我为什么要收到这条消息？我有下列进口报表： import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ impor

浏览 0提问于2017-07-10得票数 0

2回答

moveToHDFS文件在PySpark脚本中找不到

、、、

我有个奇怪的问题。当我在终端中运行此命令时，它可以工作，并且确实会将文件复制到所需的位置。 hdfs dfs -copyFromLocal concsessions.csv /user/username/spark_exports/ 但是，当我作为脚本的一部分运行它时(下面)，它没有，而且我得到了这个错误--有人能帮我吗？我不知道我做错了什么，肯定有什么！ OSError: [Errno 2] No such file or directory 代码： from pyspark.sql import SparkSession from datetime import datetime #

浏览 4提问于2019-10-21得票数 0

回答已采纳

2回答

不支持不带相等谓词的流联接

、、、

我正在使用Spark 2.3，并尝试连接两个数据流。我的左边和右边的流都有一个数组。仅当右流数组是左流数组的子集时，我才希望连接这两个流。例如，我的streamA如下所示： StreamA: |---|------|---------------------|-----------| |id | dept | employeesInMeetings | DateTime | |---|------|---------------------|-----------| | 1 | sales| [John] | 7/2 14:00 | | 2 | mktg | [A

浏览 0提问于2018-07-04得票数 3

1回答

Spark读取JSON文件: java.lang.ClassNotFoundException: scala.collection.GenTraversableOnce$class

、、

我正在尝试使用Java中的Spark读取JSON文件。这是我的密码 import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.DataFrame; import org.apache.spark.sql.SQLContext; ... JavaSparkContext jsc = new JavaSparkContext(sparkConf); SQLContext sqlContext = new SQLContext(js

浏览 4提问于2017-03-30得票数 1

回答已采纳

1回答

Ibase_fetch_object不返回任何内容

、、

我得到一个sql查询，我刚刚添加了新的where子句，当我添加那个子句时，它停止获取任何东西，如果我复制sql查询并从程序中运行它，它工作得很好。 SELECT P.PROPS, P.DT_CHANGED, PI.KOLICH, S.TEGLO,S.CENA_PROD_ED1, PI.STOKA, P.DATETIME FROM PRODAWA P LEFT JOIN PRODAWA_ITEMS PI ON (P.DATETIME = PI.DATETIME) LEFT JOIN STOKI_DEF S ON (PI.STOKA = S.STOKA) W

浏览 0提问于2016-10-30得票数 0

1回答

用SQLAlchemy计算后置区域的DATEDIFF

、、、

我需要在时间戳类型的2列之间以分钟为单位计算。网络上有这么多简单的例子，但是使用psycopg2 + sqlalchemy，它们都不能正常工作。我试过： from sqlalchemy import as sa from datetime import datetime # con is a standard pool of connections :class:Connection con.execute( sa.func.datediff( sa.literal_column('minute'), datetime.utcnow()

浏览 5提问于2017-02-27得票数 9

回答已采纳

1回答

使用Spark SQL将字符串格式化为datetime

、、

我正在尝试使用spark sql将存储为字符串的日期列从如下所示转换和重新格式化... 30/03/20 02:00 添加到datetime列，如下所示... 2020-03-30 02:00 ('YYYY-MM-dd HH:mm') 我使用的不是python，而是简单地用DBeaver直接将sql写成一个spark datalake。任何帮助都是非常感谢的。

浏览 151提问于2021-02-05得票数 2

回答已采纳

2回答

在星火中向DataFrame添加一个新列

、、、、

我希望向DataFrame中的Spark(Scala)中添加一个带有行id的新列。这就是我所采取的方法。我正在创建一个带有索引id的新行和一个包含了另一个StructType的新StructField。 val rdd = df.rdd.zipWithIndex().map(indexedRow => Row.fromSeq(indexedRow._2.toString ++ indexedRow._1.toSeq )) val list = StructType(Seq(StructField("Row Number", StringType, true)).++(

浏览 4提问于2016-05-02得票数 0

回答已采纳

1回答

如何在火花放电中隐藏字符串，而不显示日期？

、

我有一篇专栏文章，内容包括“2018年1月”、“2019年3月”、“2016年12月”。我想把这个转换成日期类型(MMM yyyy)。当我使用pyspark进行时，dataframe结果还包括类似于日期(2018-1)。怎样才能摆脱约会？ from pyspark.sql import SparkSession from pyspark import SparkContext, SparkConf from pyspark.sql.functions import to_date conf = SparkConf().setMaster("local").setAppNam

浏览 2提问于2020-05-01得票数 0

回答已采纳

1回答

如何使用sparkSQL或Dataframe订购精确格式的字符串(dd-mm:mm)

、、、

我希望根据一个日期时间列(格式为"23-07-2018 16:01" )，按升序重新排序数据。我的程序排序到日期级别，但不是 HH:mm 标准，我希望输出包含HH:mm细节，并根据它进行排序。 package com.spark import org.apache.spark.sql.SparkSession import org.apache.spark.sql.DataFrame import org.apache.spark.sql.functions.{to_date, to_timestamp} import org.apache.spark.sql.functio

浏览 0提问于2018-08-07得票数 0

2回答

Apache :无法将分组数据保存为CSV

、、、

我想做一件简单的事。我想把所有的事件统计成2分钟的时间戳。效果很好。 df = df.groupBy(window(df["time_value"], "2 minutes")).count() df.show() +--------------------+-----+ | window|count| +--------------------+-----+ |[2018-04-10 15:00...| 770| |[2018-04-10 00:42...| 100| |[2018-04-10 04:14...| 54| |[2018-04-06 15:

浏览 1提问于2018-05-15得票数 1

回答已采纳

1回答

如何从日期字符串中提取年份？

、、

我用的是火花2.1.2。我正在处理datetime数据，并希望使用spark函数从dt字符串中获取年份。我使用的代码如下： import org.apache.spark.sql.functions._ import org.apache.spark.sql._ import org.apache.spark.sql.types._ val spark: SparkSession = SparkSession.builder(). appName("myapp").master("local").getOrCreate() case class Perso

浏览 0提问于2019-07-18得票数 2

回答已采纳

6回答

scala中两种数据格式的模式比较

、、

我试图编写一些测试用例来验证源(.csv)文件和目标(单元表)之间的数据。验证之一是表的结构验证。我已经将.csv数据(使用定义的模式)加载到一个数据中，并将蜂窝表数据提取到另一个数据中。当我现在尝试比较这两个数据文件的模式时，它返回false。不知道为什么。能告诉我这个吗？源数据格式： scala> res39.printSchema root |-- datetime: timestamp (nullable = true) |-- load_datetime: timestamp (nullable = true) |-- source_bank: string (nu

浏览 13提问于2017-12-18得票数 19

2回答

不能在星火中使用orderBy或groupBy函数

、、

我创建了一个DataFrame，如下所示： val file = sc.textFile(FileName) case class CreateDF(project:String, title:String, requests_num:Int, return_size:Int) val df = file.map(line=>line.split(" ")).map(line=> CreateDF(line(0),line(1),line(2).toInt,line(3).toInt)).toDF() +-------+--------------------+

浏览 0提问于2018-04-08得票数 0

回答已采纳

1回答

SPARK :无法实例化org.apache.hadoop.hive.metastore.HiveMetaStoreClient

、、

我使用的是Hadoop 2.7.0、hive 1.1.0和spark 1.3.1。我的metastore数据库在mysql数据库中。我可以从hive shell创建和查看数据。 hive (dwhdb)> select * from dwhdb.test_sample; OK test_sample.emp_id test_sample.emp_name test_sample.emp_dept test_sample.emp_sal Eid1 EName1 EDept1 100.0 Eid2 EName2 EDept1 102.0 Eid3 EName3 EDept1 101.0

浏览 1提问于2015-05-20得票数 4

2回答

PySpark:将python列表中的元素添加到spark.sql()语句中

、、、、

在python中有一个在我的代码中使用的列表： pylist = ['A', 'B', 'C', 'D'] 我还需要执行一个简单的spark.sql()行： query = spark.sql( """ SELECT col1, col2, col3 FROM database.table WHERE col3 IN ('A', 'B', 'C', 'D') """ ) 我希望用p

浏览 12提问于2022-02-15得票数 3

回答已采纳

1回答

spark magic -以字符串形式输入sql上下文

、、、

连接到spark over livy在Jupyter中工作得很好，下面的spark魔法也是如此： %%spark -c sql select * from some_table 现在，我如何使用字符串变量来查询表？以下内容不起作用： query = 'select * from some_table' 下一个单元格： %%spark -c sql query 以下操作也不起作用： %%spark -c sql 'select * from some_table' 有什么想法吗？是否可以将字符串变量的内容“回显”到一个单元格中？

浏览 0提问于2018-05-08得票数 2

2回答

创建具有可变函数的新列

、、

如果这种问题不能用火花解决的话，我很惊讶： iris_tbl <- copy_to(sc, aDataFrame) # date_vector is a character vector of element # in this format: YYYY-MM-DD (year, month, day) for (d in date_vector) { ... aDataFrame %>% mutate(newValue=gsub("-","",d))) ... } 我收到这个错误： Error: org.apache.spark

浏览 4提问于2016-10-27得票数 3

回答已采纳

1回答

使用scala在spark-sql中按其他列检索最大日期分组

、、

环境- spark-3.0.1-bin-hadoop2.7、eclipse 2.12.3、Scala、SparkSQL、eclipse-jee-oxygen-2-linux-gtk-x86_64 我有一个csv文件，它有3列数据类型:String，Long，Date。我想按字符串的第一列进行分组，并检索最大的日期值。为此，我从文本文件中创建了Person对象的RDD，并将其转换为dataframe 'peopleDF‘。已将数据帧注册为临时视图。我使用spark提供的sql方法运行以下sql语句。 val maxDateDF = spark.sql("SELECT name,

浏览 22提问于2021-03-10得票数 0

回答已采纳

2回答

Spark 2.1不能在CSV上写入向量字段

、、、

当我在将我的代码从Spark2.0迁移到2.1时，我无意中发现了一个与Dataframe保存相关的问题。这是密码 import org.apache.spark.sql.types._ import org.apache.spark.ml.linalg.VectorUDT val df = spark.createDataFrame(Seq(Tuple1(1))).toDF("values") val toSave = new org.apache.spark.ml.feature.VectorAssembler().setInputCols(Array("value

浏览 3提问于2017-05-24得票数 3

回答已采纳

1回答

spark sql类似于区分大小写吗？

、、

看起来spark sql对" like“查询是区分大小写的，对吧？ spark.sql("select distinct status, length(status) from table") 返回 Active|6 spark.sql("select distinct status from table where status like '%active%'") 不返回值 spark.sql("select distinct status from table where status like '%Activ

浏览 8提问于2018-11-28得票数 4

1回答

我们可以在星火DataFrame列中使用Pandas函数吗？如果是这样的话，是怎么做的？

、、、

我有一只叫"pd_df“的熊猫。我想修改它的列，所以我这样做： import pandas as pd pd_df['notification_dt'] = pd.to_datetime(pd_df['notification_dt'], format="%Y-%m-%d") 它起作用了。在同一个数据库中，我创建了一个名为"spark_df“的星星之火数据我希望在它的列上使用相同的函数(pd.to_datatime)来执行相同的操作。所以我就这么做了。 from pyspark.sql.functi

浏览 4提问于2016-06-10得票数 4

回答已采纳

1回答

火花放电数据中的时间增量- TypeError

、、、

我的工作是Spark2.3，Python3.6，用pyspark 2.3.1 我有一个火花DataFrame，其中每个条目都是一个工作步骤，我希望将一些行合并到一个工作会话中。这应该在下面的函数getSessions中完成。我相信这很管用。我进一步创建了一个包含我想要的所有信息的RDD --每个条目都是一个具有所需列的Row对象，它的类型看起来很好(一些数据变相的)： rddSessions_flattened.take(1) # [Row(counter=1, end=datetime.datetime(2017, 11, 6, 9, 15, 20), end_id=2758327, n

浏览 0提问于2018-10-08得票数 0

回答已采纳

2回答

MongoDB和Spark:无法将字符串转换为TimestampType

、

我使用官方的MongoDB Spark Connector从MongoDB集合中读取Spark中的数据，代码如下： val spark = SparkSession. builder(). appName("MongoDB to SQL"). getOrCreate() val df = MongoSpark.load(spark, readConfig) df.count() readConfig是MongoDB的标准读配置，它工作得很好。我遇到的问题是，我从MongoDB获取的一些日期/时间作为字符串

浏览 12提问于2018-11-28得票数 1

1回答

如何在实际预测中使用吡火花mllib RegressionMetrics

、、

使用pyscema1.4，我尝试使用RegressionMetrics()来进行由LinearRegressionWithSGD生成的预测。在RegressionMetrics()中给出的所有示例都用于“人工”预测和观察，如 predictionAndObservations = sc.parallelize([ (2.5, 3.0), (0.0, -0.5), (2.0, 2.0), (8.0, 7.0)]) 对于这样的“人工”(用sc.parallelize生成的) RDD，一切都很好。但是，当对以另一种方式生成的另一个RDD执行相同的操作时，我将 TypeError: DoubleTy

浏览 2提问于2015-07-16得票数 4

回答已采纳

2回答

使用StructType为Pyspark.sql设置架构时的语法

、

我是spark的新手，一直在玩Pyspark.sql。根据pyspark.sql documentation ，可以像这样设置Spark数据框架和模式： spark= SparkSession.builder.getOrCreate() from pyspark.sql.types import StringType, IntegerType, StructType, StructField rdd = sc.textFile('./some csv_to_play_around.csv' schema = StructType([StructField('Nam

浏览 0提问于2015-05-13得票数 29

回答已采纳

1回答

获取具有map数据类型列的两个spark数据帧之间的差异

、、

我有两个具有map数据类型列的dataframe。我尝试使用传统的except方法来获取两个数据帧之间的差异，但是我得到了下面的错误。 scala> val outputDF = Seq( | (1, "Visa", 0, Map("Visa" -> 1)), | (2, "MC", 2, Map("Visa" -> 1, "MC" -> 1)), | (3, "Amex", 0, Map("Amex" -> 1)),

浏览 1提问于2020-10-28得票数 0

1回答

如何将date类型的列转换为datetime，并向其添加一些分钟？

、、

我可以使用datetime.datetime()创建类型为timestamp的新列 import datetime from pyspark.sql.functions import lit from pyspark.sql.types import * df = sqlContext.createDataFrame([(datetime.date(2015,4,8),)], StructType([StructField("date", DateType(), True)])) df = df.select(df.date, lit(datetime.datetime(201

浏览 1提问于2017-11-06得票数 2

1回答