使用Scala过滤Spark中未激活的行_使用Scala Spark限制行_使用spark scala中的元组列表过滤数据帧 - 腾讯云开发者社区

pyspark、apache-spark-sql、parquet

我有实木地板在s3文件夹与下面的镶木地板的column.Size大约是40MB。 org_id, device_id, channel_id, source, col1, col2 目前分区位于3列org_id device_id channel_id上我想要将分区更改为source, org_id, device_id, channel_id.，我正在使用pyspark从s3读取文件并将其写入s3存储桶。 sc = SparkContext(appName="parquet_ingestion1").getOrCreate() spark = SparkSession(s

浏览 0提问于2020-04-29得票数 1

1回答

Scala - Filter Col X from Vector

scala

我有一个scala对象，如下所示- scala> f1.getClass res20: Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFrame scala> f1.printSchema root |-- features: vector (nullable = true) scala> f1.take(1) res23: Array[org.apache.spark.sql.Row] = Array([[264960.0,0.177987935285829

浏览 0提问于2017-03-24得票数 0

1回答

Spark窗口函数"rowsBetween“应该只考虑完整的行集

apache-spark、apache-spark-sql

我使用"rowsBetween“窗口函数来计算移动中位数，如下所示 val mm = new MovingMedian var rawdataFiltered = rawdata.withColumn("movingmedian", mm(col("value")).over( Window.partitionBy("raw_data_field_id").orderBy("date_time_epoch").rowsBetween(-50,50)) ) 我将在当前行的前面和后面各取一个50行的窗口。但我需要排除在开始和接

浏览 3提问于2019-05-19得票数 0

1回答

在http日志中计数行，全局行号未更新

scala、apache-spark

我正在尝试使用scala/spark解析http日志文件(一个目录中有488个文件) scala> val logs2 = sc.textFile("D:/temp/tests/wwwlogs") logs2: org.apache.spark.rdd.RDD[String] = D:/temp/tests/wwwlogs MapPartitionsRDD[3] at textFile at <console>:24 scala> logs2.count res1: Long = 230712 scala> logs2.filte

浏览 2提问于2019-05-23得票数 0

2回答

星火无法计算表达式:窗口表达式的滞后

scala、apache-spark、cassandra、spark-cassandra-connector

我试图对cassandra表中的数据文件执行大量操作，然后将其保存在另一个表中。其中一项行动如下： val leadWindow = Window.partitionBy(col("id")).orderBy(col("timestamp").asc).rowsBetween(Window.currentRow, 2) df.withColumn("lead1", lag(sum(col("temp1")).over(leadWindow), 2, 0)) 当我运行我的工作时，我会得到一个异常，说明不能计算lag操作。 2018-

浏览 0提问于2018-10-01得票数 5

回答已采纳

1回答

无法用Python打开GeoJson

python、pyspark

我正在使用Python的Apache打开一个GeoJson文件。我跟踪了。我遵循打开GeoJson的每一步，但为了清晰起见，我就是这样做的： spark = SparkSession.\ builder.\ master("local[*]").\ appName("Sedona App").\ config("spark.serializer", KryoSerializer.getName).\ config("spark.kryo.registrator", SedonaKryoReg

浏览 45提问于2022-03-25得票数 1

回答已采纳

1回答

星火簇scala中随机林模型保存时的误差

scala、apache-spark

在将随机森林模型保存到磁盘时，我将获得以下error。星火集群配置.火花-包. spark-1.6.0-bin-hadoop2.6模式-独立我通过在每台从机中复制相同的数据来运行spark 对command - localModel.save(SlapSparkContext.get(), path)模型进行了训练，并对测试数据进行了正确的预测。 error trace org.apache.parquet.hadoop.ParquetFileWriter.mergeFooters(ParquetFileWriter.java:456) at org.apache.parquet.hado

浏览 3提问于2016-04-03得票数 0

1回答

过滤并不真的删除行？

apache-spark、dataframe、pyspark、apache-spark-sql、user-defined-functions

我的数据经过两个连续的过滤传递，每个都使用一个布尔值的UDF。第一个筛选移除列在某些广播字典中未作为键出现的所有行。第二个筛选对此字典与当前键相关联的值施加阈值。如果我只在第一次筛选之后显示结果，那么包含“c”的行就不会像预期的那样出现在其中。但是，试图显示第二个筛选的结果会导致u'c‘的KeyError异常。 sc = SparkContext() ss = SparkSession(sc) mydict={ "a" : 4, "b" : 6 } mydict_bc = sc.broadcast(mydict) udf_indict=func.u

浏览 0提问于2018-01-27得票数 2

回答已采纳

3回答

使用大量数据集时，性能会非常慢

apache-spark、apache-spark-sql

我在HDFS中有一个小的拼图文件(7.67MB)，用snappy压缩。该文件有1,300行和10500列，均为双精度值。当我从拼图文件创建一个数据框并执行一个简单的操作，如计数，它需要18秒。 scala> val df = spark.read.format("parquet").load("/path/to/parquet/file") df: org.apache.spark.sql.DataFrame = [column0_0: double, column1_1: double ... 10498 more fields] scala>

浏览 4提问于2018-09-12得票数 2

1回答

由于阶段失败而中止作业:阶段3.0中的任务5失败1次

python、apache-spark、pyspark

我是pyspark的新手，最后一天我绘制了犯罪数据来绘制地图，效果很好，今天我要面对这个问题。 z:org.apache.spark.api.python.PythonRDD.collectAndServe.：调用Py4JJavaError时出错：：org.apache.spark.SparkException:由于阶段失败而中止作业:阶段3.0中的任务5失败了1次，最近的失败:阶段3.0中丢失的任务5.0 (TID 8，本地主机，执行器驱动程序)：org.apache.spark.api.python.PythonException 这是完整的回溯 -----------------

浏览 3提问于2017-02-01得票数 3

回答已采纳

1回答

java.io.EOFException而不是空文件上的SequenceFile

scala、apache-spark、hadoop、sequencefile

我正试着用火花读一张桌子。 spark.table("table_name") sc.sequenceFile(path, classOf[Text], classOf[Text], 1000). map(x => x._2.toString.split(delimiter, -1)) 如果没有空文件，两者都可以工作；如果表中包含空文件，则两者都会在java.io.EOFException: /path/to/file/1612735495084_12eed62a-b1ee-4cf5-8b71-a87149acd9c8.sf not a SequenceFile中失败

浏览 5提问于2021-02-14得票数 1

回答已采纳

1回答

火花作业陷入局部模式

apache-spark

我正面临一个问题，我的火花工作被困在当地，而运行在IntelliJ的想法。我的工作一直持续到一个阶段，比如完成200个任务中的199个，或者完成3个任务中的一个，然后被困在那里。我试图在IDE中使用评估表达式查看正在发生的事情，并注意到了一个奇怪的问题。如果我使用的是myDf.rdd.map(r => r).cache() java.io.IOException: Class not found at org.apache.xbean.asm5.ClassReader.a(Unknown Source) at org.apache.xbean.asm5.ClassReader.<

浏览 1提问于2018-03-15得票数 1

1回答

在哪个子句上触发时间戳之间的SQL？

apache-spark、apache-spark-sql

我试图使用DataFrame API返回两个时间戳之间的行。示例代码是： val df = Seq( ("red", "2016-11-29 07:10:10.234"), ("green", "2016-11-29 07:10:10.234"), ("blue", "2016-11-29 07:10:10.234")).toDF("color", "date") df.where(unix_timestamp($"date&#

浏览 2提问于2016-11-29得票数 2

回答已采纳

2回答

将熊猫数据转换为dict时的过滤器

python、pandas

我有这只熊猫的资料。 technologies = [ ("Spark", 22000,'30days',1000.0, 'Scala'), ("PySpark",25000,'50days',2300.0, 'Python'), ("Hadoop",23000,'55days',np.nan,np.nan) ] df = pd.DataFrame(technologies,columns = ['Courses','

浏览 3提问于2022-07-20得票数 1

回答已采纳

2回答

org.apache.spark.sql.AnalysisException:无法从概率中提取值

scala、apache-spark、dataframe、machine-learning、naivebayes

我正在使用朴素贝叶斯算法对文章进行分类，并希望访问部分结果的“概率”列： val Array(trainingDF, testDF) = rawDataDF.randomSplit(Array(0.6, 0.4)) val ppline = MyUtil.createTrainPpline(rawDataDF) val model = ppline.fit(trainingDF) val testRes = model.transform(testDF) testRes.filter($"probability"(0).as[Double] ==

浏览 0提问于2017-04-20得票数 4

1回答

带有(关键字，字典)元组的Pyspark reduceByKey

python、dictionary、mapreduce、apache-spark、pyspark

我在尝试使用spark在databricks上执行map-reduce时遇到了一点麻烦。我希望处理日志文件，并希望简化为(key，dict())元组。然而，我总是得到一个错误。我不太确定这是不是正确的做法。如果有任何建议我会很高兴的。因此，我希望将一个everything映射到一个(键，dict(值)。这是我的Mapper和Reducer from collections import defaultdict a = {u'1058493694': {'age': {u'25': 1}, 'areacode': {'

浏览 5提问于2015-07-27得票数 2

1回答

如何将arrays[String]列转换为字符串列

arrays、scala、apache-spark、apache-spark-sql

在scala+spark中，我有一个包含两列Array[String]的数据 scala> val test = spark.sqlContext.read.json(sc.parallelize(Seq("""{"v1":["A", "B", "C"],"v2":["ok", "false", "ok"]}""", """{"v1":["D", "E

浏览 0提问于2019-08-10得票数 1

回答已采纳

2回答

Apache Spark MulticlassMetrics.precision()中的“索引1处的值为空”

python、apache-spark、pyspark

我在Apache spark (pyspark)中训练了一个逻辑回归模型，并用它评估了一些测试数据……像这样..。 # Split into train and test sets train, test = data.randomSplit([.8, .2], seed=1337) # Train a model model = LogisticRegressionWithLBFGS.train(train) # Print the coefficients print(model.weights) # Evaluate the test data predictions =

浏览 0提问于2016-03-17得票数 3

1回答

按时间戳列过滤Pyspark DataFrame时出现问题(IndexError:列表索引超出范围)

python、pyspark

我在一个Pyspark数据帧中有一个时间戳列，我正在尝试过滤它，并且我一直得到一个索引超出范围的错误。这似乎是一个非常简单的任务，而且我以前在其他多个数据帧上也做过，所以我不理解这个问题。也没有null/None值... 当我将它转换为Pandas DataFrame并在那里执行操作时，它也可以很好地工作。我很困惑 df.show() +-------------------+--------------+ | time| data | +-------------------+--------------+ |2019-04-15 11:04:0

浏览 45提问于2019-04-25得票数 0

2回答

具有自动分区发现功能的Spark读取多路径

scala、apache-spark、spark-avro

我正在尝试从多个路径读取一些avro文件到DataFrame。假设我的路径是这个路径下的"s3a://bucket_name/path/to/file/year=18/month=11/day=01"，我还有两个分区，假设是country=XX/region=XX 我想一次读取多个日期，而不需要明确命名国家和地区分区。此外，我希望国家和地区是这个DataFrame中的列。 sqlContext.read.format("com.databricks.spark.avro").load("s3a://bucket_name/path/to/file/yea

浏览 2提问于2018-12-03得票数 2

1回答

KafkaStreams EXACTLY_ONCE保证-跳过卡夫卡抵消

apache-kafka、spark-streaming、offset、apache-kafka-streams

我正在使用Spark2.2.0和Kafka0.10火花流库从满是kafka应用程序的主题中读取。Kafka Broker版本为0.11，Kafka-streams版本为0.11.0.2。当我在Kafka应用程序中设置EXACTLY_ONCE保证时： p.put(StreamsConfig.PROCESSING_GUARANTEE_CONFIG, StreamsConfig.EXACTLY_ONCE) 我在星火中发现了这个错误： java.lang.AssertionError: assertion failed: Got wrong record for spark-executor-&l

浏览 0提问于2018-01-19得票数 2

回答已采纳

2回答

不支持的文字类型类scala.runtime.BoxedUnit

scala、apache-spark-sql、datastax、databricks

我正在尝试过滤从oracle读取的一列数据，如下所示 import org.apache.spark.sql.functions.{col, lit, when} val df0 = df_org.filter(col("fiscal_year").isNotNull()) 当我做这件事时，我会犯以下错误： java.lang.RuntimeException: Unsupported literal type class scala.runtime.BoxedUnit () at org.apache.spark.sql.catalyst.expressions.Lit

浏览 2提问于2018-11-19得票数 10

回答已采纳

1回答

NullPointerException写作时从火花到卡桑德拉

cassandra、azure-databricks、cassandra-3.0、spark-cassandra-connector

我使用火花-卡桑德拉-连接器-2.4.0-s2.11将数据从火花写到数据库集群上的Cassandra。当我从星火到卡桑德拉写数据时，我正在获取java.lang.NullPointerException。这件事很好，几乎没有记录。但是当我尝试加载~1.5亿记录时会遇到问题。有人能帮我找出根本原因吗？下面是代码片段： val paymentExtractCsvDF = spark .read .format("csv")

浏览 4提问于2019-11-23得票数 0

1回答

在普通的Scala中有等效的爆炸函数吗？

scala

我试图寻找爆炸功能或它的等价物在普通的scala，而不是火花。使用Spark中的below函数，我能够将一个具有多个元素的行平平成多个行，如下所示。 scala> import org.apache.spark.sql.functions.explode import org.apache.spark.sql.functions.explode scala> val test = spark.read.json(spark.sparkContext.parallelize(Seq("""{"a":1,"b":[2,3]}&#

浏览 2提问于2020-02-24得票数 1

回答已采纳

2回答

星火error:java.lang.IllegalArgumentException:大小超过Integer.MAX_VALUE

scala、apache-spark、machine-learning

我试图计算负样本的数量，如下所示： val numNegatives = dataSet.filter(col("label") < 0.5).count 但我得到的大小超过了Integer.MAX_VALUE错误： java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE at sun.nio.ch.FileChannelImpl.map(FileChannelImpl.java:869) at org.apache.spark.storage.DiskStore$$anonfu

浏览 0提问于2018-04-13得票数 0

回答已采纳

4回答

spark UDF结果可以做'show'，但不能做'filter‘

python、apache-spark、pyspark、apache-spark-sql

当我执行show()时，spark UDF可以工作，但当我对UDF结果执行filter时，它会给我错误。 udf函数 def chkInterPunctuation(sent) : for char in sent[1:-2] : if char in ["\"", "'", ".", "!", "?"] : return True return False cip = udf(chkInterPunctuation, BooleanTyp

浏览 0提问于2018-11-21得票数 1

2回答

使用雪花火花连接器获得零指针异常

python、apache-spark、pyspark、snowflake-cloud-data-platform

我有一个3节点的星系团。并尝试使用雪花火花连接器和jdbc驱动程序访问雪花。 jdbc:雪花-jdbc-3.12.4.jar火花-连接器:火花-雪花_2.11-2.7.0-火花_2.4.jar 这是我的代码： sfOptions = { "sfURL" : "{}.snowflakecomputing.com".format(ACCOUNT_NAME), "sfUser" : "{}@fmr.com".format(USER_ID), "sfAccount" : "{}".format(

浏览 4提问于2020-04-26得票数 2

1回答

不能在flatMap后使用数据分组(Spark )

apache-spark、apache-spark-sql、bigdata

浏览 3提问于2021-12-02得票数 0

回答已采纳

1回答

zipWithIndex on MapPartitionsRDD

scala、apache-spark

我有一个words，它是org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[11] at map，看起来像 Array(Array(cyber crimes, cyber security, review, india, instances, state, issue), Array(civil society, instances, frequency)) 现在，在上面执行flatMap和distinct以从RDD获得所有不同的单词之后，我得到 scala> val uniquewords = words.flatMap

浏览 2提问于2017-05-07得票数 0

回答已采纳

1回答

提供scala sbt libraryDependencies -避免下载第三方库

scala、apache-spark、sbt

我有下面的Scala代码引用第三方库， package com.protegrity.spark import org.apache.spark.sql.api.java.UDF2 import com.protegrity.spark.udf.ptyProtectStr import com.protegrity.spark.udf.ptyProtectInt class ptyProtectStr extends UDF2[String, String, String] { def call(input: String, dataElement: String): Strin

浏览 14提问于2020-07-18得票数 0

1回答

Dataframe转换产生空值。

regex、scala、apache-spark、parquet

除了元数据目录之外，我一直试图在目录中列出Parquet文件中的所有Spark数据。目录的结构如下所示： dumped_data/ - time=19424145 - time=19424146 - time=19424147 - _spark_metadata 主要目标是避免从_spark_metadata目录读取数据。我已经创建了一个解决方案，但由于某种原因，它经常返回空值。原因是什么？以下是解决办法： val dirNamesRegex: Regex = s"\\_spark\\_metadata*".r def transformDf: Option[Da

浏览 1提问于2020-07-01得票数 0

回答已采纳

3回答

星星之火:当强制模式读取时，Parquet DataFrame操作失败

scala、apache-spark、dataframe、schema、parquet

(火花2.0.2) 这里的问题是，当您有不同模式的分割文件并在读取期间强制使用模式时，问题就会出现。即使可以打印架构并运行show() ok，也不能对缺少的列应用任何筛选逻辑。下面是两个示意图示例： // assuming you are running this code in a spark REPL import spark.implicits._ case class Foo(i: Int) case class Bar(i: Int, j: Int) 因此，Bar包含了Foo的所有字段，并添加了一个(j)。在现实生活中，当您从模式Foo开始，然后决定需要更多的字段并以模式Bar

浏览 8提问于2017-09-08得票数 2

回答已采纳

1回答

在apache中使用distinct时的堆栈溢出错误

java、apache-spark、rdd、apache-spark-2.0

我使用星火2.0.1。我试图在JavaRDD中找到不同的值如下所示 JavaRDD<String> distinct_installedApp_Ids = filteredInstalledApp_Ids.distinct(); 我看到这一行抛出了下面的异常 Exception in thread "main" java.lang.StackOverflowError at org.apache.spark.rdd.RDD.checkpointRDD(RDD.scala:226) at org.apache.spark.rdd.RDD.partit

浏览 2提问于2017-05-12得票数 0

1回答

当Spark通过JDBC读取RDBMS时，是否存在参数分区？

apache-spark、spark-jdbc

当我为表同步运行spark应用程序时，错误消息如下所示： 19/10/16 01:37:40 ERROR Executor: Exception in task 0.0 in stage 3.0 (TID 51) com.mysql.cj.jdbc.exceptions.CommunicationsException: Communications link failure The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packet

浏览 3提问于2019-10-16得票数 0

回答已采纳

2回答

使用spark SQL将数据内容保存为csv文件时，spark作业异常失败。

apache-spark、nullpointerexception、apache-spark-sql

我试图以csv格式将数据文件内容保存到hdfs中。我可以用小的no.of文件做这件事。当尝试处理更多的文件( 90+文件)时，NullPointerException和作业都失败了。下面是我的代码： val df1 = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema", "false").option("delimiter", "|").lo

浏览 0提问于2016-02-03得票数 0

回答已采纳

3回答

如何使用命令filter过滤包含来自其他数据帧的信息的数据帧

scala、dataframe、apache-spark

我有一个很大的Dataframe，里面有来自不同设备的大量信息以及它们的ID。我想要的是用第二个Dataframe中的in过滤这个Dataframe。我知道使用join命令可以很容易地完成此操作，但我想尝试使用命令filter。此外，我之所以尝试它，是因为我读到过命令筛选器比连接更有效，有人能解释一下吗？谢谢我试过了： val DfFiltered = DF1.filter(col("Id").isin(DF2.rdd.map(r => r(0)).collect()) 但我得到以下错误： Exception in thread "main" org

浏览 0提问于2019-11-12得票数 0

2回答

星星之火Datastax选择语句

java、cassandra、apache-spark、connector、datastax

我在这里使用了一个教程，使用java项目：在cassandra上运行星星之火。我已经考虑了如何使用直接的CQL语句，因为我以前在这里问过一个问题：但是，现在我试图使用datastax，因为我担心我原来问题中的原始代码不会适用于Spark和Cassandra的Datastax版本。由于一些奇怪的原因，它不允许我使用.where，即使文档中概述了我可以使用这个精确的语句。这是我的代码： import org.apache.commons.lang3.StringUtils; import org.apache.spark.SparkConf; import org.apache.spark.a

浏览 3提问于2014-09-23得票数 4

回答已采纳

1回答

ML流水线上的火花驱动程序内存问题

apache-spark、pyspark、apache-spark-mllib

我正在运行逻辑回归管道，在这一行上： model = pipeline.fit(train_data) 在RDDLossFunction阶段，我反复得到以下错误：文件"/usr/spark-2.3.0/python/lib/pyspark.zip/pyspark/ml/base.py"，第132行，fit文件"/usr/spark-2.3.0/python/lib/pyspark.zip/pyspark/ml/pipeline.py"，第109行，_fit文件"/usr/spark-2.3.0/python/lib/pyspark.zip/pyspa

浏览 0提问于2018-06-07得票数 0

2回答

PySpark HiveContext误差

apache-spark、hive、hiveql、pyspark

我试图使用以下命令使用PySpark刷新表分区。我可以发出任何其他SQL命令，但是MSCK REPAIR TABLE给我带来了问题。代码： conf = SparkConf().setAppName("PythonHiveExample")\ .set("spark.executor.memory", "3g")\ .set("spark.driver.memory", "3g")\ .set("s

浏览 3提问于2015-10-08得票数 2

5回答

如何在spark中使用parquet读写相同的文件？

apache-spark、overwrite、parquet

我试图从spark中的一个拼图文件中读取，与另一个rdd进行联合，然后将结果写入我从其中读取的相同文件中(基本上是覆盖)，这会抛出以下错误： couldnt write parquet to file: An error occurred while calling o102.parquet. : org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree: TungstenExchange hashpartitioning(billID#42,200), None +- Union :-

浏览 0提问于2016-05-06得票数 8

2回答

数据字段类型时间戳的不同火花-sql结果

apache-spark、apache-spark-sql、cassandra、datastax-enterprise、spark-cassandra-connector

为什么我得到不同的计数结果，当我使用'T‘分隔符的时间戳字段在火花-SQL。 FYI:使用使用Datastax版本的cassandra表的数据:DSE5.1.3 阿帕奇卡桑德拉™3.11.0.1855 * Apache™2.0.2.6 DataStax火花卡桑德拉连接器2.0.5 * scala> val data = spark.sql("select * from pramod.history ").where(col("sent_date") >= "2024-06-11 00:00:00.000Z" &&

浏览 0提问于2019-09-11得票数 0

回答已采纳

1回答

可以配置为将空数据集推断为空架构。

apache-spark、amazon-emr

我们有很多在一年/月/日/小时内划分的拼花数据集。其中有几个小时是空的，只有一个_SUCCESS文件。我们实现了遍历所有分区并执行工作的作业。我们在打开空数据集时遇到了问题。与org.apache.spark.sql.AnalysisException: Unable to infer schema for Parquet. It must be specified manually.相撞 (使用EMR5.3.0 -我们正在努力摆脱依赖，以便升级到更高版本) 火花壳例子： Welcome to ____ __ / __/__ ___ ____

浏览 0提问于2019-04-02得票数 2

回答已采纳

1回答

如何从对象元组数组访问对象的成员

scala、apache-spark、tuples

对象类是 class VertexAttributes(val m: Boolean, n: Any){ val rootParentCustNumber: String = if(n == null) "Was Null" else n.toString val firstMsgFlg = m } 我有一个这个对象类型的RDD： scala> myGraph.vertices res92: org.apache.spark.graphx.VertexRDD[VertexAttributes] = VertexRDDImpl[2280]

浏览 0提问于2018-03-18得票数 1

回答已采纳

1回答

MLlib MatrixFactorizationModel recommendProducts(用户，num)在某些用户上失败

apache-spark、apache-spark-mllib、collaborative-filtering、matrix-factorization

我使用训练了一个模型，现在使用获得了最推荐的产品，但是代码在一些用户上失败了，有以下错误： user_products = model.call("recommendProducts", user, prodNum) File "/usr/lib/spark/python/pyspark/mllib/common.py", line 136, in call return callJavaFunc(self._sc, getattr(self._java_model, name), *a) File "/usr/lib/spark/p

浏览 0提问于2015-09-09得票数 4

1回答

在java中激发Dataframe sql -如何转义单引号

apache-spark-sql

我使用的是火花-核心，火花-sql，Spark 2.10(1.6.1)，scala-反射2.11.2。我试图过滤通过蜂巢上下文创建的数据. df = hiveCtx.createDataFrame(someRDDRow, someDF.schema()); 我试图筛选的专栏中有一个包含多个单引号。我的过滤器查询将类似于 df = df.filter("not (someOtherColumn= 'someOtherValue' and comment= 'That's Dany's Reply'&#

浏览 0提问于2018-07-17得票数 2

2回答

在星火中向DataFrame添加一个新列

scala、exception、apache-spark、dataframe、rdd

我希望向DataFrame中的Spark(Scala)中添加一个带有行id的新列。这就是我所采取的方法。我正在创建一个带有索引id的新行和一个包含了另一个StructType的新StructField。 val rdd = df.rdd.zipWithIndex().map(indexedRow => Row.fromSeq(indexedRow._2.toString ++ indexedRow._1.toSeq )) val list = StructType(Seq(StructField("Row Number", StringType, true)).++(

浏览 4提问于2016-05-02得票数 0

回答已采纳

1回答

对于s3上的大输入csv数据，AWS作业失败了

amazon-web-services、amazon-s3、pyspark、spark-dataframe、aws-glue

对于小型s3输入文件(~10 is )，glue ETL作业工作正常，但对于较大的数据集(~200 is)，作业失败。添加部分ETL代码。 # Converting Dynamic frame to dataframe df = dropnullfields3.toDF() # create new partition column partitioned_dataframe = df.withColumn('part_date', df['timestamp_utc'].cast('date')) # store the data in

浏览 1提问于2017-11-24得票数 4

1回答

Spark过滤时“300秒后超时”

apache-spark-sql

在执行看似简单的火花sql筛选工作时，我得到了一个例外： someOtherDF .filter(/*somecondition*/) .select($"eventId") .createOrReplaceTempView("myTempTable") records .filter(s"eventId NOT IN (SELECT eventId FROM myTempTable)") 知道我怎么解决这个问题吗？注意： someOtherDF包含过滤后的~1M到5M行，e

浏览 4提问于2017-04-27得票数 3

回答已采纳

1回答

在使用该UDF的列上添加筛选器时，触发Sql UDF抛出NullPointer。

scala、apache-spark、apache-spark-sql、user-defined-functions

SPARK_VERSION = 2.2.0 在使用UDF添加列的dataframe上执行filter时，我遇到了一个有趣的问题。我能够用一组较小的数据来复制这个问题。给定虚拟案例类： case class Info(number: Int, color: String) case class Record(name: String, infos: Seq[Info]) 和下列数据： val blue = Info(1, "blue") val black = Info(2, "black") val yellow = Info(3, "yellow&#

浏览 4提问于2018-01-02得票数 5

回答已采纳

2回答

将本地CSV读取到spark数据集中时出错

apache-spark、apache-spark-sql、spark-dataframe

我有一个本地CSV "test.csv“，其中第一行是列名，后面的行是数据。我试着用Java在CSV中像这样读取： Dataset<Row> test_table = sparkSession() .sqlContext() .read() .format("com.databricks.spark.csv") .option("header", "true") .option("inferSchema", "true") .load("t

浏览 0提问于2017-08-29得票数 1