如果条件适合Spark Scala，则在窗口上设置文字值

当我从Spark2.0REPL(火花-shell)运行下面的Scala代码时，它会按我的意愿运行，用一个简单的正则表达式拆分字符串。但是，如果我只在Spark2.1中使用一个文字反斜杠，我就会从JVM的regex引擎"Dangling meta character '?' near index 0"中得到错误。我知道这意味着问号没有正确地转义，但是它闻起来好像反斜杠本身必须对第一个Scala和SQL进行转义。我猜想这对于将控制字符(如换行符)插入

浏览 10提问于2017-01-20得票数 7

回答已采纳

1回答

如何删除不符合顺序的火花值

、

我需要从dataframe中删除一些不在正确位置的值。lastPhase.isin(2, 3)phase === 8 and lastPhase.isin(6, 7) ) val df = spark.create

浏览 2提问于2021-08-23得票数 0

回答已采纳

1回答

如何使用两个日期过滤数据？

、、

<init>(Symbols.scala:205) at scala.reflect.internal.Symbols$ClassSymbol.<init>(Symbols.scala:3222) at scala.reflect.internal.Symbols$StubClassSy

浏览 2提问于2018-12-12得票数 0

回答已采纳

1回答

如果客户端的屏幕尺寸太小，有没有办法拒绝客户端连接到tmux？

我知道我们可以用前缀+ shift + d来断开客户端的连接，但如果有人连接的屏幕尺寸不同或更小，这真的很烦人。如果程序依赖于tmux屏幕大小，它也可能使程序崩溃。请让我知道，如果有一个配置，我可以用来防止屏幕尺寸较小的人连接在第一位。此外，在他们连接后，如何防止tmux调整屏幕大小，如果连接的计算机调整其终端的大小。

浏览 3提问于2019-03-14得票数 0

3回答

如何计算DataFrame中的移动中值？

、、、、

是否有一种方法可以计算星火中某个属性的移动中间？

浏览 10提问于2017-05-19得票数 3

3回答

在MacBook上安装火花放电

、、、

我使用brew安装apache-spark安装了spark本身，它似乎已经安装了apache 2.2.0 但当我运行火星雨时，它就会喷出。/Users/me/anaconda/bin/pyspark: line 24: /Users/bruceho/spark-1.6/spark-1.6.2-bin-hadoop2.6/bin/load-spark-env.sh: No such file

浏览 10提问于2017-09-24得票数 2

回答已采纳

14回答

火花加载CSV文件作为DataFrame？

、、、、

我想在spark中读取CSV，并将它转换为DataFrame，然后用df.registerTempTable("table_name")存储在HDFS中。10] at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala

浏览 33提问于2015-04-17得票数 164

回答已采纳

7回答

如何在Apache Spark中计算百分位数

我有一个整数的rdd (即RDD[Int])，我想要做的是计算以下10个百分位数：[0th, 10th, 20th, ..., 90th, 100th]。做到这一点最有效的方法是什么？

浏览 185提问于2015-03-02得票数 25

4回答

如何运行Spark* Java程序*

、

我已经为Spark写了一个Java程序。而是如何从Unix命令行运行和编译它。我必须在编译运行时包含任何jar吗

浏览 1提问于2014-03-10得票数 45

2回答

如何在Databricks上运行ETL管道(Python)

、、、、

我正在尝试使用kinesis数据流创建实时情绪分析模型，并使用spark创建databricks笔记本。我尝试将我的笔记本作为作业运行，但处理spark流的代码块永远都不会运行，不会让其他代码块完成ETL过程。这是我如何设置我的火花流的问题吗？下面是我如何设置它的代码： kinesisDF = spark \ .format("kinesis") \ .option("streamName", kinesisStreamNa

浏览 22提问于2020-06-27得票数 0

3回答

如何使用条件变量在Cognos中打印特定页面

、

根据NSF文件中存在的条件，每个字母都是不同的。我需要根据这些条件打印这些信件。例如，如果客户I从未进行过NSF检查。我想打印一封漂亮的信(第1页)。如果客户进行了其他NSF检查，则检查letter 2(第2页)，以此类推。我创建了以下变量--我需要在值1,2,3,4,5中指定什么才能正确打印。谢谢

浏览 0提问于2012-12-01得票数 0

3回答

、

我首先将它设置为共享内存，然后设置为TCP/IP，最后设置为命名管道。另一位消息人士说，我的端口可能会被封锁，但我的防火墙上已经有了一条允许访问默认端口的规则，在我的情况下，默认端口是1433。

浏览 0提问于2014-11-25得票数 2

2回答

如何在SparkKubernetesOperator运算符中将execution_date作为参数传递？

、、

任何方式都可以通过它，因为我将使用spark run和s3分区的执行日期。submit_compaction_to_spark = SparkKubernetesOperator( task_id="submit_compaction_to_spark",

浏览 13提问于2021-03-05得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云