为什么年和月函数会导致Spark中的长时间溢出？

scala、apache-spark、amazon-s3、databricks

我正在使用一个带有Spark和Scala的Databricks笔记本将数据从S3读取到DataFrame中： myDf = spark.read.parquet(s"s3a://data/metrics/*/*/*/)。其中*通配符表示年/月/日。或者我只是硬编码：myDf = spark.read.parquet(s"s3a://data/metrics/2018/05/20/) 现在，我想在当天之后添加一个小时参数。其思想是从S3获取最近可用小时的数据。如果我执行myDf = spark.read.parquet(s"s3a://data/metrics/201

浏览 2提问于2018-10-03得票数 0

2回答

为什么调用缓存在星火数据集上要花费很长时间？

scala、apache-spark、caching、dataset

我正在加载大型数据集，然后在代码中缓存它们以供参考。代码如下所示： val conversations = sqlContext.read .format("com.databricks.spark.redshift") .option("url", jdbcUrl) .option("tempdir", tempDir) .option("forward_spark_s3_credentials","true") .option("query", "SELECT * F

浏览 0提问于2017-07-31得票数 11

回答已采纳

1回答

Pyspark GroupBy和计数太慢

apache-spark、pyspark、group-by、google-cloud-dataproc

我在有4个节点的dataproc集群上运行pyspark，每个节点有2个核心和8 GB RAM。我有一个dataframe，它有一个包含单词列表的列。我分解了这个专栏，并计算了出现次数- df.groupBy("exploded_col").count() 爆炸前约有78MN排。但是，运行上述代码的时间太长(超过4个小时)。为什么spark花了不寻常的长时间？我仍然是spark的新手，所以我还没有完全意识到适当的设置来处理巨大的数据。我对sparkContext有以下设置 enter code here SparkSession.builder \ .appName

浏览 132提问于2020-07-17得票数 1

2回答

将当前值添加到未来日期SQL

sql、sql-server

我正试着为未来的约会加载数据。我的设想是这样的，我有2016年、2017年和2018年的数据(直到8月)。每年都有当前值和“前一年同一天”值相关联。数据汇总到月份。要求我也为未来的日期加载数据，即2018年9月至2019年8月使用'PYSD‘值。例如，2017年9月的“当前”值将是2018年9月的“PYSD”值，依此类推。当我尝试这个特殊的逻辑时，我会得到一个错误，说明‘溢出’，我无法找出是什么引起的。这种情况只发生在我WHERE子句中的第二个条件中。我的SELECT子句将一个月的数据和输出汇总为'08-01-2018‘--每个月/年将有一行。 SELECT CAST

浏览 0提问于2018-09-04得票数 0

回答已采纳

1回答

如何排除PySpark GLM错误？

apache-spark、pyspark、regression、glm、apache-spark-ml

尝试使用poisson系列和log链接函数运行GLM并获得以下错误： 2022-01-11 15:56:55,143 root ERROR An error occurred while calling o266.fit. : java.lang.NullPointerException at scala.collection.immutable.StringOps$.length$extension(StringOps.scala:51) at scala.collection.immutable.StringOps.length(StringOps.scala:51)

浏览 9提问于2022-01-12得票数 0

3回答

如何用mysql中的非标准日期时间格式计算diff年

mysql

我的数据库(MySQL 5.7)存储像1990年1月1日这样的用户生日格式，现在我想从这个格式日期时间计算用户的年龄。我的sql如下所示，但对所有数据返回null： select period_diff(date_format(now(), '%Y'), date_format(birthday, '%Y年')) as months from spark_user; DDL表如下所示： CREATE TABLE `spark_user` ( `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT, `birth

浏览 0提问于2021-12-20得票数 0

回答已采纳

2回答

下个月有约会命令吗？

bash、date

我把这个写在我的剧本里，我相信我已经用了很长时间了。今天说下个月是五月吗？ #date Mon Mar 31 15:30:13 BST 2014 #date +"%B %Y" --date="+1 month" May 2014 谁知道问题出在哪里--我应该用一个更好的“下个月”脚本吗？

浏览 3提问于2014-03-31得票数 3

回答已采纳

1回答

scala、apache-spark、cassandra、spark-cassandra-connector

我正在尝试从spark中名为logtimestamp (类型为TimeStampType)的列中创建year和month列。数据源为cassandra。我正在使用sparkshell来执行这些步骤，以下是我编写的代码- import org.apache.spark.sql.cassandra._ import org.apache.spark.sql.types._ var logsDF = spark.read.cassandraFormat("tableName", "cw").load() var newlogs = logsDF.withColumn

浏览 34提问于2021-11-02得票数 4

回答已采纳

1回答

编写一个程序，提示用户输入一年零一个月(前三个字母，第一个字母大写)，然后显示一个月的天数。

java、netbeans

编写一个程序，提示用户输入一个月名的一年和前三个字母(大写的第一个字母)，并显示一个月的天数。下面是一个示例运行：进入一年:2001年输入一个月:一月 2001年1月有31天进入一年:2016年输入一个月:2月 “2016年1月有29天”(我不太明白这个问题)，我的问题是飞跃年部分。我不知道如何与程序的其他部分一起工作，因为天数应该会改变。我也不明白为什么在这个例子中“2月”改为"Jan“。我需要人帮我重新设计程序。我所能使用的只是下面代码中看到的内容：“”If语句和开关/大小写“”。 import java.util.Scanner; public class NewCla

浏览 3提问于2015-02-16得票数 0

回答已采纳

1回答

面向星火上小数据集的大数据泄漏

scala、apache-spark、apache-spark-sql

我正试图在NOA数据集上运行一些spark sql，如下所示：我正在尝试运行一些涉及分组和排序的查询。 df .groupBy("COUNTRY_FULL") .agg(max("rank"), last("consecutive").as("consecutive")) .withColumn("maxDays", maxDaysTornodoUdf(col("consecutive"))) .sort(col("maxDays"

浏览 5提问于2021-08-16得票数 2

1回答

更新管理器为什么要下载多个内核映像？

kernel、update-manager

谢谢你给我提问的机会。我使用Ubuntu已经很长时间了，但这是我第一次“问”。我试着为下面的问题寻找答案，但找不到答案，所以我鼓励自己在这里提问。如果我应该更清楚的话，请容忍我。我的问题与“更新管理器”有关，为什么它会下载多个内核映像。例如：-) 1月13日至15日，它下载:initrd.img-3.2.0-75-泛型-pae和initrd.img-3.13.0-44-泛型-) 1月9日-15日下载:initrd.img-3.2.0-74-泛型-pae和initrd.img-3.13.0-43-泛型等等。 FYI：=) 7月25日-14日，它已经下载了initrd.img-3.5.0-54

浏览 0提问于2015-01-12得票数 0

回答已采纳

1回答

数据库中的Jar作业超时限制

databricks、azure-databricks

在databricks是否有Jar作业超时限制或Jar作业可以不受限制地运行？我们的应用程序启动了长时间运行的spark作业，创建了spark会话和"fire“子作业，但在8月份的发布说明中，我发现notebooks会限制作业执行2天。有可能在这样的限制下运行流作业吗？

浏览 0提问于2021-09-04得票数 0

1回答

时差错误计算

javascript、date

function parseDate(s){ var parts = s.split('/') return new Date(parts[2], parts[1], parts[0]) } function calcDaysBetween(startDate, endDate){ return Math.floor((endDate-startDate)/86400000); } function yarro(){ var startDate = parseDate($('#pickupdate').val());

浏览 6提问于2012-01-05得票数 1

1回答

Android onDrawFrame()大延迟

android、opengl-es、opengl-es-2.0、glsles

我有一个游戏使用GLSurfaceView.Renderer以通常的方式使用OpenGL ES 2.0渲染3D图形。所有呈现代码都在onDrawFrame()方法中，计时时需要大约24 is才能完成；这很容易给出30个FPS结果。然而，我发现onDrawFrame()调用本身通常只是每50到100 ms调用一次，因此onDrawFrame()的总时间实际上是70到120 ms，最多只能给出14 FPS的结果。为什么安卓要花这么长时间才能调用onDrawFrame()呢？在堆栈溢出和其他地方读到这篇文章时，我收集了onDrawFrame()“锁”，直到GPU呈现了这个帧，所以我想知道是不是我的

浏览 2提问于2014-11-01得票数 0

回答已采纳

1回答

Spark - filter vs列表已添加

scala、apache-spark、rdd

val rtnRdd = originRdd.filter( ~~~ ) // 1 // 2 var eventList: List[myType] = Nil originRdd.foreach{ if( some condition) eventList :+= myType( ~~ ) } // eventList convert to RDD 在spark中，哪种方式是正确和快速的？如果“%1”是正确的方式，为什么我不应该使用“%2”代码样式？

浏览 2提问于2018-03-12得票数 0

3回答

使用Scala2.12和Spark2.x

scala、apache-spark、abi、binary-compatibility

在Spark2.1 上，有人提到 Spark运行在Java 7+、Python2.6+/3.4+和R 3.1+上。对于Scala，Spark2.1.0使用Scala2.11。您需要使用兼容的Scala版本(2.11.x)。在Scala2.12 中还提到：虽然Scala 2.11和2.12主要是源代码兼容的，以便于交叉构建，但它们并不是二进制兼容的。这使我们能够不断改进Scala编译器和标准库。但是当我构建一个uber (使用Scala2.12)并在Spark2.1上运行它时。每件事都很正常。我知道这不是任何官方来源，但在，他们提到Spark2.1确实支持Scala2.1

浏览 11提问于2017-03-19得票数 28

1回答

使用Apache Spark和AWS从每日CSV文件生成月度数据

amazon-web-services、apache-spark、amazon-athena、aws-glue

我的CSV文件具有相同的列和一百万个匹配的ID，用于2018年的每一天。每一列都有5列，不包括ID。我想按月连接文件，这样每个月的文件都有5列*天数，因此1月份将有155个名称为Day1-Col1，Day1-Col2...第31天-Col5。这是我可以用Apache Spark做的事情吗？我选择Spark是因为我想将数据放入AWS Athena数据集中，而AWS Glue似乎可以通过Spark SQL查询来实现这一点。我想我们会先把CSV转换成拼图文件，然后生成一个每月的数据集，然后用AWS Quicksight可视化。

浏览 18提问于2019-09-17得票数 0

回答已采纳

2回答

Spark SQL -查找每年一个月的最大值

sql、apache-spark-sql、greatest-n-per-group、window-functions

我已经创建了一个包含年、月和事件发生次数(计数)的数据框架。 ? 我想使用spark SQL找出每年发生事件最多的月份。

浏览 96提问于2020-10-04得票数 1

1回答

Apache zepplin spark作业运行速度比spark-submit快

scala、apache-spark、apache-zeppelin

我想知道为什么我在Zepplin段落中写的spark作业的执行速度比运行spark-submit要快得多？我基本上在Zepplin和spark-submit中使用相同的配置(执行器、内存)，但是在执行时间上有很大的不同。两者都运行在同一个独立的spark集群上。如何解释这种差异？

浏览 0提问于2016-12-28得票数 2

1回答

星星之火(Scala)，考虑两年前的几天

scala、apache-spark

我正在用Scala编写一个Spark批处理作业，并且需要过滤一个dataframe ('driverTable'，带有列'date')，这样我只能将日期保持在2年前(丢弃所有其他列)。 val dayList: Seq[Date] = driverTable .select("date") .as[Date] .distinct .filter(s"date <= ... ") .collect() .sortBy(_.getTi

浏览 3提问于2021-05-25得票数 0

回答已采纳

1回答

通过递归导致堆栈溢出

recursion、stack-overflow

我一直在使用二叉树在c++中实现字符串的优先级队列。因为我认为递归的简单性很好。我不打算发布代码，因为我今天已经在调试器上花了很长时间，我也不是要求有人来帮我调试，但是基本上在实现了递归方法去排队列和插入元素，以及测试了最多1000个随机字符串的正确行为之后，我使用了一个测试中心，它试图加入10000个随机字符串，并且我有一个堆栈溢出错误。在此之后，我更改了其他使用指针游标扫描我的树的递归方法，使用相同的逻辑插入和排队列，并且它没有像我预期的那样崩溃(我几乎将它编码为一个链接列表)。问题是，即使我使用引用传递，也可以通过递归导致堆栈溢出吗？这些递归方法是类的一部分，定义为私有。我希望这

浏览 0提问于2016-07-18得票数 0

回答已采纳

1回答

spark streaming在使用reduceByKey时保持生成阶段

apache-spark、spark-streaming

当使用增加分区的函数时，似乎会生成空的stages，调用repartition时也会发生同样的情况，stages溢出spark UI，并且我无法跟踪真实的stages，这使得UI无用我从字数统计示例中得到了相同的行为我使用默认设置的spark 1.1.0

浏览 1提问于2015-01-21得票数 0

1回答

雅虎财务季度数据尚未更新。这需要多长时间才能生效？

yahoo-finance、yahoo-api

现在是一月六号。许多公司已经发布了今年年底的年度报告，但雅虎财务没有更新。例如，已经发布了财报，但该网站没有公布2021年12月30日的季度损益表。(单击链接后，选择“收益表”，然后选择“季度”，查看我说的内容丢失了什么) 有谁知道为什么会出现这种情况，雅虎财务需要多长时间才能在其网站上公布最近的季度收益？

浏览 5提问于2022-01-06得票数 0

2回答

用于多个数据文件的PySpark OOM

apache-spark、pyspark

我希望与PySpark并行处理几个类似大小(100 MB)的依赖于i的csv文件。我在一台机器上运行PySpark : spark.driver.memory 20g spark.executor.memory 2g local1 文件内容: type (在每个csv中具有相同的值)、时间戳、价格首先，我在一个csv上测试了它(注意，我使用了35个不同的窗口函数)： logData = spark.read.csv("TypeA.csv", header=False,schema=schema) // Compute moving avg. I used 35

浏览 3提问于2020-08-23得票数 0

1回答

旧的日期被解析为夏季时间，即使在Java中不是这样。

java、date、timezone

我在显示多个作为长时间存储的日期时遇到问题。我使用接受长参数的构造函数创建日期对象，然后将日期打印到PDF文件中。然而，与Windows相比，在Linux上运行程序时，我遇到了老日期的问题。取这个日期: 25。例如1976年4月00:00:00 (长值: 199231200000L)。如果我使用dateformater来显示日期，它将在Linux和Windows上显示不同的内容：在Windows上: 25。1976年4月00:00 Linux上: 24。1976年4月23:00 文字代表。只需运行以下行即可显示： DateFormat.getDateTimeInstance( DateF

浏览 3提问于2015-06-10得票数 5

回答已采纳

1回答

Tableau折线图被分成两个面板，我想把它们组合起来

tableau-desktop

前言:我已经了解了双轴功能。不幸的是，这不是我需要的解决方案。我有一张过去一年的销售折线图。我的图表的x轴是以月份表示的。但是，由于我希望月份按顺序出现(2020年8月到2021年8月)，因此除了月份之外，我还必须按年进行描述。这会被发现，除非我的图表在2020年和2021年的12月/1月之间有一个巨大的不连续。看起来我的图表根据年份被分成了两个独立的面板。有人知道如何组合这些面板并消除不连续吗？提前感谢！:)

浏览 3提问于2021-08-06得票数 0

4回答

Spark Dataframe API中将出生日期转换为年龄

java、scala、apache-spark、apache-spark-sql

这似乎很简单，但我找不到答案。我试图将以下日期格式中的出生日期列转换为Spark中的日期格式，然后计算相应的年龄。我可能也需要系统日期。我已经找到了一些可能有用的java库，但在使用dataframe时仍然存在一些困难。 8月23日至6月 2月28日至6日 09-APR-59 9/10/2015编辑：我刚刚发现Spark1.5.0添加了“日期时间函数”，这在将来1.5.0发布时会很有帮助。不幸的是，它不适用于AWS EMR中当前的spark版本。 9/10/2015晚间编辑：我能够使用以下代码将出生日期转换为年龄。注意，getYear()函数是不推荐的，但我可以告诉您，它们工作得很好

浏览 4提问于2015-09-09得票数 1

回答已采纳

4回答

当初始化集合时，哈希集如何处理内存？

c#、performance、memory、collections、hashset

我偶然发现了以下问题。我想要一个所有数字从1到100.000.000的哈希集。我尝试了以下代码： var mySet = new HashSet<int>(); for (var k = 1; k <= 100000000; k++) mySet.Add(k); 这段代码没有成功，因为我在4900万左右的某个地方出现了内存溢出。这也是相当缓慢和记忆过度增长。然后我试过这个。 var mySet = Enumerable.Range(1, 100000000).ToHashSet(); 其中ToHashSet()是以下代码： public static HashS

浏览 0提问于2012-07-19得票数 9

回答已采纳

2回答

增加服务器内存有助于获得IIS堆栈内存吗？

iis

目前，我的应用程序很少有长时间运行的进程。有时IIS在运行这些进程时会因为堆栈溢出异常而崩溃。增加服务器规范确实可以帮助解决这个问题。我需要一些关于这个的建议。

浏览 0提问于2016-05-12得票数 -2

1回答

Spark是一种懒惰的操作还是渴望？

apache-spark、pyspark、apache-spark-sql

我读过一些资源，声称Spark操作通常是懒惰的。但我已经运行了一些工作，花了很长时间的csv读步骤。然后我读了这篇文章，说csv是一个热切的operation1。你有更明确的答案和参考吗？谢谢! 1. 尽量减少急切的操作:为了使管道尽可能可伸缩，最好避免将完整的数据文件拖进内存的急切操作。我注意到，在CSV中阅读是一种迫切的操作，我的工作是将数据存储为parquet，然后从parquet中重新加载数据，以构建更可伸缩的管道。

浏览 4提问于2019-10-11得票数 4

1回答

如何显示客户在特定时间段内的订单频率。

excel、tsql、excel-formula

我有一份电子邮件地址和订购日期的清单。我正在努力弄清楚如何显示每周，每月两次，每月一次，每2个月一次，每3个月一次，每4个月一次，以及每5个月或更长时间的客户数量。实现这一目标的最佳方法是什么？我有40万张唱片。

浏览 2提问于2012-07-03得票数 0

1回答

为什么在spark中spark.sql.orc.filterPushdown默认是false？

apache-spark、apache-spark-sql、orc

为什么spark中的spark.sql.orc.filterPushdown默认值是false？将spark的值设置为true是否会导致一些性能开销，或者在spark.sql.orc.filterPushdown的orc读取功能中存在一些限制？

浏览 0提问于2019-03-14得票数 0

2回答

如何在spark streaming中修剪执行者的日志

apache-spark、logging、log4j、spark-streaming

我正在做一个在独立模式下运行的spark流媒体作业。默认情况下，执行器将日志附加到$SPARK_HOME/work/app_idxxxx/stderr和stdout文件中。现在问题来了，当应用程序运行了很长时间，比如一个月或更长时间，它会在stderr文件中生成大量日志。我想每天滚动一周的stderr，然后将其存档(删除)。我用org.apache.log4j.RollingFileAppender更改了log4j.properties，并将日志定向到一个文件，而不是stderr，但该文件并没有考虑滚动，并且一直在增长。创建cron作业也不起作用，因为spark有一个指向该特定文件的指针，并且

浏览 0提问于2018-03-09得票数 1

1回答

星星之火-sql内置的逐月函数返回奇怪的结果

scala、apache-spark、apache-spark-sql

由于一些奇怪的原因，spark中的dayofmonth函数似乎返回了多年来1500 or less的奇怪值。以下是获得->的结果 scala> spark.sql("SELECT dayofmonth('1501-02-14') ").show() +------------------------------------+ |dayofmonth(CAST(1501-02-14 AS DATE))| +------------------------------------+ |

浏览 2提问于2019-03-05得票数 1

回答已采纳

1回答

QElapsedTimer可以测量多长时间的持续时间？

c++、qt

有什么方法可以不重置的情况下运行多长时间的QElapsedTimer？类总是返回一个qint64，但我不知道它所能测量的最大持续时间是否对应。 docs ()提到在某些情况下会发生溢出，而在其他情况下则不会发生溢出(这让我感到困惑-如果您在int中存储ms或ns中的值，那么在某个时间点是否会发生溢出？) 我想使用QElapsedTimer来跟踪正常运行时间，并试图确定它是否合适。

浏览 8提问于2013-03-05得票数 0

2回答

填充-底部被忽略在火狐和IE上溢出的没有内容的元素。

html、css、internet-explorer、google-chrome、firefox

这个问题与以下2项有关：但我没有找到为什么会出现这种情况，这意味着，为什么在Chrome(31)和Opera(18)中，填充物确实出现，而在Firefox(26)和IE(9-10)中却没有。这是我的测试用例：一个简单的例子来自相关的问题#1： <div id="container"> <div id="innerBox"></div> </div> #container { padding: 3em; overflow-x: hidden; overf

浏览 0提问于2013-12-17得票数 23

1回答

为什么在单个应用程序中，每次迭代SparkSession初始化都需要更长的时间？

apache-spark

我使用spark进行批量分析。我在一台128G内存和32核CPU的独立Ubuntu服务器上运行Spark。在不带任何其他配置参数的情况下运行spark-sumbit my_code.py。在while循环中，我启动SparkSession，分析数据，然后停止上下文，这个过程每10秒重复一次。 while True: spark = SparkSession.builder.appName("sync_task").config('spark.driver.maxResultSize' , '5g').getOrCreate()

浏览 1提问于2017-04-16得票数 1

1回答

火花读取分区avro比指向精确位置慢得多

apache-spark、pyspark、avro、azure-databricks

我正在尝试读取分区的Avro数据，该数据是根据年、月和日进行分区的，这似乎比直接指向路径要慢得多。在物理计划中，我可以看到分区筛选器正在传递，因此它不会扫描整个目录集，但它仍然非常慢。例如，像这样读取分区的数据 profitLossPath="abfss://raw@"+datalakename+".dfs.core.windows.net/datawarehouse/CommercialDM.ProfitLoss/" profitLoss = spark.read.\ format("com.databricks.spark.avro&

浏览 13提问于2020-06-23得票数 1

回答已采纳

1回答

在做Spark cube时如何避免长时间运行的任务

sql、apache-spark、query-optimization、cube

想象一下一个博客，其中每个事件都具有多个维度(siteID、countryID、pageID等)。也有一个访问者ID： eventID | siteID | countryID | pageID | visitorID 目标是对每个维度组合的唯一访问者进行计数，包括总计(即立方体)。它可以表示为以下Spark SQL查询： SELECT COUNT(DISTINCT(visitorID)) FROM weblog GROUP BY siteID, countryID, pageID WITH CUBE 假设所有维度字段都具有相对较高的基数，这种聚合可以由Spark高效地完成，因为维

浏览 7提问于2018-01-11得票数 0

3回答

为什么Presto比Spark SQL快

apache-spark-sql、presto

为什么Presto比Spark SQL快？此外，Presto和Spark SQL在计算架构和内存管理方面的区别是什么？

浏览 3提问于2018-04-25得票数 32

回答已采纳

2回答

触发本地rdd写入到本地Cassandra DB

apache-spark、cassandra、spark-cassandra-connector、dse

我有一个DSE集群，集群中的每个节点都在运行spark和Cassandra。当我从Cassandra加载数据到spark rdd并在Rdd上执行一些操作时，我知道数据将分布到多个节点中。在我的例子中，我想把这些rdds从每个节点直接写到它的本地Cassandra dB表中，有没有办法做到这一点。如果我执行普通的rdd收集，来自spark节点的所有数据将被合并，并返回到带有驱动程序的节点。我不希望发生这种情况，因为从节点返回到驱动程序节点的数据可能需要很长时间，我希望数据直接保存到本地节点，以避免数据跨spark节点移动。

浏览 3提问于2020-10-20得票数 1

1回答

WEEKOFYEAR(NOW()) vs WEEKOFYEAR(2018-05-1)--当前日期

mysql

只是想知道是否有人能弄清楚为什么要问以下问题(注:今天的日期是2018年5月1日) 选择WEEKOFYEAR(NOW());给出18的结果。但是查询：选择WEEK('2018-05-1') (使用所有不同的模式0 -7)给出了17的结果从技术上讲，现在一年中的一周不是应该和2018-05-01这一周一样吗?因为今天是2018年5月5日？很好奇为什么不给出同样的结果。非常感谢

浏览 0提问于2018-05-01得票数 1

2回答

齐柏林飞艇失败；Vora和Spark1.5.2库之间的类UTF8String.class不同

apache-spark、sap、apache-zeppelin、vora

我安装了Vora 1.1。在HDP 2.3上的补丁1和Spark1.5.2，在SLES 11 SP3上。这并不是Note 2213226中提到的配置，但是Vora的shell版本似乎与安装手册的测试2.7 (后者没有根据操作系统版本指定HDP版本，因此我在SLES下选择了HDP 2.3)工作得很好。不过，我对齐柏林飞艇有意见。版本0.5.6的github安装似乎是成功的，我可以在Zeppelin记事本中执行"create“语句，但是当执行”显示表“语句时会出错： Error: Job aborted due to stage failure: Task 0 in stage 12.0

浏览 4提问于2016-03-16得票数 0

回答已采纳

5回答

为什么在Fortran标准中最大单行长度限制在132个字符？

fortran

是关于性能，干净的源代码，编译器.？我知道许多编译器允许更长的单行代码。但是，如果这个扩展是可能的，没有任何妥协，那么为什么Fortran标准会严格遵守这个规则呢？我知道这是一个非常普遍的问题(堆栈溢出警告我，考虑到这个问题的标题，这个问题可能会被否决)，但我找不到任何资源来解释现代Fortran标准中132个字符的最大长度背后的逻辑。更新2019年10月22日：查看作为Fortran标准下一个202 X修订版的工作项接受的建议，该建议消除了最大行长和延拓限制。

浏览 5提问于2017-07-08得票数 4

回答已采纳

2回答

火花时间为0.5秒，平均100个数字

scala、apache-spark、apache-spark-sql、average

我在CSV中有大约7000万行用户位置和日期时间的数据集，并编写了以下代码来平均前100名用户的点数： val spark = org.apache.spark.sql.SparkSession.builder .appName("Test") .getOrCreate import spark.implicits._ val watch = new Stopwatch() watch.start() val schema = new StructType().add("user_id", StringType).add("datet

浏览 5提问于2017-08-20得票数 2

回答已采纳

3回答

帮助在SQLite中按日期对结果进行排序

sql、sqlite、date

浏览 0提问于2011-04-21得票数 5

回答已采纳

1回答

Spark中几个任务中的重新分区数据瓶颈

apache-spark、apache-spark-sql

我有一个简单的spark工作，它做以下工作 val dfIn = spark.read.parquet(PATH_IN) val dfOut = dfIn.repartition(col1, col2, col3) dfOut.write.mode(SaveMode.Append).partitionBy(col1, col2, col3).parquet(PATH_OUT) 我注意到这份工作的表现有很大的恶化。检查Spark UI显示，写入瓶颈出现在一些任务中，与快速分区相比，这显示出巨大的内存溢出和更大的输出大小。因此，我怀疑这个问题是由数据不对称和更改数据重新分区到的方式引起的 i

浏览 31提问于2021-11-04得票数 2

1回答

Date_format转换正在将1年添加到边框日期。

scala、apache-spark、apache-spark-sql、date-format、unix-timestamp

当我在12月31日使用DATE_FORMAT时，2018年将改为2019年。有人能帮我说一下这是个bug还是我漏掉了什么吗？ import org.apache.spark.sql.functions._ spark.sql("select CAST(1546268400 AS TIMESTAMP)").show(false) 输出： 2018-12-31 15:00:00.0 spark.sql("select DATE_FORMAT(CAST(1546268400 AS TIMESTAMP), 'MM/dd/YYYY HH:mm')").s

浏览 0提问于2019-02-02得票数 4

回答已采纳

3回答

fsck能用多长时间来对付30 TB的量？

fsck

11月中旬，我从一家托管公司租来的一个VPS停止了响应。当我联系支持时，他们解释说，数据中心的停电导致了被迫重新启动和fsck。最后，我问为什么要花这么长时间，并被告知体积是30 TB。我上一次收到最新消息是在2月，他们没有对我最近的调查做出回应。我知道fsck对于某些文件系统来说是非常慢的，但是fsck是否可以在30 TB的量上花费6个月的时间，或者我是否应该假设这家托管公司在骗我，所以我每个月都要继续支付账单呢？

浏览 0提问于2019-05-07得票数 20

1回答

在Spark中的数据帧中选择非空值

apache-spark、spark-dataframe

我正在读取Spark 2.0中的CSV文件，并使用以下内容计算列中的非空值： val df = spark.read.option("header", "true").csv(dir) df.filter("IncidntNum is not null").count() 当我使用spark-shell测试它时，它工作得很好。当我创建一个包含代码的jar文件并将其提交给spark-submit时，我在上面的第二行得到一个异常： Exception in thread "main" org.apache.spark.sql.cat

浏览 5提问于2016-11-19得票数 2