pyspark: SQL count()失败

文章/答案/技术大牛

发布

1回答

、、

我有一个Spark数据帧，看起来像这样1 |34 |3sdf.createOrReplaceTempView('sdf_view')spark.sql('SELECT MAX(count), x FROM sdf_view') 这似乎是一个完美的SQL查询，我想知道为什么这不适用于Spark。

浏览 9提问于2018-02-19得票数 0

1回答

如何模拟对pyspark sql函数的内部调用

、、、、

获得了以下pyspark代码：from unittest import mock @mock.patch('pyspark.sql.DataFrame',spec=pyspark.sql.Dat

浏览 11提问于2019-11-02得票数 12

回答已采纳

1回答

Pyspark：“rdd”对象没有属性“平面映射”

、、、

我是刚接触过Pyspark的人，我实际上是在尝试用Pyspark对象构建一个平面图。attribute 'flatmap'my_rdd = my_rdd.flatmap(lambda r: (r[5].split('|')))from pyspark.sqlimport *from pyspark.

浏览 2提问于2018-10-28得票数 4

回答已采纳

1回答

NoneType对象没有属性'_jvm‘错误

、、、

我试图使用Spark2.2在DataFrame中打印每个分区中的总元素from pyspark.sql import SparkSessiondef count_elements(splitIndex, iterator): yield (splitIndex, n(ind, x)).take(3))) N

浏览 0提问于2018-03-25得票数 6

5回答

星星之火SQL* Row_number() PartitionBy排序Desc*

、、、、

这是我的工作代码：from pyspark.sql.types import *from pyspark.sql.window import Window data_cooccur.select("driver", "also_item", "unit_co

浏览 3提问于2016-02-06得票数 56

回答已采纳

1回答

获得重复计数，但保留重复行

||1 |0 |1 |2 |我想得出这样的结果：|a |b |c |d |row_count

浏览 2提问于2020-01-30得票数 0

回答已采纳

1回答

从蜂巢中读取数据

、、

我正在尝试通过Pyspark读取Hive表中的数据。我已经成功地建立了蜂巢和火花之间的联系。我还能够看到数据库中存在的表，但是当我试图查询表时，我得到了以下错误：代码： spark.sql("select count(*) from my_table").show(truncate = False

浏览 1提问于2018-11-19得票数 2

4回答

用火花放电计算groupBy的总计数百分比

、

我在pyspark中有以下代码，从而生成一个表，显示列的不同值及其计数。我希望有另一列显示每一行所代表的总数的百分比。我该怎么做？difrgns = (df1 .count() .sort(desc("count"))

浏览 0提问于2018-09-11得票数 14

回答已采纳

1回答

列在pySpark中不可迭代

、、、

--+-------------------+ orderBy(hashtags_24.created_at_int).rangeBetween(-3600, 3600)#sum_count_over_time = sum(hashtags_24.ht_count

浏览 1提问于2017-03-13得票数 2

回答已采纳

1回答

从1列表中创建一行数据

、、、

from pyspark.sql import Window,Rowfrom pyspark.sql.session importSparkSessionstart_time = F.lit(datetime.datetime.now()) c

浏览 10提问于2022-10-21得票数 0

回答已采纳

1回答

火花。简单的“任何本地目录中都没有可用的空间”。

from pyspark.sql.types import Rowimport pyspark.sql.functions as spark_functionsRow("gamma", 3),] print("count</

浏览 4提问于2016-09-03得票数 3

回答已采纳

1回答

使用pyspark计算文本文件中所有单词的长度总和问题

、

我正在尝试使用pyspark on databricks对文本文件中的所有字母进行求和。我已经成功地掌握了每个单词的长度，但却很难把它们总结起来。

浏览 3提问于2021-09-02得票数 0

回答已采纳

1回答

SQL查询以计数在过去30天内完成的事务的频率

、、、

我有一个关于如何执行SQL查询或java查询的问题，该查询将计算在过去30天内由某个信用卡号码完成的事务的频率。

浏览 4提问于2022-11-28得票数 -1

2回答

要Py的SQL查询(Spark)

、、、、

我有以下SQL查询，我想将其转换为pyspark。我想使用两个列pp和gender，并在pyspark中执行以下操作 %sql , SUM(CASE WHEN Gender = 'M'THEN 1.0 ELSE 0.0 END) /, count(1) AS totalWHERE genderin (&

浏览 12提问于2020-12-16得票数 0

1回答

Apache Spark中的agg(计数)不工作

、

尝试使用聚合在Apache Spark (PySpark)中聚合我的数据帧。countDistinct('age'))old_table.groupby('name').agg(countDistinct('age'), count('age))NameError: name 'count' is not defined 有没有办法将count添加到我的输出

浏览 5提问于2017-02-10得票数 4

1回答

数据库Python优化

、、、、

# table containing all name of database in databricks showTables="""show tables in {};""".format(i.nombd) #df=df2.sele

浏览 8提问于2022-01-06得票数 0

1回答

基于其他列中值的PySpark* DataFrame乘法列*

、

我有个数据，比如说，| id| mode|count||146360 | DOS| 30|+------------+------+-----++------------+-------+----+---

浏览 1提问于2019-07-16得票数 2

回答已采纳

2回答

Pyspark读取csv

、、

新的pyspark，并希望读取csv文件到数据帧。看起来不能读。有什么帮助吗？from pyspark.sql import SQLContextfrom pyspark.sql import Row rdd = sc.textFile('data.csv').map(lambda line: line.split(","))

浏览 3提问于2018-05-14得票数 1

回答已采纳

1回答

如何处理AWS胶粉中的“0000-00-00”

、、、、

正因为如此，我的Glue作业(PySpark)失败了。如何在胶码中处理这个问题？ File "script_2018-08-03-21-41-06.py", line 107, in <module> total_record_count=datasourceDF0.count(

浏览 0提问于2018-08-04得票数 2

3回答

向PySpark数据帧中添加组计数列

、、

在PySpark中，我可以做一些几乎同样简单的事情，如果我要查看，根据行数概括：from pyspark.sql.functionsspark = SparkSession.builder.getOrCreate() .groupBy(col("x")) \ .count但是，当我执行以下操作时，Py

浏览 0提问于2018-02-14得票数 37

回答已采纳

点击加载更多