基于条件对pyspark行进行分组_数据帧基于条件对行进行分组_基于列PySpark的更改模式对行进行分组 - 腾讯云开发者社区

、、、、

我有一颗火花 item_id attribute_id attribute_value 1001 color blue 1001 shape rectangular 1001 material copper 1002 color black 1002 material copper 1003 color grey 我想要合成的数据在下面匹配 item_id color shape meterial 1001

浏览 2提问于2022-01-28得票数 0

回答已采纳

1回答

在不使用PySpark函数的SQL中获取每月最大值

、、、、

我想要找到这个查询的每月最大值，以获得每月最繁忙的机场。在不使用SQL命令的情况下，是否有一个pyspark函数可以获得最大值并将RDD减少到只有12行(每月一行)？ from pyspark import SparkContext from pyspark.sql import SQLContext from operator import add sc = SparkContext.getOrCreate() sqlContext = SQLContext(sc) rows = sc.textFile("data.csv") data = rows.map(lamb

浏览 36提问于2020-06-17得票数 0

回答已采纳

1回答

Pyspark查询以获取特定列的+/- 20%的行

、、、、

我有下面的pyspark： +------------------+--------+-------+ | ID| Assets|Revenue| +------------------+--------+-------+ |201542399349300619| 1633944| 32850| |201542399349300629| 3979760| 850914| |201542399349300634| 3402687|1983568| |201542399349300724| 1138291|1097553| |201522369349300122|

浏览 0提问于2019-03-07得票数 3

回答已采纳

1回答

动态构建用于导出到csv的大型数据帧(spark或pandas)的方法

、、、、

我有一个csv，我使用spark.read导入到databricks中。这个大文件包含每日级别的记录/事务。我将数据帧减少到5列，并保持500,000行不变。我正在尝试构建这个源文件的汇总表，它在一个月级别(聚合)表示这些记录/事务。该脚本有一个filter/groupby/sum命令，该命令返回一行，将数据汇总为一个月的计数。查询返回的行将如下所示： +---------+---------+-------+-------------+ | Country|StockCode|YYYY-MM|sum(Quantity)| +---------+---------+-------+---

浏览 12提问于2020-07-12得票数 0

1回答

Salesforce角色层次结构设置建议

我有一个角色层次结构设置，如下所示 CEO -- Finance ----Department A Managers ------ Department A Users ----Department B Managers ------ Department B Users 然后，我只有2个对象配置为Private 问题是，我们有些人(项目经理)需要能够从部门A用户或部门B用户中的不同用户查看这两个对象的数据。他们不应该能够查看来自部门A经理或部门B经理的数据。有没有人知道我如何设置才能在上面的场景中工作？我在这上面花了很多时间，我不确定最好的方法是什么。不确定是否可能，也许可以创建一个

浏览 0提问于2016-03-12得票数 0

1回答

Cassandra批处理，如果不存在重复行为

我正在批量插入同一分区的多个行，使用if not exists。根据我的测试，如果有任何行是重复的，则所有插入都会失败，并且没有插入任何行。我希望保留if not exists行为，但不会在有重复项的情况下使批处理失败，并且仍然插入非重复行。有没有办法告诉Cassandra在有重复的情况下不要让批处理失败？

浏览 0提问于2017-03-13得票数 1

1回答

根据组中的其他项为组中的项分配值

、、、、

我试图根据输入字符串是否位于组中另一个字符串的开头为组中的每一行分配一个值。例如，"hello“位于"hello world”的开头，因此这两种类型的值都被指定为“在一起”。“再见”没有分配“在一起”值，因为它不在组中另一个字符串的开头。 input = [('1', 'hello'),('1', 'goodbye'),('1', 'hola'),('1', 'hi'),('1', 'hello world'),(

浏览 5提问于2019-06-25得票数 0

回答已采纳

2回答

在PySpark Dataframe中的列中合并重复行

、

我在PySpark数据框架中有重复的行，我想根据一列中重复的条目将所有行和sum合并成一行。电流表 Deal_ID Title Customer In_Progress Deal_Total 30 Deal 1 Client A 350 900 30 Deal 1 Client A 360 850 50 Deal 2 Client B 30 50 30 Deal 1 Client A 125 200 30 Deal 1 Client

浏览 5提问于2022-11-04得票数 0

回答已采纳

1回答

spark java.lang.stackoverflow逻辑回归拟合大数据集

、

我正在尝试为具有470个特征和1000万个训练实例的数据集拟合逻辑回归模型。下面是我的代码片段。 from pyspark.ml import Pipeline from pyspark.ml.classification import LogisticRegression from pyspark.ml.feature import RFormula formula = RFormula(formula = "label ~ .-classWeight") bestregLambdaVal = 0.005 bestregAlphaVal = 0.01 lr = Log

浏览 2提问于2017-09-22得票数 1

1回答

如何在pyspark中对dataframe行排序

我有一个包含两列的数据帧，其中包含数字，我需要按行而不是按列对数据帧进行排序。到处都给出了如何按列对dataframe进行排序，但我找不到如何在pyspark中对dataframe的所有行进行排序。 col1 col2 2 1 3 2 预期输出 col1 col2 1 2 2 3

浏览 0提问于2017-11-14得票数 1

1回答

pyspark将dic与大数据帧进行匹配，并使用for循环计算每一行

、

我有一个数据帧，我想将它与另一个数据帧进行匹配，并在pyspark中进行一些计算。例如： # the data to calculate from pyspark.sql import SparkSession spk = SparkSession.builder.appName("dataFrame").getOrCreate() df = spk.createDataFrame([ ("Hi I heard about Spark".split(" "), ), ([],), ("I wish Java co

浏览 16提问于2021-09-18得票数 1

回答已采纳

2回答

如何在Power BI或Power query中操作数据行

、

我在Power BI中有几行数据，每一行都有一个重复的行，其中有不同的数值。我想添加每一行的副本，并使其显示为1行。我该怎么解决这个问题呢。

浏览 0提问于2020-01-22得票数 0

1回答

根据第一个数据帧从第二个数据帧获取数据

、、、

浏览 1提问于2021-05-30得票数 1

2回答

spark:如何在保留最高时间戳行的同时对数据帧执行dropDuplicates

、、、

我有一个用例，我需要删除数据帧的重复行(在这种情况下，重复意味着它们具有相同的'id‘字段)，同时保留具有最高'timestamp’(unix时间戳)字段的行。我找到了drop_duplicate方法(我使用的是pyspark)，但无法控制将保留哪个项目。有人能帮上忙吗？提前进行Thx

浏览 2提问于2016-04-14得票数 9

回答已采纳

1回答

统计SPARKSQL中的重复行数

、、、

我有一个要求，我需要计算配置单元表的SparkSQL中的重复行数。 from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row app_name="test" conf = SparkConf().setAppName(app_name) sc = SparkContext(conf=conf) sqlContext = HiveContext(sc) df =

浏览 3提问于2018-02-01得票数 11

回答已采纳

1回答

df.count()需要很长时间(或者根本不工作)

、、

我有下面的代码，简单地做一些连接，然后输出数据； from pyspark.sql.functions import udf, struct from pyspark import SparkContext from pyspark.sql import SparkSession from pyspark import SparkConf from pyspark.sql.functions import broadcast conf = SparkConf() conf.set('spark.logConf', 'true') spark = SparkS

浏览 1提问于2018-10-16得票数 1

回答已采纳

1回答

当sum()列时，我得到错误AttributeError：'DataFrame‘对象没有属性'sum’

、、

浏览 3提问于2017-05-29得票数 1

1回答

在Spark中合并多行

、、

我想知道在Pyspark中是否有什么简单的方法可以将多行合并为一行，我是Python和Spark的新手，大部分时间都在使用Spark.sql。下面是一个数据示例： id count1 count2 count3 1 null 1 null 1 3 null null 1 null null 5 2 null 1 null 2 1 null null 2 null

浏览 0提问于2020-02-07得票数 2

1回答

理解窗口函数的一个示例

、、、

我正在运行代码脚本以获得以下结果。代码如下所示。我不明白为什么我会得到如图所示的xyz1列。例如，为什么xyz1的第一行是0。根据窗口函数，它对应的组应该是前两行，但为什么F.count(F.col("xyz")).over(w)在这里得到0。 import pyspark from pyspark.sql import SparkSession from pyspark.sql.window import Window from pyspark.sql import functions as F spark = SparkSession.builder.appName(&#

浏览 15提问于2021-04-03得票数 1

回答已采纳

1回答

Pandas它是否保持组中行的顺序？

、、

我正在使用pandas_udf在pyspark中创建一个分组映射(拆分-应用-组合模式) UDF，并且我需要知道在传递给UDF时是否保持行的顺序(我的转换取决于每个组的行的顺序)。

浏览 1提问于2020-04-25得票数 1

回答已采纳

2回答

要应用于PySpark中的窗口的用户定义函数？

、、、、

我正在尝试将用户定义的函数应用于PySpark中的窗口。我读到过UDAF可能是可行的，但我找不到任何具体的东西。举个例子(取自此处：，并针对PySpark进行了修改)： from pyspark import SparkConf from pyspark.sql import SparkSession from pyspark.sql.window import Window from pyspark.sql.functions import avg spark = SparkSession.builder.master("local").config(conf=Spark

浏览 0提问于2018-01-09得票数 11

回答已采纳

1回答

拉勒维尔雄辩--用关系建立“哪里不”的疑问

、、

我有5个具有相同client_id的数据库行，3个标记为completed, Yes。这段代码如预期那样获得了3个结果： $indGoal = $client->indGoal()->where('completed','=','Yes')->get(); 这段代码没有得到任何结果:我期望2。 $indGoal = $client->indGoal()->where('completed','!=','Yes')->get(); 建议添加->orWhere

浏览 0提问于2018-06-25得票数 0

回答已采纳

1回答

带有参数值的pyspark筛选器不工作

下面是我试图运行的pyspark代码。我不能用filter替换这个值。请给我建议。 >>> coreWordFilter = "crawlResult.url.like('%"+IncoreWords[0]+"%')" >>> coreWordFilter "crawlResult.url.like('%furniture%')" >>> preFilter = crawlResult.filter(coreWordFilter) 20/02/11 09:19:

浏览 1提问于2020-02-11得票数 1

1回答

获取PySpark中一起发生的项的计数

我有一个包含1000个行的PySpark数据。列是(1)以字符串形式同时出现的项数和(2)出现频率。我想知道每一项在其他项目中发生了多少次。下面是样本数据。 pd.DataFrame({'items':['[a,b,c]','[c,d,e]', '[a,e]','[a,b,e]','[b,c]', '[c,d,e,b]'],'freq':[10, 16,7,2,6,5]}) 预期的输出如下所示。 [(a, b), 12], [(a, c), 10], [(c, d),

浏览 14提问于2022-09-19得票数 0

回答已采纳

1回答

PySpark:带有标量Pandas的无效returnType

、、

我正在尝试从pandas_udf返回一个特定的结构。它在一个集群上工作，但在另一个集群上失败。我尝试在组上运行udf，这需要返回类型为数据框架。 from pyspark.sql.functions import pandas_udf import pandas as pd import numpy as np from pyspark.sql.types import * schema = StructType([ StructField("Distance", FloatType()), StructField("CarId", IntegerTy

浏览 2提问于2018-03-26得票数 5

回答已采纳

1回答

如何使用data.table搜索和执行组计算

、

我有一个包含两个值"S2“和"S1”的列B_S。S2标记每个组的边界和每个组的原始行。S1在高列中标记需要检查的可能项目。例如，我需要检查S1高是否大于S2高。我需要遍历所有S1条目，选择S1高级别高于S2高级别的行，并删除S1高级别不高于S2的行。我没有足够的data.table经验来产生这样的结果。以下是数据示例： structure(list(Time = c("16/10/2014 09:19", "16/10/2014 09:20", "16/10/2014 09:21", "16/10/2014 09:

浏览 1提问于2019-06-01得票数 1

2回答

SQL Server透视一列并保留其他列

、、、、

我正在尝试透视SQL Server中的一个表(52M+观察值)，但是我没有得到所需的结果。有15个描述，每个描述都有一个我需要透视的值。原始数据帧： ID | Date | Description| Value ------------------------------------------------- P1 | 2016-12-31 | ABC | 900 P2 | 2016-11-30 | XYZ | 800 P3 | 2016-10-31 |

浏览 37提问于2020-09-03得票数 2

回答已采纳

1回答

用于访问一组行数的熊猫df.iterrows()方法：

、、

我正在使用df.iterrows()循环数据。我不想循环遍历所有行，而是设置每次访问的行数。首先我想访问前两行，然后是第三行到第六行，然后是剩下的行。有办法在行中循环吗？以下是我所拥有的： import pandas as pd import numpy as np df = pd.DataFrame(np.random.randn(10, 4), columns=list('ABCD')) df['key1'] = 0 df.key1.iloc[0:3] = 1 df.key1.iloc[3:7] = 2 df.key1.iloc[7:] =

浏览 3提问于2017-06-12得票数 0

回答已采纳

1回答

如何合并数组以加快隐藏行的速度？

、

我有一个要使用的脚本，以便我的经理可以快速查看电子表格中哪些项目需要订购部件。该脚本快速轻松地隐藏包含与订购部件无关的信息的列，然后隐藏列S中的值为FALSE (不需要订购部件)的所有行(共数千行)。隐藏列部分几乎是瞬间的，但是隐藏行部分非常慢。我知道为了加快速度，应该将数据加载到数组中，然后循环将在内存中的数组上运行，而不是对电子表格进行多次调用。我见过类似的问题，但答案似乎并没有确切地解释如何做到这一点。我读到的一个例子表明，它已经在使用数组了，这让我更加困惑。如果能帮我指明正确的方向，我将不胜感激。下面是我使用的脚本： function showPartsNeeded() { var

浏览 0提问于2015-11-18得票数 1

1回答

使用Codeingiter选择具有相同值的行

、

如何使用codeigniter选择具有相同值的所有对象。 +-------+-------------+------------+ | id | coupon_code | Barcode | +-------+-------------+------------+ | 1 | COUPON02 | 12542 | | 2 | COUPON02 | 11229 | | 3 | COUPON03 | 11823 | | 4 | COUPON

浏览 0提问于2016-06-10得票数 2

1回答

在Pyspark中查找相关的文档名称

、、

我有一个包含两列(id，name)的数据框。名称列具有相关的名称。例如，术语，相关术语，相关行，行。我想在不同的行中找到相似的名字。我已经尝试了余弦相似度，但无法实现这一点。我已经使用pyspark计算了TF-IDF。寻找使用pyspark在不同行中获取相关名称的方法。

浏览 11提问于2018-02-23得票数 0

3回答

具有条件的火花窗口函数

、、

假设我有一个事件的DataFrame，每一行之间都有时间差，主要规则是，如果事件仅在上一次或下一次事件的5分钟内进行，则只计算一次访问： +--------+-------------------+--------+ |userid |eventtime |timeDiff| +--------+-------------------+--------+ |37397e29|2017-06-04 03:00:00|60 | |37397e29|2017-06-04 03:01:00|60 | |37397e29|2017-06-04 03:02:00|6

浏览 4提问于2017-08-17得票数 12

回答已采纳

4回答

MySQL使用GROUP BY语句返回的行数较少

我有一个存储图像信息的MySQL数据库。现在，它只有三行存储在数据库中，并且每一行都通过一个键列与一些东西相关联，例如，一个唯一的博客帖子。到目前为止，一个"blog post key“有一个图像，另一个在数据库中有两个图像。当我运行这个查询时，MySQL返回所有三行。 SELECT `id`, `key`, `url` FROM (`images`) WHERE `key` = 'TpaS4G5h' OR `key` = '78855e44' 但是，当我添加GROUP BY语句时，我只得到两行...每个键对应一个。 SELECT `id`, `ke

浏览 0提问于2010-03-14得票数 0

回答已采纳

1回答

打印ResultIterable对象的内容

、

如何打印具有行和列列表的pyspark.resultiterable.ResultIterable对象的内容？有内置的功能吗？我想要像dataframe.show()这样的东西

浏览 5提问于2016-10-14得票数 2

回答已采纳

1回答

关于窗口函数中F.count(F.col("some column").isNotNull())的用法

、、、

我正在尝试测试窗口函数中F.count(F.col().isNotNull())的用法。请参阅以下代码脚本 from pyspark.sql import functions as F from pyspark.sql import SparkSession from pyspark.sql.window import Window spark = SparkSession.builder.appName('SparkByExamples.com').getOrCreate() list=([1,5,4], [1,5,None], [1,5,1], [

浏览 22提问于2021-04-03得票数 1

回答已采纳

1回答

过滤df时出现的pyspark.sql.utils.ParseException错误

除了数组包含1的一些行外，我希望从pyspark中选择所有行。它适用于笔记本中下面的代码： <pyspark df>.filter(~exists("<col name>", lambda x: x=="hello")) 但当我把它写成这样： cond = '~exists("<col name>", lambda x: x=="hello")' df = df.filter(con) 我犯了以下错误： pyspark.sql.utils.ParseException: ext

浏览 2提问于2021-12-21得票数 2

回答已采纳

1回答

从数据表中获取按日期分组的记录(日期间隔)

、

我有一个数据表，它的列是name、code、dateAndTime。现在，我想使用LINQ获得一天中每小时的所有记录的计数。 DateTime列包含的数据为 2018-08-01 07:00:06.163 2018-08-01 07:50:11.873 2018-08-01 08:00:42.623 2018-08-01 07:20:48.363 2018-08-01 09:01:15.243 2018-08-01 06:01:16.507 现在我想要得到从一天开始到现在(可能是一年或六个月)的所有记录的计数。例如:如果第一条记录在2018-08-01的凌晨5点左右，则其以2018-08-0

浏览 1提问于2018-09-19得票数 0

1回答

在多个列上应用窗口函数

、

我想执行窗口函数(具体而言是移动平均)，但要在数据帧的所有列上执行。我可以这样做 from pyspark.sql import SparkSession, functions as func df = ... df.select([func.avg(df[col]).over(windowSpec).alias(col) for col in df.columns]) 但我担心这不是很有效率。有没有更好的方法呢？

浏览 0提问于2017-04-21得票数 6

1回答

登录审核跟踪保存的搜索

、

我正在尝试自定义登录审计跟踪结果，以查看哪些员工很长时间没有使用他们的NS许可证。但是，登录审计跟踪显示了与不再具有的角色相关的员工的旧条目。我需要添加哪个额外的筛选器才能仅查看与其当前角色相关的登录历史记录？

浏览 12提问于2021-05-13得票数 0

1回答

使用pyspark中的groupby根据筛选的行创建具有最大值的新列

、、

我有一个spark数据帧 import pandas as pd foo = pd.DataFrame({'id': [1,1,2,2,2], 'col': ['a','b','a','a','b'], 'value': [1,5,2,3,4], 'col_b': ['a','c','a','a','c']}) 我想用value列的max创建一个新列，按id分组。但我希望

浏览 31提问于2021-01-16得票数 0

回答已采纳

2回答

不带聚合或计数的Pyspark groupBy DataFrame

、、

它可以在没有聚合或计数的情况下遍历Pyspark groupBy数据帧吗？例如Pandas中的代码： for i, d in df2: mycode .... ^^ if using pandas ^^ Is there a difference in how to iterate groupby in Pyspark or have to use aggregation and count?

浏览 54提问于2020-01-07得票数 3

回答已采纳

3回答

在满足条件的情况下，将两行合并在一起

、

浏览 1提问于2019-02-21得票数 0

回答已采纳

2回答

如何使用approx_count_distinct来计算Spark DataFrame中两个列的不同组合？

、、、、

我有一个Spark (sdf)，其中每一行都显示一个访问DataFrame的IP。我想要计算这个数据帧中不同的IP-URL对，最直接的解决方案是sdf.groupBy("ip", "url").count()。但是，由于数据帧有数十亿行，精确计数可能需要相当长的时间。我不是特别熟悉PySpark --我试着用.approx_count_distinct()替换.count()，这在语法上是不正确的。我搜索"how to use .approx_count_distinct() with groupBy()“，找到了。然而，建议的解决方案(类似于：sdf

浏览 2提问于2021-07-17得票数 4

1回答

基于pyspark的均值漂移聚类

、、、、

我们正在尝试将一个普通的python代码库迁移到pyspark。议程是对数据帧(以前是pandas，现在是spark)进行一些过滤，然后按user-ids对其进行分组，最后在顶部应用meanshift集群。我在分组数据上使用pandas_udf(df.schema, PandasUDFType.GROUPED_MAP)。但现在，最终输出的表示方式出现了问题。假设我们在输入数据帧中有两列：user-id和location。对于每个用户，我们需要获取所有集群(在location上)，只保留最大的一个，然后返回其属性，这是一个3维向量。让我们假设3元组的列是col-1、col-2和col-3。

浏览 11提问于2019-05-14得票数 0

回答已采纳

1回答

语法错误，意外“：”

、

由于某些原因，我不能在一行条件中使用呈现。例如，这样做是可行的： @key = Key.find_by_patient_id(5).nil? ? @key : @key 但这并不意味着： @key = Key.find_by_patient_id(5).nil? ? render :index : render :index 错误消息：语法错误，意外tSYMBEG，期望keyword_do或'{‘或(’...y_patient_id(5).nil？呈现:索引:呈现:索引

浏览 3提问于2011-05-14得票数 1

回答已采纳

3回答

重塑火花RDD

、

我有一个火花RDD如下： rdd = sc.parallelize([('X01','Y01'), ('X01','Y02'), ('X01','Y03'), ('X02','Y01'), ('X02','Y06')]) 我想把它们转换成以下格式： [('X01',(&#

浏览 6提问于2017-02-07得票数 0

回答已采纳

1回答

将DataFrame中的元组聚合在一起

、、

我目前正在尝试对服务列进行一些聚合。我想将所有相似的服务分组并求和，如果可能的话，将其展平到一行中。输入： +------------------+--------------------+ | cid | Services| +------------------+--------------------+ |845124826013182686| [112931, serv1]| |845124826013182686| [146936, serv1]| |845124826013182686| [32718, s

浏览 23提问于2018-06-15得票数 0

回答已采纳

3回答

在PySpark中提取特定行

、、、

我有这样的数据 data = [(("ID1", "A", 1)), (("ID1", "B", 5)), (("ID2", "A", 12)), (("ID3", "A", 3)), (("ID3", "B", 3)), (("ID3", "C", 5)), (("ID4", "A", 10))] df = spark.createDataFrame(da

浏览 0提问于2019-04-09得票数 1

回答已采纳

1回答

分组依据列表中的元素

、、

浏览 4提问于2019-10-09得票数 0

1回答

为什么过滤不能像在.rdl文件中期望的那样工作？

、、

在我的.rdl文件中定义的数据集返回带有某些特殊列的行。我需要基于这个数据集显示两个表。在第一个表中，我需要显示在该特殊列中具有空值的行。在下面的第二个表中，我希望显示在该特殊列中没有空值的行。为了实现这一点，我对每个表使用组属性的filter部分。下面是table1的过滤器： IsNothing(Fields!Parent_F_registr_Pts.Value) = true 下面是table2的过滤器： IsNothing(Fields!Parent_F_registr_Pts.Value) = false 当我启动报告时，我会在table1中看到行，而在table2中看不到行。为什么

浏览 3提问于2021-04-08得票数 0

回答已采纳