在两个列的列表上执行复杂的聚合？_在2列上聚合，同时保留两个唯一的R_Impala:在执行group by的聚合函数之前更改列类型 - 腾讯云开发者社区

、

我是编程新手，正在清理和简化我的代码，以便在pyspark数据帧上执行groupby和聚合。我正在努力让事情变得更容易遵循，并一直在重构我的一些代码。当我尝试以下代码时，我得到一个错误： TypeError: Invalid argument, not a string or column: 下面是我的代码： groupBy = ['ColA'](F.col(c)) for f in funs_set for c in convert_to_set

浏览 21提问于2019-06-27得票数 0

回答已采纳

1回答

存储倒置索引

、

我正在使用Spark创建一个倒置索引(或者更多的是一个“发布列表”，所以发布的顺序很重要)，看起来有点像这样| "c" | 1, 2, 3, 10, 12, 17, 21, 38, 39, 40, 47 |我想知道最好的选择是在星火中创建这样的

浏览 2提问于2016-06-07得票数 0

回答已采纳

1回答

不需要另一个查询，可以实现嵌套聚合函数的效果？

、、、

我在表table1中有列a、b和c。我需要一个如下所示的查询： select func1(a), func2(b,func1(a)) from table1 group by c.我目前正在使用窗口函数将func1(a)的结果存储在CTE中，然后执行上面的group by。执行计划显示发生了两个聚合-一个用于窗口聚合，另一个用于第二个group by的散列聚合。从

浏览 4提问于2014-05-10得票数 1

1回答

R-取消透视data.table行中的列表

、、、

我有一个包含多个列的数据集，其中一个列包含列表条目： x = c(1:5), z = list(list("a","b","a"), list("a","c"), list("b","c"), list("a","b","c"), list(&

浏览 5提问于2016-09-07得票数 1

1回答

通过select查询将一列拆分为两列

、

| 103 | kiran | R | 我想要一个postgresql选择查询，该查询产生以下输出(基于id的联接和基于类型的拆分

浏览 1提问于2015-06-08得票数 1

1回答

Server索引视图分区

、

是否可以在索引视图的SELECT语句中执行除法？当我添加一个列的结果(它是一个列的值除以另一个列的值)时，我开始得到以下错误：无法在视图'MyDB.dbo.getUsageForUsers‘上创建聚集索引’MyDB.dbo.getUsageForUsers‘，因为视图的选择列表包含聚合函数或分组列结果的</e

浏览 0提问于2018-03-02得票数 1

回答已采纳

2回答

在Azure数据仓库中创建物化视图SQL错误

、、、、

我得到了错误：CREATE MATERIALIZED VIEW wwi.SalesByTerritory WITH (distribution

浏览 9提问于2020-03-30得票数 0

1回答

为什么PySpark中的agg()一次只能汇总一列？

、、、、

对于下面的数据帧当我试图找到最小和最大值时，我只能在输出中得到最小值。+-----------++-----------++-----------+

浏览 1提问于2017-06-06得票数 11

回答已采纳

0回答

针对我的特定用例，在Hive (on Tez)和Spark之间进行性能基准测试

、、、

我正在处理集群上的一些数据，并想做一些聚合-没有太复杂的东西，但比sum更复杂，有很少的连接和计数差异。我已经用Scala在Hive和Spark中实现了这种聚合，并想比较一下执行时间。当我从网关提交脚本时，linux时间函数提供的实时时间比我预期的sys时间要短。但我不确定该选哪一个作为恰当的比较。也许只需使用sys.time并多次运行这两个查询

浏览 8提问于2016-12-31得票数 0

回答已采纳

1回答

Mdx -旗帜-Actual

、

我有二维DimFlag和DimPNL，还有一个事实表FactAmount。我希望：对于pnl，我把数量乘以FlagId字段，如果它是0 0 X = 0 .FlagId FlagLabel1 NotClosedDimPNL1 a 13 test2 0 Fa

浏览 0提问于2014-07-05得票数 0

回答已采纳

2回答

域驱动设计中的聚合根复杂性

、

在聚合的复杂性中，人们应该在哪里划清界限？为了澄清，如果我的聚合有一个ObjectA列表，它有一个ObjectB列表，它有一个ObjectC列表，那么我的聚合应该负责检索ObjectC吗？或者我应该考虑创建另一个聚合，以将这种复杂性降低到层次结构中的几个级别？

浏览 0提问于2011-05-31得票数 4

回答已采纳

1回答

ids查询中id的最大计数是多少？

我打算将复杂查询的搜索结果存储为ids列表，以便在一段时间之前执行聚合。我可以在ids查询中发送的I的最大数量是多少？

浏览 0提问于2019-02-09得票数 1

1回答

Apache Spark多个聚合

、、

例如，我在Scala中使用Apache spark对数据帧中的多个列运行聚合selectcolumn2, sum(1) as count from df group by column2 实际的聚合比sum(1)复杂得多，但它超出了要点。上面的例子这样的查询字符串是为我想要聚合的每个变量编译的<

浏览 1提问于2015-10-30得票数 0

1回答

DDD :嵌套聚合和许多到多个关系

、、

基于以上所述，我在Listing和Product之间有着多到多的关系。我为两者都创建了一个集合。包含列表的产品聚合和包含产品的列表聚合。在两个聚合中定义列表是可以接受的，还是应该在这两个聚合中定义清单一次？首先，列表将在产品聚合中，因为产品AR有一个工厂方法，在创建上市时强

浏览 1提问于2013-07-29得票数 4

回答已采纳

3回答

避免多次流查询

、

我有一个结构化的流查询，它深入到Kafka。此查询具有复杂的聚合逻辑。是否有一种方法可以将结构化流查询的结果输出到多个Kafka主题，每个主题都有不同的

浏览 1提问于2018-02-13得票数 5

回答已采纳

2回答

如何使用Palantir Foundry中的函数对多个属性进行分组？

、

我想使用一个函数跨几个属性进行聚合。例如，我有一个输入开始日期和结束日期的函数，还有一个带有“日期”、"shift_type“、”部门“和”工时“属性的调度对象类型。我希望我的输出是每个日期/班次类型/部门组合的工时之和。

浏览 8提问于2022-06-02得票数 2

2回答

在使用左联接时选择distinct id，然后在两个表上按顺序排序

、、、

我有两个表，我将根据两个表上复杂的order子句获得与第一个不同的id。我很困惑如何通过使用区分的或groub，因为这两种方法都阻止在其他列上使用order by。我的代码使用了distinct：left join expiration on shops.id=expiration.shopidshops.grade desc, expiration.startdate

浏览 2提问于2017-12-04得票数 1

回答已采纳

1回答

如何在pandas DataFrame中选择带有MultiIndex的列(用于海上散点图)？

、、、、

我有一个具有嵌套列的聚合DataFrame。如何检索作为散点图的x和y的聚合列sum和count？有什么简单的方法可以直接检索这两个嵌套的列吗？谢谢。

浏览 0提问于2020-04-17得票数 0

2回答

我怎样才能让我的客户相信任务是复杂的，我花的时间也是公平的呢？

、、、、

我是唯一的程序员，在一个网站上处理前端和后端。最近，在我的任务列表中，我必须提供一个社交新闻提要(朋友之间的活动)，它应该总结来自不同模块(至少7个模块)的活动。我至少花了20-25天的时间来开发它。记住，在新闻提要中，每个动作都可以在新闻提要上执行+必须有某种聚合，应该聚合类似的活动，例如用户A、B和C喜欢您的项目。我怎样才

浏览 0提问于2014-02-01得票数 0

1回答

CQRS/ES更新聚合命令

、、

目前，我正在替换应用程序的域层，但必须保留现有的MVVM。我们当然想要一个事件存储，但是我正在努力解决我们当前CQRS实现的一些方面。我们有一些包含多个实体集合和键/值对动态属性的复杂聚合。可能的解决方案: 1)只需在ViewModel中获取聚合，对域模型执行更新，并将其随命令(var command = new SaveAggregateCommand(myAggregate);)一起发布这是错误的，因

浏览 3提问于2014-07-06得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云