文章/答案/技术大牛

发布

社区首页 >问答首页 >由于R中的数据集大小而需要聚合时，如何访问未聚合的结果

问由于R中的数据集大小而需要聚合时，如何访问未聚合的结果
EN

Stack Overflow用户

提问于 2021-11-22 23:19:54

回答 1查看 22关注 0票数 1

我的任务是获得一组客户的总入站线索，按月为同一组客户的线索和这些线索的转换率。

我从其中提取的数据集是2000万条记录，所以我不能查询整个数据集。我已经成功地完成了第一步(使用以下命令获取每个组织的销售线索总数：

inbound_leads <- domo_get_query('6d969e8b-fe3e-46ca-9ba2-21106452eee2',
                                auto_limit = TRUE,
                                query = "select org_id,
                                          COUNT(*)
                                        from table
                                            GROUP BY org_id
                                            ORDER BY org_id"

DOMO是我从中提取的bi工具，domo_get_query是来自我公司构建的定制库的内部函数。它接受一个查询参数，这是一个mysql查询)和其他各种现在不重要的参数。

示例数据如下所示：

    org_id, inserted_at, lead_converted_at
    1       10/17/2021    2021-01-27T03:39:03
    2       10/18/2021    2021-01-28T03:39:03
    1       10/17/2021    2021-01-28T03:39:03
    3       10/19/2021    2021-01-29T03:39:03
    2       10/18/2021    2021-01-29T03:39:03

我看过许多聚合在线教程，但似乎没有一个了解如何从需要聚合才能首先访问的数据集中获取聚合前所需的数据(例如，每个组织每月的潜在客户数量，一旦聚合发生，这是不可能的，因为在上面的示例中，聚合将消除查看多个org_id 1实例的能力)。也许我只是不够了解这一点，不知道该问什么问题。任何方向都很感谢。

aggregation

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-11-22 23:30:32

如果您无法将数据放入内存，您有几个选择。您可以批量处理数据(即一次处理一年)，以便将其放入内存。您可以使用像chunked这样的包来提供帮助。

但在这种情况下，我敢打赌，处理您的问题的最简单的方法是完全在您的SQL查询中解决它。要按月获取销售线索，您需要截断日期列并按org_id、month分组。

要获得这几个月销售线索的转换率，您可以添加一个列(除了计数列之外)，如下所示：

sum(case when conversion_date is not null then 1 else 0) as convert_count

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70073541

复制

相似问题

问由于R中的数据集大小而需要聚合时，如何访问未聚合的结果
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问由于R中的数据集大小而需要聚合时，如何访问未聚合的结果EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问由于R中的数据集大小而需要聚合时，如何访问未聚合的结果
EN