首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >由于R中的数据集大小而需要聚合时,如何访问未聚合的结果

由于R中的数据集大小而需要聚合时,如何访问未聚合的结果
EN

Stack Overflow用户
提问于 2021-11-22 23:19:54
回答 1查看 22关注 0票数 1

我的任务是获得一组客户的总入站线索,按月为同一组客户的线索和这些线索的转换率。

我从其中提取的数据集是2000万条记录,所以我不能查询整个数据集。我已经成功地完成了第一步(使用以下命令获取每个组织的销售线索总数:

代码语言:javascript
运行
复制
inbound_leads <- domo_get_query('6d969e8b-fe3e-46ca-9ba2-21106452eee2',
                                auto_limit = TRUE,
                                query = "select org_id,
                                          COUNT(*)
                                        from table
                                            GROUP BY org_id
                                            ORDER BY org_id"

DOMO是我从中提取的bi工具,domo_get_query是来自我公司构建的定制库的内部函数。它接受一个查询参数,这是一个mysql查询)和其他各种现在不重要的参数。

示例数据如下所示:

代码语言:javascript
运行
复制
    org_id, inserted_at, lead_converted_at
    1       10/17/2021    2021-01-27T03:39:03
    2       10/18/2021    2021-01-28T03:39:03
    1       10/17/2021    2021-01-28T03:39:03
    3       10/19/2021    2021-01-29T03:39:03
    2       10/18/2021    2021-01-29T03:39:03

我看过许多聚合在线教程,但似乎没有一个了解如何从需要聚合才能首先访问的数据集中获取聚合前所需的数据(例如,每个组织每月的潜在客户数量,一旦聚合发生,这是不可能的,因为在上面的示例中,聚合将消除查看多个org_id 1实例的能力)。也许我只是不够了解这一点,不知道该问什么问题。任何方向都很感谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-11-22 23:30:32

如果您无法将数据放入内存,您有几个选择。您可以批量处理数据(即一次处理一年),以便将其放入内存。您可以使用像chunked这样的包来提供帮助。

但在这种情况下,我敢打赌,处理您的问题的最简单的方法是完全在您的SQL查询中解决它。要按月获取销售线索,您需要截断日期列并按org_id、month分组。

要获得这几个月销售线索的转换率,您可以添加一个列(除了计数列之外),如下所示:

代码语言:javascript
运行
复制
sum(case when conversion_date is not null then 1 else 0) as convert_count
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70073541

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档