我的任务是获得一组客户的总入站线索,按月为同一组客户的线索和这些线索的转换率。
我从其中提取的数据集是2000万条记录,所以我不能查询整个数据集。我已经成功地完成了第一步(使用以下命令获取每个组织的销售线索总数:
inbound_leads <- domo_get_query('6d969e8b-fe3e-46ca-9ba2-21106452eee2',
auto_limit = TRUE,
query = "select org_id,
COUNT(*)
from table
GROUP BY org_id
ORDER BY org_id"
DOMO是我从中提取的bi工具,domo_get_query是来自我公司构建的定制库的内部函数。它接受一个查询参数,这是一个mysql查询)和其他各种现在不重要的参数。
示例数据如下所示:
org_id, inserted_at, lead_converted_at
1 10/17/2021 2021-01-27T03:39:03
2 10/18/2021 2021-01-28T03:39:03
1 10/17/2021 2021-01-28T03:39:03
3 10/19/2021 2021-01-29T03:39:03
2 10/18/2021 2021-01-29T03:39:03
我看过许多聚合在线教程,但似乎没有一个了解如何从需要聚合才能首先访问的数据集中获取聚合前所需的数据(例如,每个组织每月的潜在客户数量,一旦聚合发生,这是不可能的,因为在上面的示例中,聚合将消除查看多个org_id 1实例的能力)。也许我只是不够了解这一点,不知道该问什么问题。任何方向都很感谢。
发布于 2021-11-22 23:30:32
如果您无法将数据放入内存,您有几个选择。您可以批量处理数据(即一次处理一年),以便将其放入内存。您可以使用像chunked这样的包来提供帮助。
但在这种情况下,我敢打赌,处理您的问题的最简单的方法是完全在您的SQL查询中解决它。要按月获取销售线索,您需要截断日期列并按org_id、month分组。
要获得这几个月销售线索的转换率,您可以添加一个列(除了计数列之外),如下所示:
sum(case when conversion_date is not null then 1 else 0) as convert_count
https://stackoverflow.com/questions/70073541
复制相似问题