由于R中的数据集大小而需要聚合时，如何访问未聚合的结果

r、aggregation

我的任务是获得一组客户的总入站线索，按月为同一组客户的线索和这些线索的转换率。我从其中提取的数据集是2000万条记录，所以我不能查询整个数据集。工具，domo_get_query是来自我公司构建的定制库的内部函数。示例数据如下所示： org_id, inserted_at, lead_converted_at 1 10/17/202

浏览 17提问于2021-11-22得票数 1

回答已采纳

1回答

在R中使用hclust进行加权观测频率聚类

r、cluster-analysis、hierarchical-clustering、hclust

我有一个包含500K观察值的大型矩阵，需要使用分层聚类进行聚类。由于大小，我没有计算距离矩阵的计算能力。为了克服这个问题，我选择聚合我的矩阵来合并那些相同的观察值，从而将我的矩阵减少到大约10K个观察值。我有这个聚合矩阵中每一行的频率。我现在需要将此频率作为权重合并到我的分层聚类中</

浏览 15提问于2017-07-25得票数 1

1回答

我需要帮助使用哪些特性来进行集群。

clustering、k-means、pca、dbscan

我正在使用这个数据集：https://www.kaggle.com/datasets/sobhanmoosavi/us-accidents 到目前为止，我已经成功地清理了数据集，并减少了功能和记录的大小我有一些数字的特点，我已经标准化，还有一些分类的特点，我还没有触及。现在我需要使用Kmeans/Dbscan等来执行聚类，并比较它们的<em

浏览 0提问于2022-06-18得票数 2

1回答

为什么这个AR sum查询返回的结果是预期结果的两倍？

ruby-on-rails、activerecord

我从AR查询中得到一个奇怪的结果。使用sum得到的结果是预期结果的两倍。(:quantity)如果只有一个子记录的quantity我该如何进行调试呢？该查询生成以下SQL SELECT DIS

浏览 0提问于2016-12-21得票数 2

1回答

如何构建No-sql db (Cassandra)体系结构中的频繁更新

nosql、big-data、cassandra

我将一些数据存储在Cassandra中，然后在分析后将其放入几个表中，我将其汇总为每日、每周、每月、每年的数据。但一段时间后，如果某个用户读取内容，我将根据用户活动将其更改为读和未读状态。但根据我目前的设计，我需要在每个时间更新所有表(超过5个表，并且可能会增加)，或者需要创建一个未读但想要加入表的表，这并不是nosql概念所推荐的。有什么好的架构吗？我查看了l

浏览 0提问于2016-01-04得票数 2

1回答

SQL:如何将WHERE子句筛选器应用于SELECT语句中的特定聚合函数？

sql、aggregate-functions、where-clause

对于不完整的数据集，我需要执行聚合函数，同时避免所有来自同一个表的特定聚合函数为空。因此，例如，我尝试将其放入子查询中： WITH spend AS ( (SUM(current_spend)-SUM(baseline_spend))/SUM(baseline_spend我不能使用常规查询，因为应用WHERE baseline_spend IS NOT NULL或baseline_sales IS NOT NULL会

浏览 20提问于2020-06-16得票数 0

1回答

使用Excel BigQuery连接器时结果有限

excel、google-bigquery

我使用Excel连接器从BigQuery提取数据，但我的结果被限制为230,000条记录。这是连接器的限制还是我没有做好的事情？

浏览 0提问于2012-09-08得票数 0

回答已采纳

5回答

在R中使用Kmeans保持一致的聚类顺序

r、k-means

我对它进行查询以聚合每个城市的数据，并将结果输出到一个表中。这很好用。下一步是我在数据集上运行R中的kmeans()函数来查找聚类，在测试中，我发现通过“肘部方法”，5个聚类几乎总是一个很好的选择。我遇到的问题是这些集群有不同的含义/解释，所以我想用集群对该行的解释来标记原始

浏览 0提问于2016-10-07得票数 6

1回答

筛选器中的聚合是否仅返回所有已过滤文档中的值？

elasticsearch、e-commerce、filtering、faceted-search

对于电子商务过滤系统，ElasticSearch中的聚合必须在整个过滤集上进行计算。:{ }, "count":3 }没有蓝色的尺寸这就是我们要发送给ES的内容： "size":1000, "fields":[

浏览 1提问于2015-05-07得票数 0

回答已采纳

3回答

加速R中的lmer函数

r、performance、lme4、mixed-models

在使用R包改善线性混合效应模型的模型拟合时间时，我想分享我的一些想法。模型拟合成功，但提供结果花费了大约3,

浏览 14提问于2015-08-24得票数 19

回答已采纳

2回答

如何在集群上应用集群？

r、cluster-computing、cluster-analysis、igraph

我使用R library(igraph)对我的数据集进行聚类。我有几个连接的组件，但第一个非常大，这是巨大的组件。我想在这个巨大的组件上重新应用集群，以便重新构建集群。这样做有意义吗？

浏览 4提问于2019-06-06得票数 0

1回答

流分析聚合窗口

azure-eventhub、azure-stream-analytics

我需要在扩展窗口上执行聚合时如何忽略旧事件的帮助\建议。我有正在流入Event Hub的销售数据。事件集线器用作输入流。我需要生成两个指标- 30秒聚合(翻滚)-全天聚合销售价值，即来自Gate open Gate打开时间是可变的(动态)，因此我从blob读取参考数据集；并将Gateopen datetime连接到sales翻滚窗口上的30秒聚合

浏览 4提问于2018-12-13得票数 0

3回答

谱聚类与层次聚类

cluster-analysis、data-mining、hierarchical-clustering、spectral

有谁能解释一下，与光谱聚类相比，使用层次聚类有什么好处？我知道它们是如何工作的，但我想知道在哪种情况下使用分层聚类比使用光谱聚类更好。

浏览 6提问于2016-04-15得票数 3

回答已采纳

1回答

大数据集的python中的共识聚类

python、cluster-analysis、consensus

我在python 中找到了一个非常好的共识聚类实现。然而，对于具有大样本大小的大数据集，该算法将不起作用，因为它使用维度样本、样本来构建矩阵。对于大型数据集上的共识聚类，有没有高效的python实现？

浏览 12提问于2021-03-07得票数 0

2回答

使用spark组处理性能和内存问题

apache-spark、apache-spark-sql

考虑以下运行具有相对大量聚合和相对较多组的GROUP BY的示例：import org.apache.spark.SparkContexteveryting is executed此作业的输入仅为其结果是:除了

浏览 0提问于2015-05-19得票数 11

回答已采纳

2回答

基于数字和分类混合数据的无监督异常检测

cluster-analysis、data-mining、data-analysis

整个夏天我都在做一个数据分析项目。其主要目的是利用医院有关用户访问病人信息的一些访问日志数据，并尝试检测异常访问行为。我相信这个项目属于无监督学习领域，所以我在研究聚类。由于数据是混合的(数字和分类)，我不知道集群如何与这种类型的数据一起工作。我读过，可以扩展分类数据，让变量中的每个类别都为0或1来进行<em

浏览 2提问于2015-07-09得票数 5

1回答

芭乐缓存，如何在删除时阻止访问

java、caching、synchronization、guava

我有一个线程A，在Guava Cache中插入一个新元素，由于大小策略，缓存将逐出与键Y相关的元素。不幸的是，Y的移除过程R需要很长时间，并且在R(已经被驱逐但仍在R中)处理Y的过程中，有另一个线程B试图获取与键Y相关的数据。基本上，R将尝试为键Y更新数据库，而当该值

浏览 1提问于2014-09-22得票数 1

1回答

Apache光束:从具有固定窗口的UnboundedSource读取

stream、apache-beam

然后，我将某个PTransform应用于我从该来源获得的集合。我还应用了Window.into(FixedWindows.of(...))转换，然后使用Combine将结果按窗口分组。SomeTransform，然后轮询一组新数据并因此生成。相反，首先生成所有N个事件，然后才将SomeTransform应用于数据(但窗口按预期工作)。它应该是这样工作的吗？Beam和/或runner (我使用的是Flink runner，但Direct runner似乎表现出相同的</e

浏览 0提问于2021-01-14得票数 0

1回答

设计“表对行”关系的正确方法是什么？

database、postgresql、database-design、relational-database、slick

我尝试在postgres数据库中对以下内容进行建模。我有N个“数据集”。这些数据集是调查结果、国家统计数据、聚合数据等。它们每个都有名称、来源、机构、方法等。这是数据集的元数据，我为此创建了表，并将研究方法编码表等。“根”元数据表被称为“数据集”。每行代表一个数据集

浏览 1提问于2015-05-03得票数 0

2回答

电影类型的聚类

machine-learning、cluster-analysis、k-means、movie、hierarchical-clustering

我是数据挖掘领域的初学者，我想将我的电影数据集聚类以找到流派组。我的数据集中有86部电影的26种不同类型。我想使用聚类来将我的电影分成几种类型，而不是26种。因此，例如，在运行某些聚类算法后，我将只剩下4个聚类或任何最适合我的数据集的小计数。我已经将我的数据集</em

浏览 2提问于2013-01-10得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在R中使用hclust进行加权观测频率聚类

我需要帮助使用哪些特性来进行集群。

为什么这个AR sum查询返回的结果是预期结果的两倍？

如何构建No-sql db (Cassandra)体系结构中的频繁更新

SQL:如何将WHERE子句筛选器应用于SELECT语句中的特定聚合函数？

使用Excel BigQuery连接器时结果有限

在R中使用Kmeans保持一致的聚类顺序

筛选器中的聚合是否仅返回所有已过滤文档中的值？

加速R中的lmer函数

如何在集群上应用集群？

流分析聚合窗口

谱聚类与层次聚类

大数据集的python中的共识聚类

使用spark组处理性能和内存问题

基于数字和分类混合数据的无监督异常检测

芭乐缓存，如何在删除时阻止访问

Apache光束:从具有固定窗口的UnboundedSource读取

设计“表对行”关系的正确方法是什么？

电影类型的聚类

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐