腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
由于
R
中
的
数据
集
大小
而
需要
聚合时
,
如何
访问
未
聚合
的
结果
r
、
aggregation
我
的
任务是获得一组客户
的
总入站线索,按月为同一组客户
的
线索和这些线索
的
转换率。 我从其中提取
的
数据
集
是2000万条记录,所以我不能查询整个
数据
集
。工具,domo_get_query是来自我公司构建
的
定制库
的
内部函数。示例
数据
如下所示: org_id, inserted_at, lead_converted_at 1 10/17/202
浏览 17
提问于2021-11-22
得票数 1
回答已采纳
1
回答
在
R
中使用hclust进行加权观测频率
聚
类
r
、
cluster-analysis
、
hierarchical-clustering
、
hclust
我有一个包含500K观察值
的
大型矩阵,
需要
使用分层
聚
类进行
聚
类。
由于
大小
,我没有计算距离矩阵
的
计算能力。为了克服这个问题,我选择
聚合
我
的
矩阵来合并那些相同
的
观察值,从而将我
的
矩阵减少到大约10K个观察值。我有这个
聚合
矩阵
中
每一行
的
频率。我现在
需要
将此频率作为权重合并到我
的
分层
聚
类
中</
浏览 15
提问于2017-07-25
得票数 1
1
回答
我
需要
帮助使用哪些特性来进行集群。
clustering
、
k-means
、
pca
、
dbscan
我正在使用这个
数据
集
:https://www.kaggle.com/datasets/sobhanmoosavi/us-accidents 到目前为止,我已经成功地清理了
数据
集
,并减少了功能和记录
的
大小
我有一些数字
的
特点,我已经标准化,还有一些分类
的
特点,我还没有触及。现在我
需要
使用Kmeans/Dbscan等来执行
聚
类,并比较它们
的
<em
浏览 0
提问于2022-06-18
得票数 2
1
回答
为什么这个AR sum查询返回
的
结果
是预期
结果
的
两倍?
ruby-on-rails
、
activerecord
我从AR查询
中
得到一个奇怪
的
结果
。使用sum得到
的
结果
是预期
结果
的
两倍。(:quantity)如果只有一个子记录
的
quantity我该
如何
进行调试呢?该查询生成以下SQL SELECT DIS
浏览 0
提问于2016-12-21
得票数 2
1
回答
如何
构建No-sql db (Cassandra)体系结构
中
的
频繁更新
nosql
、
big-data
、
cassandra
我将一些
数据
存储在Cassandra
中
,然后在分析后将其放入几个表
中
,我将其汇总为每日、每周、每月、每年
的
数据
。但一段时间后,如果某个用户读取内容,我将根据用户活动将其更改为读和
未
读状态。但根据我目前
的
设计,我
需要
在每个时间更新所有表(超过5个表,并且可能会增加),或者
需要
创建一个
未
读但想要加入表
的
表,这并不是nosql概念所推荐
的
。 有什么好
的
架构吗?我查看了l
浏览 0
提问于2016-01-04
得票数 2
1
回答
SQL:
如何
将WHERE子句筛选器应用于SELECT语句中
的
特定
聚合
函数?
sql
、
aggregate-functions
、
where-clause
对于不完整
的
数据
集
,我
需要
执行
聚合
函数,同时避免所有来自同一个表
的
特定
聚合
函数为空。因此,例如,我尝试将其放入子查询
中
: WITH spend AS ( (SUM(current_spend)-SUM(baseline_spend))/SUM(baseline_spend我不能使用常规查询,因为应用WHERE baseline_spend IS NOT NULL或baseline_sales IS NOT NULL会
浏览 20
提问于2020-06-16
得票数 0
1
回答
使用Excel BigQuery连接器时
结果
有限
excel
、
google-bigquery
我使用Excel连接器从BigQuery提取
数据
,但我
的
结果
被限制为230,000条记录。 这是连接器
的
限制还是我没有做好
的
事情?
浏览 0
提问于2012-09-08
得票数 0
回答已采纳
5
回答
在
R
中使用Kmeans保持一致
的
聚
类顺序
r
、
k-means
我对它进行查询以
聚合
每个城市
的
数据
,并将
结果
输出到一个表
中
。这很好用。下一步是我在
数据
集
上运行
R
中
的
kmeans()函数来查找
聚
类,在测试
中
,我发现通过“肘部方法”,5个
聚
类几乎总是一个很好
的
选择。我遇到
的
问题是这些集群有不同
的
含义/解释,所以我想用集群对该行
的
解释来标记原始
浏览 0
提问于2016-10-07
得票数 6
1
回答
筛选器
中
的
聚合
是否仅返回所有已过滤文档
中
的
值?
elasticsearch
、
e-commerce
、
filtering
、
faceted-search
对于电子商务过滤系统,ElasticSearch
中
的
聚合
必须在整个过滤
集
上进行计算。:{ }, "count":3 }没有蓝色
的
尺寸这就是我们要发送给ES
的
内容: "size":1000, "fields":[
浏览 1
提问于2015-05-07
得票数 0
回答已采纳
3
回答
加速
R
中
的
lmer函数
r
、
performance
、
lme4
、
mixed-models
在使用
R
包改善线性混合效应模型
的
模型拟
合时
间时,我想分享我
的
一些想法。模型拟合成功,但提供
结果
花费了大约3,
浏览 14
提问于2015-08-24
得票数 19
回答已采纳
2
回答
如何
在集群上应用集群?
r
、
cluster-computing
、
cluster-analysis
、
igraph
我使用
R
library(igraph)对我
的
数据
集
进行
聚
类。我有几个连接
的
组件,但第一个非常大,这是巨大
的
组件。我想在这个巨大
的
组件上重新应用集群,以便重新构建集群。这样做有意义吗?
浏览 4
提问于2019-06-06
得票数 0
1
回答
流分析
聚合
窗口
azure-eventhub
、
azure-stream-analytics
我
需要
在扩展窗口上执行
聚合时
如何
忽略旧事件
的
帮助\建议。我有正在流入Event Hub
的
销售
数据
。事件集线器用作输入流。我
需要
生成两个指标- 30秒
聚合
(翻滚)-全天
聚合
销售价值,即来自Gate open Gate打开时间是可变
的
(动态),因此我从blob读取参考
数据
集
;并将Gateopen datetime连接到sales翻滚窗口上
的
30秒
聚合
浏览 4
提问于2018-12-13
得票数 0
3
回答
谱
聚
类与层次
聚
类
cluster-analysis
、
data-mining
、
hierarchical-clustering
、
spectral
有谁能解释一下,与光谱
聚
类相比,使用层次
聚
类有什么好处?我知道它们是
如何
工作
的
,但我想知道在哪种情况下使用分层
聚
类比使用光谱
聚
类更好。
浏览 6
提问于2016-04-15
得票数 3
回答已采纳
1
回答
大
数据
集
的
python
中
的
共识
聚
类
python
、
cluster-analysis
、
consensus
我在python 中找到了一个非常好
的
共识
聚
类实现。 然而,对于具有大样本
大小
的
大
数据
集
,该算法将不起作用,因为它使用维度样本、样本来构建矩阵。对于大型
数据
集
上
的
共识
聚
类,有没有高效
的
python实现?
浏览 12
提问于2021-03-07
得票数 0
2
回答
使用spark组处理性能和内存问题
apache-spark
、
apache-spark-sql
考虑以下运行具有相对大量
聚合
和相对较多组
的
GROUP BY
的
示例:import org.apache.spark.SparkContexteveryting is executed此作业
的
输入仅为其
结果
是:除了
浏览 0
提问于2015-05-19
得票数 11
回答已采纳
2
回答
基于数字和分类混合
数据
的
无监督异常检测
cluster-analysis
、
data-mining
、
data-analysis
整个夏天我都在做一个
数据
分析项目。其主要目的是利用医院有关用户
访问
病人信息
的
一些
访问
日志
数据
,并尝试检测异常
访问
行为。我相信这个项目属于无监督学习领域,所以我在研究
聚
类。
由于
数据
是混合
的
(数字和分类),我不知道集群
如何
与这种类型
的
数据
一起工作。我读过,可以扩展分类
数据
,让变量
中
的
每个类别都为0或1来进行<em
浏览 2
提问于2015-07-09
得票数 5
1
回答
芭乐缓存,
如何
在删除时阻止
访问
java
、
caching
、
synchronization
、
guava
我有一个线程A,在Guava Cache
中
插入一个新元素,
由于
大小
策略,缓存将逐出与键Y相关
的
元素。不幸
的
是,Y
的
移除过程
R
需要
很长时间,并且在
R
(已经被驱逐但仍在
R
中
)处理Y
的
过程
中
,有另一个线程B试图获取与键Y相关
的
数据
。基本上,
R
将尝试为键Y更新
数据
库,
而
当该值
浏览 1
提问于2014-09-22
得票数 1
1
回答
Apache光束:从具有固定窗口
的
UnboundedSource读取
stream
、
apache-beam
然后,我将某个PTransform应用于我从该来源获得
的
集合。我还应用了Window.into(FixedWindows.of(...))转换,然后使用Combine将
结果
按窗口分组。SomeTransform,然后轮询一组新
数据
并因此生成。相反,首先生成所有N个事件,然后才将SomeTransform应用于
数据
(但窗口按预期工作)。它应该是这样工作
的
吗?Beam和/或runner (我使用
的
是Flink runner,但Direct runner似乎表现出相同
的</e
浏览 0
提问于2021-01-14
得票数 0
1
回答
设计“表对行”关系
的
正确方法是什么?
database
、
postgresql
、
database-design
、
relational-database
、
slick
我尝试在postgres
数据
库
中
对以下内容进行建模。 我有N个“
数据
集
”。这些
数据
集
是调查
结果
、国家统计
数据
、
聚合
数据
等。它们每个都有名称、来源、机构、方法等。这是
数据
集
的
元
数据
,我为此创建了表,并将研究方法编码表等。“根”元
数据
表被称为“
数据
集
”。每行代表一个
数据
集
浏览 1
提问于2015-05-03
得票数 0
2
回答
电影类型
的
聚
类
machine-learning
、
cluster-analysis
、
k-means
、
movie
、
hierarchical-clustering
我是
数据
挖掘领域
的
初学者,我想将我
的
电影
数据
集聚类以找到流派组。我
的
数据
集中有86部电影
的
26种不同类型。我想使用
聚
类来将我
的
电影分成几种类型,
而
不是26种。因此,例如,在运行某些
聚
类算法后,我将只剩下4个
聚
类或任何最适合我
的
数据
集
的
小计数。我已经将我
的
数据
集</em
浏览 2
提问于2013-01-10
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
深度剖析:数据科学家需要了解的5种聚类算法
5种算法玩转聚类分析
数据科学家们必须知道的5种聚类算法
数据挖掘案例——ReliefF和K-means算法的医学应用
数据之美:一文打尽六大聚类算法!
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券