腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9463)
视频
沙龙
1
回答
是否
有
更快
的
方法来
计算
数据
集中
每个
观测
值
的
关键字
匹
配数
r
、
string-matching
我
的
数据
集包含变量:一个整数代码(INS)和一个文本描述(Beskr)。 我执行了一个网络抓取,我为88个不同
的
代码中
的
每一个提取了不同
的
关键字
。我想用这些
关键字
计算
文本描述中
的
匹配项数量,并将计数存储在
每个
代码
的
新变量中。 由于只使用了几个观察
值
,它使用嵌套
的
for循环运行得很快,但是当我增加
数据
的
大小时,它需要很长
的
浏览 10
提问于2019-06-13
得票数 0
回答已采纳
1
回答
R中求大
数据
集地距
的
最快方法
r
、
performance
、
gis
、
distance
我
有
两个包含经度和纬度
的
数据
集。大
数据
集
的
观测
量约为20M,小
数据
集
的
观测
值
为36K。我试图从小
数据
集中
找出在大
数据
集中
每个
点200米范围内
的
观测
数。所以这个过程是 从大
数据
集( datasetCalculate )取一个地理代码,到小
数据
集中</e
浏览 9
提问于2022-06-25
得票数 1
1
回答
Python组
python
我是Python新手,正在尝试一个简单
的
计算
。我
有
一个不同年份1000个
观测
值
的
数据
框架,并希望按年
计算
变量
的
平均值。我使用过"groupby“语句,但结果意味着每年只发生一次。如何对原始
数据
集中
的
所有1000个
观测
数据
具有重复平均值?
是否
有
一种不将分组结果合并到原始
数据
框架
浏览 0
提问于2019-08-11
得票数 1
回答已采纳
1
回答
SAS - Kolmogorov-Smirnov双面临界
值
statistics
、
sas
、
kolmogorov-smirnov
我正在试图
计算
双侧Kolmogorov测试
的
临界
值
(PROC NPAR1WAY不输出这些!)。这是按c(a) * sqrt( (n+m)/(nm) )
计算
的
,其中n和m是
每个
数据
集中
的
观测
数,c(a) = 1.36对于置信水平a=0.0 5。无论是,( B)自己
计算</e
浏览 0
提问于2016-10-10
得票数 0
回答已采纳
1
回答
是否
有意义使用调查::svydesign和tbl_svysummary后,完全匹配,以说明匹配
的
权重?
r
、
matching
、
gtsummary
我对R中
的
MatchIt包进行了完全匹配,这给了匹
配数据
集中
每个
观测
值
的
权重。然后,我想为治疗组和对照组提供一份结果简表。我不能使用Sjoberg
的
gt汇总包中
的
普通tbl_summary,因为它没有考虑到匹配
的
权重。所以,我想我可以使用tbl_svysummary (调查包),因为它允许我
计算
匹配
的
权重。因此,我
的
代码如下所示: 提取<匹配
的</e
浏览 22
提问于2022-03-11
得票数 0
2
回答
我如何衡量一个人口
的
分布
是否
与其他人口相同?
classification
、
dataset
、
similarity
是否
有
某种种群相似性指数可以帮助我判断两个不同
数据
集中
的
两个种群是相同
的
,还是至少是相似的?我想要一种评估相似变量
的
方法,但是一个整体
的
度量也是有效
的
。我问题
的
背景是,考虑到人口之间
的
相似性,我想知道变量
是否
适合于在分类方法中使用。
浏览 0
提问于2019-05-22
得票数 1
回答已采纳
1
回答
DynamoDB地理分布?(如CloudFront)
amazon-web-services
、
amazon-s3
、
amazon-cloudfront
、
amazon-dynamodb
亚马逊DynamoDB是一个NoSQL
数据
库,我用它来存储与S3
匹
配
的
关键字
。对于S3,我使用CloudFront为世界各地
的
每个
人快速下载和上传
数据
,因为CloudFront可以在多个地理位置(
有
服务器
的
地方)复制
数据
。DynamoDB
是否
也有这种分发功能,可以让下载和上传项目
更快
(尽管它已经很快了!)对世界各地
的
每个
人来说? 谢谢!
浏览 1
提问于2012-12-18
得票数 0
回答已采纳
1
回答
如何传递Ti球到插入符号::confusionmatrix()?
r
、
dplyr
、
r-caret
、
confusion-matrix
、
yardstick
考虑一下这个简单
的
例子: prediction = c(1,0,1,0),3 0 1 90我想把这个tibble传递给caret::confusionMatrix,这样我就有了我需要
的
所有指标如您所见,tibble包含
计算
性能统计信息所需
的
所有信息。例如,您可以看到,在测试
数据
集中<
浏览 0
提问于2018-06-06
得票数 0
回答已采纳
1
回答
用未配对
观测
值
计算
数据
集间
的
统计等级
dataset
、
statistics
、
ranking
问题如下:dataset1 = [0.6487500071525574, 0.6499999761581421, 0.6412500143051147, 0.6662499904632568, 0.62250000238418580.6287500262260437, 0.62000
浏览 0
提问于2021-12-22
得票数 0
回答已采纳
2
回答
计算
丢失
数据
所表示
的
范围-R
r
我
有
一个
数据
集,其
值
代表列中
的
位置(这是SNPs/基因组学工作)。我也想
计算
连续
观测
的
范围,但是一旦我发现了第一个问题,那就比较容易了。例如1450-1466 = 161450NA165
浏览 4
提问于2017-10-11
得票数 1
回答已采纳
1
回答
探索性
数据
分析
machine-learning
、
data-mining
、
predictive-modeling
、
data-science-model
、
data-analysis
我正在研究此
数据
集。Dataset缺少
值
。什么是最好
的
方法来
计算
缺失
的
值
。此外,目标特性中也缺少一些
值
。到目前为止,我已经从
数据
集中
删除了这些
观测
结果。
有
多个相同ID
的
实例,其中一些变量不会改变,即年龄、体重、身高等,但是缺少一些
值
。我试图用相同ID
的
其他给定
值
来
计算
缺少
的
<
浏览 0
提问于2018-10-08
得票数 0
1
回答
如何从具有多个匹配
值
的
联接表中进行选择?
mysql
当
有
一个
关键字
要匹配时,我
有
以下简单
的
查询工作得很好:FROM gift_card AS gcGROUP BY gc.id 我想要做
的
是找到id's,它至少匹配我提供
的
两个
关键字
。我以为只添加一个简单
的
AND就可以了,但
浏览 0
提问于2018-04-26
得票数 0
回答已采纳
1
回答
使用‘`dplyr`’避免‘loop’循环:
计算
到
观测
的
距离
r
、
dplyr
我
有
两个
数据
集A和B,对于A中
的
每个
观测
,我想要
计算
到B中
每个
观测
的
距离distance (例如欧氏距离、L1距离或其他什么)(距离
的
计算
是基于
数据
集中
的
变量)。然后,来自A
的
观察应该与B中
的
一个
观测
相关联,对于该
观测
而言,这个距离是最小
的
。例如,如果A<e
浏览 1
提问于2018-12-11
得票数 1
回答已采纳
1
回答
R小鼠提出新
的
观察
r
、
machine-learning
、
missing-data
、
imputation
、
r-mice
当我使用mice包来
计算
数据
时,我
有
以下问题:我用
数据
帧
的
数据
训练了一个算法,它有10个特征和1000个
观测
值
。 如何使用这个算法(
有
丢失
的
数据
)来预测一个新
的
浏览 2
提问于2016-10-18
得票数 2
2
回答
在聚类时,如何处理
每个
特性中
的
零行?
machine-learning
、
data-mining
、
clustering
、
unsupervised-learning
、
k-means
数据
集中
的
大约3000个
观测
在
每个
特性中都是零
的
(即3000行中
的
所有
值
都为零)。我正试图在此基础上进行聚类。
有
什么更好
的
方法来
处理它呢?我脑子里没有几件事,但我想弄清楚:在
每个
特性中包含零
值
行,并让聚类算法处理相同
的
内容? 此外,请建议
是否
有
更好
的<
浏览 0
提问于2020-01-22
得票数 2
回答已采纳
1
回答
在预测过程中,knn
是否
通过测试
值
扩展了训练
数据
集?
machine-learning
、
classification
、
supervised-learning
、
k-nn
假设我在我
的
数据
集中
有100个
值
,并将其分割成80%,训练20%
的
测试。当预测最后一个
值
时,预测是基于先前
的
99 (80测试+ 19已经预测
的
值
)还是仅仅是原始
的
80火车
值
?例如:如果使用kd,在预测期间
是否
将
每个
数据
点插入到树中?
是否
可以在下面的场景中使用knn?我
有
20个列车
值
,当我添加
浏览 0
提问于2021-07-12
得票数 0
6
回答
对于大
数据
集,如何有效地使用R来检查点
是否
在多边形中?
r
、
ggplot2
、
polygon
我是R
的
新手,对于我目前
的
项目,我必须绘制一个与特定事件相关
的
热图。这类事件大约有200万个
观测
值
,
每个
观测
值
都有一个较长且较晚
的
坐标。此外,我已经将地图
数据
转换为
数据
框,
数据
框包含71个地区,
每个
地区都定义了一组坐标。我需要决定事件
的
哪个观察点属于哪个区域。,polygonOfdis是
每个
地区
的
数据<
浏览 0
提问于2016-04-18
得票数 3
1
回答
如何将输入
数据
集输入到神经网络中?
neural-network
、
backpropagation
、
supervised-learning
如果我
的
数据
集中
有1000个
有
15个特征和1个标签
的
观测
数据
,输入神经元中
的
数据
是如何被输入
的
前向传递和反向传播
的
?它
是否
为1000个
观测
(一次一次)提供逐行输入,并根据
每个
观测
数据
更新权
值
,或者根据输入矩阵给出完整
的
数据
,然后根据历元数,网络学习相应<em
浏览 0
提问于2017-07-19
得票数 4
1
回答
使用Hmisc cut2参数-最大参数是如何工作
的
?
r
、
hmisc
我
的
庞大
数据
集中
有不均匀
的
长度。即2016年
的
700个
观测
值
,2017年
的
400个
观测
值
。我
有
很多年
的
数据
,所以手动裁剪
数据
集是不可行
的
。在中有一个诱人
的
"minmax“参数。
是否
可以使用
浏览 2
提问于2020-05-22
得票数 1
1
回答
替代电流环结构
r
我正在试图
计算
R中大型
数据
集
的
分位数,我
的
代码目前如下所示:percentile[i] <- quantile(Result[1:i],0.1)其中Result是一个五百万
观测
量
的
矢量。重要
的
是,分位数是根据迄今为止
的
观测
数
计算
的
,因为我正在测试模拟收敛性。目
浏览 2
提问于2014-05-13
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
缺失值处理详解
MyBatis教程(6):动态SQL
MongoDB 更新/删除文档(四)
R语言中的卡方检验
Python数据处理从零开始-第三章⑥相关性分析
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券