为dplyr中的每个组创建具有相等样本大小的数据帧_为列表中的每个值创建数据帧_为RStudio中的每个参与者创建具有3个数据帧的每个参与者ID列表 - 腾讯云开发者社区

当处理组数目为2时（例如，实验组与对照组的比较），可以采用适用于两组数据的检验方法，如独立样本t检验或Mann-Whitney U检验（取决于数据的分布情况）。...三、数据是否为配对数据的考量数据的配对性也是选择假设检验方法时需要考虑的因素之一。配对数据指的是两组数据之间存在一一对应关系的数据，如同一样本在不同时间或不同条件下的测量值。...正态分布是一种连续概率分布，其图形呈现为对称的钟形曲线，具有以下特点：对称性：数据分布的图形是对称的，以均值为中心。均值、中位数和众数相等：在正态分布中，这三个统计量是相等的。...这通常用于处理计数数据或具有轻微正偏态的数据。立方根转换（Cube Root Transformation）：对数据集中的每个值应用立方根函数，即 ^1/3。...效应大小是独立于样本大小的一个量，它提供了关于观察到的差异或关联实际重要性的额外信息。在许多情况下，即使p值显著，效应大小也可能很小，这表明虽然统计上显著，但实际差异可能并不具有重大意义。

2931 0

速度快4倍 | MIT&交大&清华联合提出FlatFormer，一个非常高效的Transformer方法

然而，如第3节所述，每个组中的点数可以因固有的稀疏性而有很大的不同。为了克服填充开销，作者根据排序序列将点云分成大小相等的组。这一步使得后续的组注意力具有完全规律的工作负载。...堆叠具有不同排序轴的FWA块使得模型能够从不同方向聚合局部特征。相等大小 vs 相等窗口。作者做出的关键设计选择是将点云分成相等大小的组而不是相等形状的窗口。...存在权衡：相等窗口组保持完美的空间邻近性（即每个组具有相同的半径），但破坏了计算规律性，而相等大小组确保了计算工作负载的平衡（即每个组具有相同数量的点数），但无法保证几何局部性。...作者在Waymo Open Dataset（WOD）上进行了作者的实验，该数据集包含1150个LiDAR点云序列。每个序列包含200帧，由360度视野的LiDAR传感器以每秒10帧的速度收集。...这样的观察可以部分解释FWA的有效性：即，即使等大分组不会创建空间规律的窗口，模型也可以学习抑制背景中的异常点的重要性，并专注于每个组内的更重要前景点。

4041 0

您找到你想要的搜索结果了吗？

是的

没有找到

第一章：视频编码简述

从2010年到2013年，联合视频编码联合协作小组（JCT-VC）积极致力于创建下一个视频压缩标准，开发者称之为高效视频编码（HEVC）；它实现了数字视频数据压缩率的两倍增长。...在一种名为DC的预测中，所有计算出的像素都具有与图2中加粗线标识的“邻近像素”的算术平均值相等的单个值。在其他模式中，执行“角度”预测。...当实现大小为16x16的整个宏块的Intra预测时，残差信号被分成4x4像素块；每个块都经过一个整数模拟的二维离散4x4余弦傅里叶变换。...这使得表示谱样本值的数字的位容量的减少，并且使得具有零值的样本数量的显著增加，这减少了表示编码图像的数字的数量和位容量。...将编码单元分割为具有空间（Intra）和时间（Inter）CU预测模式的预测单元的可能分区在HEVC中，空间预测的概念与AVC中的相同。

1581 0

不平衡之钥: 重采样法何其多

在这项工作中[2]，作者首先对不平衡识别中的各种采样策略进行了实证研究，采样策略包括实例平衡采样、类别平衡采样、平方根采样和渐进平衡采样，实例平衡采样是每个样本被采样的概率相等，类别平衡采样是每个类别被采样的概率相等...；平方根采样是实例平衡采样的一种变体，其中每个类别的采样概率与相应类别中样本大小的平方根有关；渐进平衡采样在实例平衡采样和类别平衡采样之间进行渐进插值。...此外，五元组损失中的每个数据批次包含来自不同类别的相同数量的样本，用于类别重平衡。...3.4 BAGS balanced group softmax (BAGS) [14] 提出根据每个类中的样本数量将类划分为几个平衡组，其中每个组具有相似数量的训练数据的类。...在此之后，BAGS 使用不同的样本组来训练不同的分类头，以便它们对具有相似数量的训练数据的类执行 softmax 操作，从而避免由于不平衡而导致严重偏差的分类器。

8682 0

Python和VizViewer进行自动驾驶数据集可视化

每个座席还具有“类别”标签，将其描述为一组常见对象类型的概率，例如汽车，行人，骑自行车的人等。这三个数据源被编码并分别以表格形式编制索引。...自我和主体的空间特征包含物体的“姿势”（它们的x，y，z笛卡尔坐标和方向），对于主体而言，它们的“范围”（物体的大小）。每个数据样本都有一个时间戳，所有具有共同时间戳的观察值都代表数据的“帧”。...“场景”由相对于时间的连续观察帧序列组成。场景使用索引列表将其他三个数据表中的每个帧链接到表中的每个记录。 ? 必须注意这种以场景为中心的结构背后的动机。...对于我们上面的例子，使用场景初始帧的相对值将生成标准化的场景，以便于在检查不同场景时进行比较。一些有用的特征可以从物体运动的空间数据中得到。这些可以用来为给定的对象类型建立运动模型。...在每个场景中，可以观察到一组代理;然而，许多代理观察可能是短暂的或零星的，只在很短的时间跨度被标记和跟踪，而不是整个场景长度。

1.9K2 0

R tips：使用TCGAbiolinks包下载TCGA数据

下载完成后，GDCprepare同样根据GDCquery的文件结果可以将下载数据规整为summarizedExperiment对象或者是返回一个data.frame。...这个过程中，GDCprepare还会将生存数据自动合并到summarizedExperiment对象的colData中。...Normalization需要控制的三个不均衡因素是文库大小、基因长度及文库组成：文库大小：比如样本A是样本B的测序量的两倍，那么在同等表达水平下，样本A的基因的Counts值就是B的两倍；基因长度...：如果需要进行Gene间的比较，那么需要对基因长度做Normalization，否则的话，基因越长，获得的基因Counts也就越多；文库组成：比如样本A是敲除样本，而样本B是过表达样本，那么这个时候我们就不能假定两个样本的转录组总表达量是一致的...DESeq2的Normalization方法，已经有很多资料了，这里只说它的效果就是可以校正文库大小和文库组成，也就是说可以进行样本间比较，无法进行基因间比较，大多数情况下，我们都是不需要基因间比较的。

3K3 1

一文看懂数据预处理最重要的3种思想和方法

例如，当为稀有类构建分类模型时，样本中适当地提供稀有类是至关重要的，因此需要提供具有不同频率的感兴趣的项的抽样方案。...另一种变种是从每一组对象抽取的样本数量正比于该组的大小。例2.8抽样与信息损失一旦选定抽样技术，就需要选择样本容量。较大的样本容量增大了样本具有代表性的概率，但也抵消了抽样带来的许多好处。...假定每个组内的对象高度相似，但是不同组中的对象不太相似。图2.10a显示了一个理想簇（组）的集合，这些点可能从中抽取。 ? ▲图2.10 从10个组中找出具有代表性的点使用抽样可以有效地解决该问题。...一种方法是取数据点的一个小样本，逐对计算点之间的相似性，然后形成高度相似的点组。从每个点组取一个点，则可以得到具有代表性的点的集合。...有趣的是，使用容量为20的样本，只有很小的机会（20%)得到包含所有10个组的样本。即便使用容量为30的样本，得到不包含所有10个组中对象的样本的概率也很高（几乎40%）。 2.

1.1K1 0

机器学习中数据的方差分析

,因此称为单因素四水平的试验总体:因素的每一个水平可以看作是一个总体,比如零售业、旅游业、航空公司、家电制造业可以看作是四个总体样本数据:被投诉次数可以看作是从这四个总体中抽取的样本数据散点图观察...各个总体的方差必须相同各组观察数据是从具有相同方差的总体中抽取的比如,四个行业被投诉次数的方差都相等观察值是独立比如,每个行业被投诉的次数与其他行业被投诉的次数独立在上述假定条件下,判断行业对投诉次数是否有显著影响...,实际上也就是检验具有同方差的四个正态总体的均值是否相等原假设成立,即H0:μ1=μ2=μ3=μ4 四个行业被投诉次数的均值都相等意味着每个样本都来自均值为μ、方差为σ^2的同一正态总体备择假设成立...全部观察值的总均值误差平方和均方(MS) 水平的均值：定从第i个总体中抽取一个容量为ni的简单随机样本,第ⅰ个总体的样本均值为该样本的全部观察值总和除以观察值的个数式中:ni为第i个总体的样本观察值个数...,也包括系统误差误差项平方和SSE 每个水平或组的各样本数据与其组平均值的离差平方和,反映每个样本各观察值的离散状况,又称组内平方和,该平方和反映的是随机误差的大小平方和之间的关系总离差平方和

6812 0

R语言探索BRFSS数据可视化

p=9266 设定加载包在本实验中，我们将使用dplyr软件包探索数据，并使用ggplot2软件包对其进行可视化以进行数据可视化 library(ggplot2)library(dplyr) 载入资料...2011年进行了超过50万次此类采访，使用随机抽样收集了电话采访和手机访问的样本，从一个州根据密度按分层抽样方法获得了电话样本，而手机样本则是从一个随机抽样中抽取的。 ...关于数据收集对推断范围的影响的评论 BRFSS的调查涵盖了50个州和美国领土，其中包括对随机收集的家庭数据进行的超过500,000次电话采访，这些数据仅是随机样本，并且在数据收集中建立了严格的程序以确保代表性人口样本...is.na(sex))%>% select(physhlth,sleptim1,menthlth,sex) 我们创建了一个新的数据框V1，其中包含4个连续变量。...V2中研究问题3：新的变量V3存储由3个目标变量组成的数据帧。

7280 0

生信学习-Day6-学习R包

让我们分解一下代码的各个部分来理解它的含义： iris: 这是R语言中自带的一个数据集，包含了150个样本，每个样本都是不同的鸢尾花，有4个花的测量特征（萼片长度、萼片宽度、花瓣长度、花瓣宽度）和一个种类标签...执行这个操作后，你将得到一个新的数据框，其中只包含test数据框中Species列值为"setosa"或"versicolor"的行。...这相当于从原始的test数据框中筛选出所有属于"setosa"或"versicolor"这两个种类的鸢尾花样本。...这个函数执行的是一个内连接（inner join），它会将两个数据框中具有相同键值的行组合在一起。这里的 "键值" 是用于连接两个数据框的列。...这意味着函数将查找 test1 和 test2 中列名为 "x" 的列，并基于这两列中的匹配值来合并行。只有当两个数据框中都存在列 "x" 且某些行在这一列的值相等时，这些行才会出现在最终的结果中。

1741 0

论文控|从扎克伯格账号被黑说起，谷歌神经网络如何实现“更安全”的验证

用这两种工具，复杂的计算图表（例如我们端到端拓扑学定义的那个图标）可以分解为一系列操作，具有简单的梯度，例如总和、分区和矢量的交叉产品。...通常，实际的每个用户发音数量（几百个或更多）比在注册阶段（十个以内）多得多。为了避免错误配对，每一个训练发音，我们只从同一个用户获取几个样本发音，来在训练阶段创建用户模型。...为了实现数据处理和内存之间的平衡，输入层维护一个发音库来为每一个训练步骤获取1+N个发音样本，并经常更新以实现更好的数据处理。...DNN中本地连接层的区块大小是 10x10。对 LSTM，我们将40维度的特征矢量一帧一帧地输入。我们使用一个有504个节的单个 LSTM 层，没有投影层。所有试验中的批量大小都是32。...这个模型大小近似于真实的平均模型大小，对我们的注册组来说大小是6。这篇论文中的其他配置（未展示）也看到了类似的趋势。

94816 0

腾讯新研究：看血条就能检测、识别王者荣耀里的英雄

一种是两步（two-stage）算法，即先检测出图像中的目标，为每个检测到的目标画出边界框，然后再识别每个边界框并对其中的目标进行分类。...为什么要用两步算法之所以采用两步的算法是因为每个英雄的血条具有固定的大小和形状。因此，采用这种算法能够高效、准确地检测出英雄。同时，识别阶段也会从准确的检测结果中受益。...因此，在这一特定任务中，两步算法的效果要优于一步算法。此外，做出这种选择还有一个原因：研究者拥有一组仅标注了自己英雄的游戏视频。...匹配后的图像是一个 32 位浮点图像，每个像素表示输入图像与模板在该位置的匹配程度。研究者试图检测出一个视频帧中的所有英雄，但每个帧中的英雄数量是不确定的。...如此看来，只要找到匹配图像中的这些局部极大值，我们就能检测出血条。研究者在这些匹配图像上使用具有适当半径的最大值滤波器（maximum filter）。图 2(c) 为最大值滤波器处理之后的图像。

1.1K3 0

新TCGA+文献复现里的几种算法

（一个基因对应4个read，即count为4） Gtex：正常样本的组织? TCGA 正常组织样本少，可以与Gtex联合。...结果为一组有名字的向量。...，根据这个数值的大小把病人分成两个组，小于中位数的一个组，大于中位数的为另一个组 6.带有侧边密度图的相关性点图 https://www.yuque.com/xiaojiewanglezenmofenshen...每个表型相关模块里的那些基因模块：具有高拓扑重叠相似性的基因合集。共表达模块是根据非相似性矩阵，利用聚类算法获得。基因与他所属的同一模块内的其他基因往往具有更高的共表达特性。...（基因表观遗传学：甲基化水平与性状的关系） F.得到结论数据准备：基因的表达量、样本、每个样本的（某一个关心的）性状的表达量单细胞之多样本整合 1.Harmoy整合多细胞数据 https://www.yuque.com

1771 0

第三章：HEVC中的空间（帧内）预测

在很大程度上，编码过程中视频数据的压缩是通过从视频图像序列中消除冗余信息来实现的。显然，在时间上相邻的视频帧中的图像极有可能看起来彼此相似。...为了消除时间冗余，在先前编码的帧中搜索与当前帧中要编码的每个块最相似的图像。一旦找到，该图像就被用作正在被编码的区域的估计（预测），然后从当前块的像素值中减去预测的像素值。...在HEVC中对PU（预测单元）执行空间帧内预测。PU的大小与CU的大小相同，但有两个例外。...其次，可以将具有最小允许大小的四叉树的最低级别的CU进一步划分为大小为其一半的四个正方形PU。...在滤波过程中访问样本的方向如图2中的箭头所示。滤波器类型由被编码的块的大小决定。对于某些预测模式以及当预测块的大小为 4\times4 时，省略该步骤。第三步涉及正在编码的块内的像素值的计算。

1931 0

Microbiome: 标准化和微生物差异丰度策略取决于数据特征

3.从样本中获得的读数不能反映存在的微生物的绝对数量，因为样本只是原始环境的一小部分。因为相对丰度总和为1并且是非负的，所以相对丰度代表组成数据。...这是因为将不同采样深度的所有样本放在同一尺度上忽略了测序深度(以及物种分辨率)的差异，这是由样本之间不同的文库大小造成的。例如，在小文库大小的样品中计数为零的稀有物种在大文库的样品中可能具有丰度。...稀释仍然是一种有用的标准化技术:与其他标准化技术相比，稀释可以更有效地减轻样本库大小的影响，并为所研究的生物效应带来更高的PERMANOVA R2，尤其是对于小的(平均约10倍)，它趋向于更高的错误发现率。...在DESeq2的对数转换之前，手动向矩阵添加伪数值的做法会增加FDR。这与之前的研究结果一致，即RNA-Seq方法不适合微生物组数据。如果每个组的平均库大小大致相等，那么稀释本身不会增加错误发现率。

2.2K2 1

第九章：上下文自适应二进制算术编码第4部分

如果直接按照整数对应的二进制数值将其转换为码流，则意味着在二进制消息中遇到0和1的概率将几乎相等，因此算术编码器中的数据压缩比将接近零。...此过程将把某个图像块进行编码的过程中的所有数值转换为一组二进制比特流。接下来仅针对使用帧内预测编码的特殊情况来详细考虑这种二进制化过程。先让我们回顾一下基本知识，视频帧在HEVC中是逐块编码的。...与当前CU相关的语法元素集合完全描述了在对该块中的图像进行编码的过程中所做出的选择。这是在熵编码之前需要进行二值化的集合，二进制化是将每个语法元素的值映射到一组二进制字符或二进制元(bin)中的过程。...对于包含非零值的每个子块，继续使用一组语法元素sig_coeff_flag进行描述，这个语法元素在每个位置都会生成。对于子块内部的非零频谱系数，该元素的值为1，否则为0。...对于正样本，coeff_sign_flag设置为0，而对于负样本，它被设置为1。TU块的描述以一组语法元素coeff_abs_level_remaining的生成而结束。

1301 0

视频数据训练太慢？试试UT-Austin&FAIR提出的多重网格训练，加速4.5倍，还能提点！

受数值优化中多重网格方法的启发，作者提出使用具有不同时空分辨率的可变mini-batch形状。不同的形状源于对多个采样网格上的训练数据进行重采样。...例如，可以使用较少数量的帧和/或空间大小，同时增加mini-batch大小B。通过这种交换，可以以较低的wall-clock时间处理相同数量的epoch，因为每次迭代处理更多的样本。...作者将通过实验研究两个问题：1) 是否有一组具有网格schedule的网格可以在不损失精度的情况下实现更快的训练？2）如果是，它是否能够在不进行修改的情况下有力地推广到新模型和数据集？ 3.1....Multigrid Training Concepts Sampling Grids 数据集中的每个视频都是从物理世界生成的基本连续信号中采样的离散信号。...视频具有一定数量的帧和每帧的像素，这些帧和像素通过记录设备的时间和空间分辨率（取决于多个相机属性）与物理世界相关。当在训练mini-batch中使用这些源视频之一时，使用采样网格对其进行重新采样。

9811 1

【论文解读】深度学习+深度激光=移动车辆的状太估计

最后，我们根据通常用于表示光流的颜色代码对每个车辆地面真实运动矢量进行相应的角度和大小编码。图2b显示了所描述数据集的帧样本，其中场景的相应RGB图像也仅出于比较目的而显示。 3.2 前置准备 ?...为此，我们创建一个3通道矩阵，其大小与2D激光雷达特征图相同，其中每个“像素”三元组都采用正向（Z）和横向（X）自我位移以及Y轴旋转值在时间间隔t→t + n中。...因此，我们的体系结构在来自网络的可伸缩部分和可扩展部分的大小相等的特征图之间执行级联，从而生成更丰富的表示并允许更好的梯度流。...提取后的数据集由两部分组成：4953个移动的框架，以及3047个包含静态车辆或不包含任何车辆的框架。为了平衡批次采样并避免有误差的学习，作者为每个批次取8帧白喊运动的帧，另外2帧不包含运动。...我们的基本方法采用大小为64×448×4的张量作为输入，该张量堆叠来自时刻t和t +1的2D激光雷达投影帧。每个投影框都包含范围值和反射率测量值，如第III-A节开头所概述并在图2a中所示。

6080 0

Nature:可重复的全脑关联研究需要数千人参与

其他以人群为基础的科学旨在坚定地表征相对较小的影响，如流行病学和基因组学(即全基因组关联研究(GWAS))，已经稳步地将样本量从低于100增加到超过100万。...在完整的、严格去噪的ABCD样本中(n = 3,928)，在所有脑区关联中，单变量效应大小中位数(|r|)为0.01。...因此，我们使用了大型研究中每个参与者包含最多数据的HCP数据集(n = 1200;年龄范围:22 35岁;单一的扫描仪;60分钟，RSFC收集)，以及UKB数据集，该数据集样本量最大，但每个参与者的RSFC...单站和多站样本的抽样可变性是相等的，这强调了ABCD研究跨站协调工作的有效性。...因此，BWAS应该使用至少具有数千个高质量、标准处理的样本的数据集。还应考虑潜在的混淆效应和对统计显著性的解释。基因组学从其可重复性危机中恢复为BWA2树立了一个有价值的榜样。

3081 0

Siam R-CNN：通过重检测进行视觉跟踪

通过判断建议区域（region proposal）是否与模板区域（template region）相同，重检测图像中任何位置的模板对象，并对该对象的边界框进行回归，这种方法对目标大小和长宽比变化比较鲁棒...4.Video Hard Example Mining 在传统 Faster RCNN 训练中，负样本是从RPN得到的区域中采样得到的。但是，在许多图像中，仅有少量负样本。...并且与检测中的通用难样本不同，这里的难样本是从其他视频中检索出来的与参考目标类似的样本。...然后利用动态规划的评分算法为模板对象在第一帧和当前帧之间选择最可能的 tracklets序列。...每个detection都定义为：a bounding box, a re-dection score 和 RoI-aligned features。

6051 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

数据分析：假设检验方法汇总及R代码实现

速度快4倍 | MIT&交大&清华联合提出FlatFormer，一个非常高效的Transformer方法

第一章：视频编码简述

不平衡之钥: 重采样法何其多

Python和VizViewer进行自动驾驶数据集可视化

R tips：使用TCGAbiolinks包下载TCGA数据

一文看懂数据预处理最重要的3种思想和方法

机器学习中数据的方差分析

R语言探索BRFSS数据可视化

生信学习-Day6-学习R包

论文控|从扎克伯格账号被黑说起，谷歌神经网络如何实现“更安全”的验证

腾讯新研究：看血条就能检测、识别王者荣耀里的英雄

新TCGA+文献复现里的几种算法

第三章：HEVC中的空间（帧内）预测

Microbiome: 标准化和微生物差异丰度策略取决于数据特征

第九章：上下文自适应二进制算术编码第4部分

视频数据训练太慢？试试UT-Austin&FAIR提出的多重网格训练，加速4.5倍，还能提点！

【论文解读】深度学习+深度激光=移动车辆的状太估计

Nature:可重复的全脑关联研究需要数千人参与

Siam R-CNN：通过重检测进行视觉跟踪

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐