开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Scypy: Wilcoxon测试:比较分布与单个值

Scipy: Wilcoxon测试是一种非参数统计检验方法，用于比较两个相关样本或配对样本的差异。它的目的是判断两个样本是否来自同一总体分布，而不需要对总体分布做出任何假设。

Wilcoxon测试的步骤如下：

收集两个相关样本或配对样本的数据。
对每对数据进行差异计算。
对差异值进行排序，并计算排序的绝对值秩次。
计算秩次和，以及秩次和的正负符号。
根据秩次和的正负符号，查找Wilcoxon秩次和表格，确定显著性水平下的临界值。
比较计算得到的秩次和与临界值，判断两个样本是否存在显著差异。

Wilcoxon测试的优势在于它不需要对数据的分布做出任何假设，适用于非正态分布或小样本量的情况。它也可以用于比较有序分类变量或等级数据。

Wilcoxon测试的应用场景包括但不限于：

医学研究中比较两种治疗方法的效果。
心理学研究中比较两组受试者的表现。
生物学研究中比较不同基因表达的差异。
工程领域中比较两种产品的性能。

腾讯云提供了一系列与数据分析和统计相关的产品和服务，可以用于支持Wilcoxon测试的实施和分析，例如：

腾讯云数据万象（https://cloud.tencent.com/product/ci）：提供图像和视频处理能力，可用于处理多媒体数据。
腾讯云人工智能（https://cloud.tencent.com/product/ai）：提供各种人工智能服务，如图像识别、语音识别等，可用于处理和分析数据。
腾讯云数据库（https://cloud.tencent.com/product/cdb）：提供各种数据库服务，如云数据库MySQL、云数据库MongoDB等，可用于存储和管理数据。
腾讯云云服务器（https://cloud.tencent.com/product/cvm）：提供云服务器实例，可用于部署和运行应用程序。

请注意，以上仅为腾讯云相关产品的示例，其他云计算品牌商也提供类似的产品和服务，具体选择应根据实际需求和预算进行评估。

相关搜索:比较问题在主题上的分布(值与行)Excel -将单个值与该值的拆分/总计进行比较将to_date列与pyspark中的单个值进行比较将单个值与值的列进行比较，并在pandas中查找最大值如何使用泊松分布计算列的期望值，然后与实际值进行比较？将所有列值与Excel中的单个单元格进行比较如何将一个表中的单个值与另一个表中的值列表进行比较在左外部连接(Flink)中，有没有办法将数据集的多个值与另一个数据集的单个值进行比较将一个表中具有共享引用的行的总和与另一个表中的单个值进行比较在NodeJS测试中将值与strictEqual进行比较时，是否会出现“输入对象相同但引用不相等”的问题？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R语言系列第四期：①R语言单样本双样本差异性检验

之前详细介绍了利用R语言进行统计描述，详情点击：R语言系列第三期：③R语言表格及其图形展示、R语言系列第三期：①R语言单组汇总及图形展示、R语言系列第三期：②R语言多组汇总及图形展示

01

R语言系列第四期：①R语言单样本双样本差异性检验

之前详细介绍了利用R语言进行统计描述，详情点击：R语言系列第三期：③R语言表格及其图形展示、R语言系列第三期：①R语言单组汇总及图形展示、R语言系列第三期：②R语言多组汇总及图形展示

01

Python之Wilcoxon符号秩和检验

本节主要聚焦单样本Wilcoxon符号秩和检验，首先咱们先简单介绍一下什么叫做参数检验和非参数检验，然后介绍一下什么叫做秩次和秩和，接着正式讲解Wilcoxon符号秩和检验的含义和作用，最后通过一个小的案例来看一下这个检验如何通过Python代码实现。

01

一网打尽所有的比较型统计分析和可视化

每篇SCI都免不了做各种比较，比较两组间、甚至多组间的差异。小编整理了一些组间比较的可视化，总能找到适合你文章的那一款！

02

Neuron：发音运动轨迹在大脑语音感觉运动皮层上的编码

流利的语言表达需要精确的声道运动。Chartier等人研究声道运动在感觉运动皮层上的编码。该研究发现，单电极神经活动可以编码不同的运动轨迹，这些运动轨迹是产生自然语言的复杂运动轨迹基础。本文发表在Neuro杂志。

02

睡眠时的局部目标记忆再激活

通过目标记忆再激活（targeted memory reaction，TMR）实现记忆巩固，TMR在睡眠期间重现训练线索或是内容。但是不清楚TMR对睡眠皮层振荡的作用是局部的还是整体的。本文利用嗅觉的独特功能神经解剖学及其同侧刺激处理，在一个脑半球进行局部TMR。在最初就有气味刺激条件下，受试者学习单词与出现在左右视野中的位置间的联系。本文发现在任务训练期间，侧向的时间相关电位表示单半球的记忆过程。在学习后的小睡中，在非快速眼动（non-rapid eye movement，NREM）睡眠中进行气味刺激。在睡眠期间进行局部TMR后，cued半球（与受刺激鼻孔同侧）处理特定单词的记忆得到改善。单侧气味刺激调控局部慢波（slow-wave，SW）功率，即相较于uncued半球，cued半球的区域SW功率增加较慢，且与提示单词的选择记忆呈负相关。另外，在cued半球中，局部TMR改善了慢震荡和睡眠纺锤波间的相位振幅耦合（PAC）。在学习期间没有气味刺激条件下，睡眠期间进行单侧气味刺激，结果表明记忆表现和皮层睡眠振荡间并不存在任何效应。因此，睡眠中TMR通过选择性地促进与局部睡眠振荡相关的特定记忆，而超过了整体活动。

02

新鲜热乎的基于免疫细胞特征的预后模型思路

乳腺癌是全球最常见的癌症之一，也是全球女性恶性肿瘤死亡的主要原因。肿瘤浸润性淋巴细胞是乳腺癌患者重要预后生物标志物的来源。

02

CVPR2024-扩散模型可解释性新探索，图像生成一致性创新高！AI视频生成新机遇？

在本研究中，作者指出了对图像生成扩散模型的可重复性或一致性进行定量评分的重要性。本文提出了一种基于成对平均CLIP（对比语言-图像预训练）分数的语义一致性评分方法。通过将此度量应用于比较两种领先的开源图像生成扩散模型——Stable Diffusion XL（SDXL）和PixArt-α，作者发现它们在语义一致性分数上存在显著的统计差异。所选模型的语义一致性分数与综合人工标注结果的一致性高达94%。此外，本文还研究了SDXL及其经过LoRA（低秩适应）微调的版本之间的一致性，结果显示微调后的模型在语义一致性上有显著提高。本文提出的语义一致性分数为图像生成的一致性提供了一个量化工具，这有助于评估特定任务的模型架构，并为选择合适的模型提供了参考依据。

01

机器学习与R语言实战笔记（第三章）

这里记录下这本书里我之前不了解的内容，欢迎一起交流！向量的模式作者写了个函数来干这件事，我学习下，登上巨人的肩膀。我的理解，这个是相当于motif，计数最多的元素的意思。

02

数据分析：假设检验方法汇总及R代码实现

显著性检验方法，通常也被称为假设检验方法，是统计学中用于评估样本统计量是否显著不同于某个假设值的一种重要工具。以下是假设检验方法使用时需要考虑的三个条件的书面化表述：

01

Conquer-对单细胞数据差异表达分析的重新审视

随着单细胞测序技术的流行，我们对复杂疾病和性状的理解从patient，tissue的表达谱(bulk RNA-seq)到单个细胞的表达谱(single cell RNA-seq)。究其原因，在于bulk RNA-seq产生的是一个细胞群体的平均读数，而细胞，特别是癌细胞存在极大的异质性，这些平均信号可能不足以反应这堆组织的真实信息。Prof Aviv Regev (MIT教授，HHMI研究院，人类细胞图谱计划项目co-chair)曾经形容这种方法就像水果沙拉，颜色和味道都能提示冰沙的成分，但倘若只有几个是属于蓝莓的味道，那么很容易就被一堆草莓的味道所覆盖（如下图）。因而在细胞尺度上进行大规模的测序分析以对细胞进行重新分型是很有必要的。

02

当我们休息时，我们的大脑运动皮层中重放习得的神经放电序列

以前在非人类动物中观察到的唤醒过程背后的神经激发模式的离线“重播”被认为是记忆巩固的一种机制。布朗大学(Brown University)，麻省总医院(Massachusetts General Hospital)等研究小组的人员通过记录两名参与者的运动皮层的尖峰活动来测试人脑的重播，这两名参与者的大脑皮质接口微电极阵列作为脑机接口试点临床试验的一部参与者在玩一个神经控制的序列复制游戏之前和之后都要打个盹，这个游戏包含一个“重复”的序列与不同的“控制”序列稀疏地交织在一起。与学习一致，两个参与者都比控制序列更准确地执行了重复序列。研究人员将在执行每个序列时导致光标移动的触发率模式与两个休息时间段的触发率模式进行比较。与控制序列相比，与重复序列的相关性在任务休息前后增加得更多，这为大脑中与学习相关的回放提供了直接证据。

01

在你休息时，你的大脑运动皮层中重放习得的神经放电序列

以前在非人类动物中观察到的唤醒过程背后的神经激发模式的离线“重播”被认为是记忆巩固的一种机制。布朗大学(Brown University)，麻省总医院(Massachusetts General Hospital)等研究小组的人员通过记录两名参与者的运动皮层的尖峰活动来测试人脑的重播，这两名参与者的大脑皮质接口微电极阵列作为脑机接口试点临床试验的一部参与者在玩一个神经控制的序列复制游戏之前和之后都要打个盹，这个游戏包含一个“重复”的序列与不同的“控制”序列稀疏地交织在一起。与学习一致，两个参与者都比控制序列更准确地执行了重复序列。研究人员将在执行每个序列时导致光标移动的触发率模式与两个休息时间段的触发率模式进行比较。与控制序列相比，与重复序列的相关性在任务休息前后增加得更多，这为大脑中与学习相关的回放提供了直接证据。

02

R中的假设检验方法

在实际科研中很多数据是服从正态分布的，例如某一处理下小鼠的生理状况、某一样方内土壤的性质、小学生的身高等。但也有很多是不服从正态分布的，例如两种药物在不同医院的的疗效，这时候由于不同医院医疗水平不同，其治疗效果自然有差异，因此两种药物的数据不再符合正态分布。此外，很小的样本量一般是不能得出总体分布信息的。

03

【MATLAB 从零到进阶】day12 参数估计

【例10.1-1】从某厂生产的滚珠中随机抽取10个，测得滚珠的直径（单位：mm）如下： 15.14 14.81 15.11 15.26 15.08 15.17 15.12 14.95 15.05 14.87 若滚珠直径服从正态分布N(μσ2)，其中,μσ未知，求,μσ的最大似然估计和置信水平为90%的置信区间。

02

R语言各种假设检验实例整理（常用）

一、正态分布参数检验例1. 某种原件的寿命X（以小时计）服从正态分布N（μ, σ)其中μ, σ2均未知。现测得16只元件的寿命如下： 159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170 问是否有理由认为元件的平均寿命大于255小时？解：按题意，需检验 H0： μ ≤ 225 H1: μ > 225

04

「Workshop」第三十八期 Bootstrap

Bootstrap（自助法、自举法）是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。指用原样本自身的数据再抽样得出新的样本及统计量，根据其意现在普遍将其译为“自助法”或“自举法”。其最初由美国斯坦福大学统计学教授Efron在1977年提出。作为现代统计学较为流行的一种统计方法，Bootstrap在小样本时效果很好。

02

作为一种连续现象的EEG微状态

近年来，脑电微状态分析作为一种描述大规模电生理数据时空动态性特征的工具得到了广泛的应用。脑电微状态被认为存在两种假设：(1)“胜者为王”，即任何给定时间点的地形图都处于一种状态；(2)从一种状态离散地转换到另一种状态。在本研究中，我们从脑电数据的几何角度研究了这些假设，将微状态地形作为原始通道空间子空间的基向量。我们发现，微状态内和微状态间的距离分布在很大程度上是重叠的：对于低全局场强 (GFP)范围，标记为一个微状态的单个时间点通常与多个微状态向量等距，这挑战了“胜者为王”的假设。在高场强下，微状态的可分性有所改善，但仍然较弱。虽然许多GFP峰(用于定义微状态的时间点)出现在高GFP范围内，但与较差可分性相关的低GFP范围也包含GFP峰。此外，几何分析表明，微状态及其跃迁看起来更像是连续的，而不是离散的，传感器空间轨迹变化率的分析显示了渐进的微状态转变。综上所述，我们的发现表明，脑电微状态被认为在空间和时间上是连续的更好，而不是神经集群的离散激活。 1.背景基于脑电地形图具有准稳定模式的发现，研究人员描述这些稳定的地形图为脑电微状态。脑电微状态分析被认为是研究许多认知过程的神经特征的有效方法，也是研究脑电动态性并将之与认知和疾病联系起来的一种有效的方法。当前的微状态模型基于两个关键假设，其中之一就是在任何时间点都存在一个单一的状态，即“胜者为王”原则。在脑电数据的几何角度下，M通道脑电数据集可以概念化为M维空间，每个时间点的地形对应于该M维空间中的一个坐标。微状态分析也可以看作是一种降维技术，它将每个微状态概念化为一维子空间，即表征为传感器空间中的向量。目前，将脑电数据紧密分布在(少量)微状态向量周围的假设称为离散性假设。如果微状态分析的离散性假设成立，那么与每个微状态相关的数据点应该紧密地分布在其父向量的周围，并且快速过渡到另一个微状态。本研究使用标准微状态分析并结合经验和仿真数据的正交投影距离来表明，在传感器空间中，一个微状态内的时间点不一定局限于其父微状态向量周围。相反，单个时间点的地形图可以接近于多个微状态，并且取决于全局场功率，并且随着时间的推移而平滑地改变。因此，本研究表明，时空离散性的假设可能不能准确地捕捉到微状态的本质。此外，我们还证明了主成分分析可以用来可视化3D中的数据分布，因为它保留了不同聚类之间和聚类内的距离。 2.材料与方法 2.1 数据描述本研究中，我们分析了两个数据集。我们使用了68名对照组和46名抑郁症/高BDI组，数据以500 Hz重新采样。 2.2 实验装置使用64通道神经扫描系统记录数据，电极布置符合10-10国际系统。 2.3 数据分析使用MATLAB中的EEGLAB工具箱导入数据进行分析。这些数据最初有66个通道，其中60个通道被保留下来进行分析。在进一步分析之前进行平均参考。然后，对数据进行1-30 Hz的带通滤波。执行ICA后手动清理数据。去除无关的伪影成分。 2.4 微状态分析微状态分析算法包括以下步骤： (1)我们使用L1范数来计算GFP。这产生了GFP的时间序列，它反映了随着时间推移地形中的总能量(图1A-B)。 (2)GFP(t)的局部最大值被送到改进的k-均值聚类算法(步骤3-7)(图1C)。我们选择了四个聚类进行分析。 (3)聚类过程从随机选择n个模板图开始，其中n是聚类或微状态图的数量。 (4)利用GFP峰值数据计算n个模板图的空间相关性。取空间相关性的绝对值确保结果不依赖于地形图极性。 (5)计算模板图的解释方差。 (6)重新定义模板图，通过从每个聚类中提取所有地形图的第一主成分来实现。 (7)重复步骤4至6，直到解释方差不随迭代次数增加而改善。 (8)选择一组新的n个随机选择的模板图，并重复步骤3到7。最后，选择解释方差最大的一组模板图作为最终的微状态向量。

01

7.4-7.10 交流群问题汇总第3期

箱式图；DADA2；群落构建；微生物功能；ASV；VPA；KEGG；wilcoxon检验；Venn图；simpson evennes；βNTI & RC；kraken2；LSA；重抽；R内存；possion回归

04

Nat. Commun. | 用于单细胞测序的林火聚类将迭代标签传播与并行蒙特卡洛模拟相结合

本文介绍由美国耶鲁大学统计与数据科学系的Mark Gerstein通讯发表在 Nature Communications 的研究成果：作者介绍了林火聚类，这是一种从单细胞数据中发现细胞类型的有效手段，具有良好的可解释性。林火聚类采用最小的先验假设，与当前方法不同，它计算每个细胞分配一个细胞类型标签的非参数后验概率。这些后验分布允许评估每个细胞的标签置信度，并允许计算“标签熵”，突出沿着分化轨迹的过渡。此外，作者表明，林火聚类可以在在线学习环境中进行稳健的归纳推理，并且可以很容易地扩展到数百万个细胞。最后，作者证明了该方法在模拟和实验数据的不同基准上优于最先进的聚类方法。总的来说，林火聚类是大规模单细胞分析中发现稀有细胞类型的有用工具。

02

单细胞分析的 Python 包 Scanpy（图文详解）

线粒体基因的转录本比单个转录物分子大，并且不太可能通过细胞膜逃逸。因此，检测出高比例的线粒体基因，表明细胞质量差（Islam et al. 2014; Ilicic et al. 2016）。

04

R in action读书笔记（6）-第七章：基本统计分析（下）

相关系数可以用来描述定量变量之间的关系。相关系数的符号（±）表明关系的方向（正相关或负相关），其值的大小表示关系的强弱程度（完全不相关时为0，完全相关时为1）。除了基础安装以外，我们还将使用psych和ggm包。

02

单细胞||SingleR鉴定细胞类型

SingleR是用于单细胞RNA测序（scRNAseq）数据的自动注释方法（Aran et al.2019）。给定具有已知标签的样本（单细胞或RNAseq）参考数据集，它将基于与参考数据的相似性标记测试数据集中的新细胞。具体来说，对于每个测试单元：

03

Python中的统计假设检验速查表

本文是一个机器学习项目中最流行的统计假设检验的速查表，包含使用Python接口的示例。

06

数据分析-非参数秩方法

非参数秩方法，即不假定总体分布的具体形式，从数据本身获得所需信息，适用范围广，但忽略了分布类型，针对性差。

02

统计学_显著性检验综述

比如研究血型与性格是否独立，如果性格a的血型比例与性格b的血型比例相同，那么统计上独立。

03

统计分析篇-定量资料统计分析（1）

在临床试验中，常常分不清楚所要分析的数据是什么资料类型，以及不明确用什么统计分析方法去分析自己手头上的数据。鉴于以往的数据分析经验，写成如下内容供参考。

02

模型性能分析：ROC 分析和 AUC

ROC 分析和曲线下面积 (AUC) 是数据科学中广泛使用的工具，借鉴了信号处理，用于评估不同参数化下模型的质量，或比较两个或多个模型的性能。

02

「R」数值与字符处理函数

注意：默认情况下，函数scale()对矩阵或数据框的指定列进行均值为0、标准差为1的标准化。要对每一列进行任意均值和标准差的标准化，可以使用如下的代码：

01

识别差异微生物的方法汇总

现在 Nearing, Douglas et al. Nature Comm. Microbiome differential abundance methods produce different results across 38 datasets.文章对常用的差异分析方法做了基准测试，本文将不同方法的核心代码记录下来。

01

Python 做 Nature 级的单细胞分析（图文详解）

如果 conda 不熟悉的小伙伴，可以参考：https://blog.csdn.net/u011262253/article/details/88828229

04

你真的懂点击率（CTR）建模吗？

点击率(CTR，Click-Through Rate)以及派生的各种用户行为概率(如商品购买率、推荐好友接受率、短视频3s曝光率等)是广告、推荐、搜索等互联网应用中大家耳熟能详的词汇。以点击率为例，如何建立高效的CTR预估模型是领域从业者们的核心能力，也是头部企业长期重兵投入、持续优化的核心技术。

02

R in action读书笔记（16）第十二章重抽样与自助法之置换检验

有两种处理条件的实验，十个受试者已经被随机分配到其中一种条件（A或B）中，相应的结果变量（score）也已经被记录。实验结果如下：

03

机器学习的稳健算法

机器学习通常被认为是解决困难问题的一个魔法解决方案，它将使我们从单纯的人类中解脱出来。但事实上，对于数据科学家和机器学习工程师来说，有很多问题比带有限规则集的图像或棋盘游戏中的简单对象识别要困难得多。

《spss统计分析与行业应用案例详解》：实例十五两个关联样本检验

分析一种新药，选取15名患者，是沿着服药前后的血红蛋白数量，分析该药时候引起患者血红蛋白数量显著变化

02

eLife：EEG和MEG中相位数据的贝叶斯分析

摘要：脑电图（EEG）和脑磁图（MEG）记录是研究人类神经反应的宝贵工具，但它们存在噪音，并可能受到多种过程的影响。为了解决这一问题，一个有效的方法是使用特定频率的刺激，并测量响应相位的一致性。本文描述了一种测量相位一致性的贝叶斯方法，并使用神经语言学的示例和模拟数据进行了阐述。本研究建议，与传统的统计方法相比，贝叶斯方法更具描述性和可解释性，并且在检测与刺激相关的差异时对参与者数量要求更低。

01

模型性能分析：ROC 与 AUC

ROC 分析和曲线下面积 (AUC) 是数据科学中广泛使用的工具，借鉴了信号处理，用于评估不同参数化下模型的质量，或比较两个或多个模型的性能。

02

参数与非参数检验：理解差异并正确使用

来源：Deephub Imba本文约1700字，建议阅读5分钟本文我们将探讨参数与非参数检验之间的区别，提供示例以更好地理解它们的用例，并总结关键要点。数据科学是一个快速发展的领域，它在很大程度上依赖于统计技术来分析和理解复杂的数据集。这个过程的一个关键部分是假设检验，它有助于确定从样本中获得的结果是否可以推广到总体。理解假设检验假设检验是一种统计方法，用于确定给定结果是由于偶然或特定影响的可能性。它包括制定一个零假设(H0)和一个备选假设(H1)，然后使用统计检验来确定哪一个更有可能。检验的选择取

01

Nature neuroscience：利用encoder-decoder模型实现皮层活动到文本的机器翻译

距离首次从人脑中解码语言至今已有十年之久，但解码语言的准确性和速度仍然远远低于自然语言。本研究展示了一种通过解码皮层脑电获得高准确率、高自然程度语言的方法。根据机器翻译的最新进展，我们训练了一个递归神经网络，将每个句子长度下诱发的神经活动序列编码为一个抽象的表达，然后逐字逐句地将这个抽象表达解码成一个英语句子。对每个参与者来说，数据包括一系列句子（由30-50个句子多次重复而来）以及约250个置于大脑皮层的电极记录到的同步信号。对这些句子的解码正确率最高可以达到97%。最后，本研究利用迁移学习的方法改进对有限数据的解码，即利用多名参与者的数据训练特定的网络层。本研究发表在Nature neuroscience杂志。

01

R语言统计相关函数总结

R 语言在统计分析方面起了很大的作用，并且其开开放性更是促进了大量分析R包的出现。今天我们就不一一去列举相关的R包，而是总结一下R语言自带的统计学函数。一、统计学数据的生成函数： norm 正态分布 f F分布 unif 均匀分布 cauchy 柯西分布 binom 二项分布 geom 几何分布 diag 对角阵二、基础的运算函数 abs 绝对值 sqrt 平方根 exp e^x次方 log 自然对数 log2,log10 其他对数 sin,cos,tan 三角函数 sinh,cosh,tanh 双曲

03

系统比较Seurat和scanpy版本之间、软件之间的分析差异

单细胞rna测序(scRNA-seq)是一种强大的实验方法，为基因表达分析提供细胞分辨率。随着scRNA-seq技术的广泛应用，分析scRNA-seq数据的方法也越来越多。然而，尽管已经开发了大量的工具，但大多数scRNA-seq分析都是在两种分析平台之一进行的:Seurat或Scanpy。表面上，这些程序被认为实现了分析相同或非常相似的工作流程:scRNA-seq结果计算分析的第一步是将原始读取数据转换为细胞基因计数矩阵X，其中输入Xig是细胞i表达的基因g的RNA转录本的数量。通常，细胞和基因被过滤以去除质量差的细胞和最低表达的基因。然后，将数据归一化以控制无意义的可变性来源，如测序深度、技术噪声、库大小和批处理效果。然后从归一化数据中选择高度可变基因(hvg)来识别感兴趣的潜在基因并降低数据的维数。随后，基因表达值被缩放到跨细胞的平均值为0，方差为1**。这种缩放主要是为了能够应用主成分分析(PCA)来进一步降低维数，并提供有意义的嵌入来描述细胞之间的可变性来源。然后通过k近邻(KNN)算法传递细胞的PCA嵌入，以便根据细胞的基因表达描述细胞之间的关系。KNN图用于生成无向共享最近邻(SNN)图以供进一步分析，最近邻图被传递到聚类算法中，将相似的单元分组在一起。图(s)也用于进一步的非线性降维，使用t-SNE或UMAP在二维中图形化地描绘这些数据结构。最后，通过差异表达(DE)分析鉴定cluster特异性marker基因，其中每个基因的表达在每个cluster与所有其他cluster之间进行比较，并通过倍比变化和p值进行量化。

02

文本获取和搜索引擎如何评估一个算法是否有效

coursera课程 text retrieval and search engine 第三周推荐。

04

中到英新闻翻译媲美人类，微软机器翻译新突破

机器之心报道参与：机器之心编辑部今日，微软研究团队表示，微软和微软亚研创造了首个在质量与准确率上匹配人类水平的中英新闻机器翻译系统。黄学东告诉机器之心，他们采用专业人类标注与盲测评分代替 BLEU 分值而具有更高的准确性，且新系统相比于现存的机器翻译系统有非常大的提升。因此，根据人类盲测评分，微软机器翻译取得了至少和专业翻译人员相媲美的效果。微软亚洲与美国实验室的研究者称，其中英新闻机器翻译系统在常用的新闻报道测试集 newstest 2017 上达到了人类水平。该测试集由来自业界和学界的团队共同开发

05

【V课堂】R语言十八讲(十四)—几大检验

在统计分析中,我们会听到很多检验,有T检验,卡方检验,秩和检验,F检验,费舍尔检验等等,这么多检验,光听就要晕了,还怎么用啊?哪种检验什么时候能用什么时候不能用,能用的检验效果好不好,有什么优缺点

07

【统计、图形和样本量软件】上海道宁为您提高强大的统计分析、图形和样本量工具

NCSS成立于1981年，旨在为研究界提供统计软件。从那时起，成千上万的客户使用NCSS软件（NCSS和PASS）进行统计、图形和功率分析/样本大小的目的。

02

CNGBdb支撑发表科研成果速递 | Genomics：药物治疗前后包虫病患者血浆中棘球绦虫游离DNA多项特征发生明显变化

近日，西藏自治区疾病预防控制中心（国家卫生健康委包虫病防治研究重点实验室）与深圳华大生命科学研究院在国际知名学术期刊《基因组学》（Genomics）发表了题为“Characterizing dynamic changes of plasma cell-free Echinococcus granulosus DNA before and after cystic echinococcosis treatment initiation”的研究。该研究首次报道在阿苯达唑治疗前后，囊型包虫病患者血浆中都可分离到细粒棘球绦虫游离DNA（cell-free DNA, cfDNA），且治疗前后细粒棘球绦虫cfDNA多项特征发生明显变化。这也是继上一个三方合作项目（本研究团队和西藏自治区第二人民医院合作项目）后，将棘球绦虫cfDNA应用于包虫病诊断、治疗监测工作探究的新进展。

02

SIGIR 2018 | 大会最佳短论文：利用对抗学习的跨域正则化

近期学界有多个神经排序模型被提出，这些模型通过考虑原始查询-文档文本（query-document text）[14]、基于确切的查询词项匹配文档的模式 [5]，或结合二者 [10] 来估计文档与查询之间的相关性。这些模型通常通过在训练过程中观察大量相关和不相关的样本，来学习区分对应相关查询-文档对和相关性较低的查询-文档对的输入特征分布。与依赖人工制作特征的传统学习排序（LTR）模型不同，这些深度神经模型直接从数据中学习可用于目标任务的更高级别表征。它们从训练数据中学习特征的能力是一个强大的属性，使之有潜力发现手动制作特征没有捕获的新关系。

02

Wilcoxon秩和检验简介与MATLAB实现

Wilcoxon秩和检验(rank-sum test)，有时也叫Mann-Whitney U检验，是另一类非参数检验方法，它们不对数据分布作特殊假设，因而能适用于更复杂的数据分布情况。

04

PNAS：网络连接的中断预示着中风后多种行为障碍

中风后的行为障碍通常归因于局灶性损伤，但最近的证据表明，分布式脑网络破坏起着关键作用。来自华盛顿医学院研究人员在PNAS发文，他们招募了132名中风患者，测量静息态功能连接、病灶分布和多类行为表现（注意、视觉记忆、形象记忆、语言、运动和视觉），并使用机器学习模型来预测单个受试者的神经损伤。结果发现，FC能更好地预测视觉记忆和形象记忆，而病灶图能更好地预测视觉和运动损伤。两者都能很好地预测注意力和语言缺陷。接下来，研究者确定了生理网络功能障碍的一般模式，包括半球间整合和半球内连接的减少，这与多个领域的行为损伤密切相关。网络特异性的功能障碍模式预测了特定的行为障碍，而跨网络模块的大脑半球间沟通的丧失与跨多个行为领域的损伤相关。这些结果将大脑网络的关键组织特征与中风的大脑行为关系联系起来，阐明了脑结构与脑功能的补充价值，并为中风后多个行为领域障碍提供了生理机制。本文发表在PNAS杂志。

02

推荐系统遇上深度学习(九)--评价指标AUC原理及实践

CTR问题我们有两种角度去理解，一种是分类的角度，即将点击和未点击作为两种类别。另一种是回归的角度，将点击和未点击作为回归的值。不管是分类问题还是回归问题，一般在预估的时候都是得到一个[0,1]之间的概率值，代表点击的可能性的大小。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭