专栏首页大数据文摘结合优选算法 利用可视化进行高级数据分析的五个步骤

结合优选算法 利用可视化进行高级数据分析的五个步骤

大数据文摘作品,转载具体要求见文末

作者|Carl Johan Ivarsson(Qlucore公司)

选文|寒小阳 翻译|吴蕾 校对|任杰

【导语】在大多数科学研究中,大量的实验数据的统计分析工作通常由计算和统计方面的技术专家完成。 遗憾的是,这些专家不是相应领域研究的专家,这可能导致分析中的缺陷。 如果,研究人员本人能够轻松使用工具和方法来处理和分析数据,那么肯定会获得丰富研究成果。

问题

许多科学家都面临着共同的挑战,特别是那些分子生物学领域科学家,他们的实验产生了大量的数据。对于如此海量的数据,人们需要软件工具来有效地解释其数据。

如今,面临日益增长的大数据,计算机软件仍大多侧重于数据处理,通过面向技术专家的用户界面,以标准的统计方法来呈现数据结果。 因此,科学家/研究者很难深入解释这些数据,大量的数据分析工作只能由专业的生物信息学家和生物统计学家来执行。 然而,这个模式并不尽如人意,因为通常情况下,科学家才是最了解该研究领域的人。

解决方案

结合优选算法,可视化方法可以在某种程度上应对这些挑战,并可使更多使用者去探索和分析数据。可视化技术,给大家提供了一种快速识别重要结构和模式的积极有效的方法,而且反馈信息也很易于理解。 从团体化的视角来看,这也是一种很重要的方法,因为它使更多的科学家能够分析和讨论实验数据和结果,进而推动创新。

当使用可视化来识别数据中新的子组数据和模式时,我们建议使用五步法来确保可重复的显著的结果。 此分析步骤的是出于多方面的考虑, 最基本的意图是尝试在数据中识别全新的组或模式, 另一方面是为了探索数据,并且仅检测预期的模式,这是一种质量控制的好办法。 通过应用这个五步法,科学家就可以研究大量复杂的数据集,而不必成为统计专家。 该方法在下面更详细地描述,但是一些基本概念需在此交代清楚, 它可应用于任何类型的生命科学行业数据,可以是高维度数据和样本数据,例如 RNA-seq,基因表达阵列,蛋白质组学,DNA甲基化,代谢组学等等。

第一步:降低数据维度

首先,高维数据需要被降阶到较低的维度,使得其可以进行3D绘制。 为此,我们建议使用主成分分析(Principal Component Analysis, PCA)的方法。另外,还需要用数据染色工具来增强信息,并用过滤器等工具来筛选数据集的部分。

在五步法的起始阶段,研究人员会对活动数据集中存在的最强信号进行检测和去除。 一旦识别了该信号就可以去除它,以便查看是否存在其他模糊但仍然可辨认的信号。移除一个强信号,通常会导致活动样本和或变量(特征)的减少。

第二步:评估信噪比

该过程的第二步是通过使用PCA、投影分数和随机化来评估数据中的信噪比。 投影分数会显示检测的信号或模板的视觉强度。

第三步:方差滤波去除噪声

第三步是通过方差滤波去除“噪声”。 如果研究人员可以在其活动数据集中看到显著的信噪比,那么他们应该尝试去除一些最可能贡献噪声的活跃变量。 为了识别所需的方差过滤量,用户可以使用由PCA可视化和投影得分的方法来获得方差过滤量。 通过测试多个不同的方差设置,可以更容易找到清晰的模式。

第四步:统计测试

第四步,统计测试是可选的执行步骤,可以应用于五步过程的任何/所有其他阶段,也就是说,可以在初始分析期间执行,或者当某个步骤重复的时候执行,或者在步骤结束时执行,或者不做也可以。 被测数据组可以是预定义的,或者是在迭代过程中确定下来的。 (建议对第二个数据集去验证发现的数据结构和数组)

第五步:搜索子组或群集

最后一步,使用图形来细化子组或群集的搜索。 例如,在网络或图形中连接样本,使其可以搬升至更高的维度(即,大于三个维度,可以用3D PCA图来表示),因为在样本图中创建的图形是基于所有活动变量的空间距离,所以它可以使用户对数据结构有更深入的了解。

重复这五个步骤,直到无法再找出新的数据结构。

就此方法来操作,可视化可以作为研究人员的强大工具。数据能够以清晰的方式可视化,科学家可以轻松识别那些有趣和/或重要的结果,而不必依赖于专业的生物信息学家和生物统计学家。 相反,科学家可以与生物信息学家合作,去收获更有意义的成果。

文章源自:http://www.qlucore.com

本文分享自微信公众号 - 大数据文摘(BigDataDigest),作者:大数据文摘

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-11-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • CRA简报:计算研究与数据科学的新兴领域

    大数据文摘
  • TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据

    大数据文摘
  • 对话东航数据实验室王学武:打造爆款速胜产品,为数据找到立足之地

    大数据文摘
  • 睿码科技执行董事王海婷:大数据在治理雾霾方面有很多事可做

    数据猿导读 国内的研究机构认为,2018年我国大数据市场规模将超过 1500 亿元,但是目前大数据与环保相结合的还是少数。本文中,睿码科技执行董事王海婷将给大家...

    数据猿
  • 亚马逊阿里 搭建数据化运营系统秘籍

    随着互联网时代的发展,企业发现过去他们所做的粗狂式运营已经不能有效的提升效率和增加企业用户了,所以,一些企业开始找寻新的运营方式,比如逐渐转变为CPM(每千人...

    灯塔大数据
  • 通过4部美剧教你看懂大数据

    美剧你爱追么?这些美剧你看过么?这些美剧和大数据有联系你知道么? 什么?你不知道?学统计的怎么能不知道?难道一直做题目不枯燥么?有空看看这些吧,在娱乐中学习,...

    小莹莹
  • 【干货】江青:大数据与领导决策

    [主讲者简介]国家统计局中国统计信息服务中心大数据研究室江青主任。 本文选自2015年8月26日在“2015中国国际大数据大会主题论坛”上江青所做的题为《大数据...

    数据派THU
  • 91科技集团董事长许泽玮:5G时代下,大数据将是技术红利释放的第一高地丨金猿人物展

    本文由许泽玮撰写并投递数据猿参与评选,更多关于【金猿榜/奖·2019征集评选】的相关信息,请点击这里了解详情丨征案例、征文章、征产品=评企业、评人物、评产品。

    数据猿
  • 小白也能快速入门的4步数据驱动运营法!

    在这个数据驱动运营的时代,数据不仅是数据工程师和分析师的事情,在工作中也要求运营从业者有一定的数据分析能力,更有人说“数据分析能力是未来运营的分水岭”。从我自身...

    1480
  • CRA简报:计算研究与数据科学的新兴领域

    大数据文摘

扫码关注云+社区

领取腾讯云代金券