前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Oh my god,机器学习原来可以这么简单

Oh my god,机器学习原来可以这么简单

原创
作者头像
挑圈联靠
修改2020-04-28 10:12:48
4590
修改2020-04-28 10:12:48
举报

大家好,我是风间琉璃,今天给大家分享一些关于机器学习的理论知识。

我想大家对机器学习这个词肯定不陌生,特别是最近这段时间,好像特别热。在生信领域和临床研究都有很多高分的文章不断涌出,那我就给大家简单的介绍一下机器学习的内容。

机器学习的作用,机器学习用来干什么呢?

小伙伴们肯定觉得,机器学习的应用领域特别广,比如图像识别、无监督学习啊什么等等。其实机器学习主要应用包含两大类:1.classification——分类;2.prediction——预测。

即根据我们选定的变量(variables)对结局变量进行分类或者预测,前者得出来的结果就是P值,后者得出来的就是value。举一个简单的例子,这个套路其实经常看到哈。比如我现在想研究胃癌,但是胃癌好像很多东西都研究到了,多组学啊、免疫浸润啊等等,但是我从classification的角度能不能有一个好的idea呢?其实是可以的,比如我们首先从GEO下载胃癌数据,对有无胃癌做基因的差异分析,然后结合免疫浸润或者甲基化等等进一步筛选出一部分基因,然后进行功能聚类,并且也可以再做做WGCNA,再筛选出hub基因。

接下来这部分基因呢?

我们可以用比较简单也比较常见的机器学习分类方法的K-means或者PAM,对GEO的胃癌样本进行亚组分型,根据分类结果将胃癌患者进行高危和低危的分类,然后我们对比两组之间的预后,使用KM或者COX看看是否存在明显相关对吧。这时候我们再去TCGA数据库进行验证对吧。这样一篇文章的大概思路差不多就完成了。

结合最近酸菜大大提出的挑圈联靠这个理论,这样个思路可以分为:

挑:找出差异基因,联合甲基化或者免疫浸润。

圈:功能聚类GO/KEGG,WGCNA。

联:不好意思啊,这个例子没有涉及哈哈哈,不过也可以加上。

靠:GEO的KM曲线、Cox分析,TCGA的再验证。

那么机器学习起什么作用呢?

在这个例子中将胃癌组进一步分亚型,从另外一个新的角度挖掘TCGA和GEO的预后数据宝库是不是很妙啊。这也是机器学习的classification的体现。

介绍完机器学习的主要应用后,我们要知道机器学习的本质是什么?

其实就是构建模型,就行一个魔术箱。我们先所选定的变量——放到箱子里(建模)——得到结果。我们现在有了变量,那么核心是不是就是建模啊。

这里我就要岔开再讲一讲为什么机器学习很热了,因为机器学习和logistic、线性回归相比,本身的优越性在于对于非线性关系进行建模。我们知道无论是logistic和回归分析其实本质都是线性相关,计算的也就是OLS最小,所以具有明确的局限。

但是机器学习能够对非线性关系进行拟合。在临床上非线性关系很常见,所以才会有这么对paradox,比如肥胖悖论,胖的人心血管风险高,太瘦了好像研究表明也不好。所以对于logistic回归或者Cox回归来说无法解决这个问题,而机器学习则可以解决这个问题。

好,回到第二点,我们建模的方式有哪些呢?其实建模的方式就是我们经常听到的方法,比如randomforest(随机森林)、supportvector machine(支持向量机)、neuralnetwork、XGboosting还有我们上面提到的K-means、PAM等等。

建模的目的是什么呢?

我们构建模型之后,是不是看到很多文章都要分trainingdata和validatedata,为什么呢?其实目的就在于要调整模型的稳定性,我们构建模型是拿来用的,对于构建的模型要权衡它在不同数据集中是否都适用,那么就需要validationdata(验证集)进行验证,这里涉及一个概念叫做variance-bias tradeoff,因为这个解释起来很多内容,有兴趣的小伙伴可以自在网上查一查。

那么现在我们知道机器学习的大概内容,还有一点我要提醒看完上面内容特别兴奋的小伙伴。机器学习说白了就是统计,对于统计方法,最大的局限就在于,统计不能解释逻辑上的因果性,机器学习只能证明变量之间的相关性,最多证明统计学上的因果性。所以在逻辑层面上,机器学习,天生就比实验低一头。

所以我们学习机器学习,一定要记住不要依靠这个技术来发文章而是要靠思路、idea来发文章,机器学习就是解决问题的手段。但是呢,举一个例子,机器学习就像是女孩子的化妆对吧,有一句是“世界上没有丑女人,只有懒女人。”所以,有机器学习肯定比没有好,而且能为你的文章增色不少!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档