前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >“聚沙成塔”——用大数据思维理解生命的复杂体系,数据之眼看显微镜下的复杂生命【数据故事计划二等奖】

“聚沙成塔”——用大数据思维理解生命的复杂体系,数据之眼看显微镜下的复杂生命【数据故事计划二等奖】

作者头像
数据派THU
发布2019-06-18 11:29:21
6810
发布2019-06-18 11:29:21
举报
文章被收录于专栏:数据派THU数据派THU

摘要:细听学长学姐讲故事,或许在他们的路上也有你的身影!

【第一届数据故事计划】

“数据故事计划”旨在收集各类有关大数据的故事然后进行比赛及相关的宣传和推广。包括同学们接触大数据、使用大数据、最终取得成果的过程,主要内容为大数据在各类行业的应用以及个人感悟。希望以此活动使得更多同学认识大数据,学会利用大数据解决问题,最终实现向“数据ers”的转变。

人物介绍

赵瀚森,本数据故事团队队长,喜欢用计算和模拟的角度考虑科学问题的博士生。虽然还在科研的道路上艰苦磨砺,但已经开始从思考和尝试中体会到了探索的乐趣。希望能通过检测数据和模拟计算帮助人们理解和预测复杂的生命现象。

故事介绍

1. “不务正业”的理学生

本科阶段的我就是一个有些特别的学生。由于有高中化学竞赛的底子,所以在专业课学习上比较轻松。因此,很多的业余时间都被我投入到了各种不同的活动和兴趣爱好中。当时最为痴迷的事情莫过于游戏开发了。游戏开发最吸引我的地方在于它绝佳的自由度,只要你的技术足够好,就能在计算机里面创造和分享你心目中的世界。因此,游戏开发不仅仅是我的一项爱好,也将成为我与世界交流的桥梁。为了做好游戏开发,我学过很多技术,包括建模/动画,视频/音频剪辑等等,但最终最吸引我的还是编程,理由同样是编码极高的自由度。

大三暑假我接受清华大学化学系学堂班的资助,赴美国普渡大学程继新组交流。这成为我学习生涯的重要转折点。程继新组在光学仪器搭建,受激拉曼光谱及分子生物学研究等领域具有很高的水平。

美丽的普渡大学

我参与了其中原位环境单细菌的检测分析的项目。彼时项目面临的主要问题是单个细菌在原生环境(如食物)中背景过大。实验室主攻数据处理方面的Liao实现了相位检索算法,成功的消除了背景干扰(W. Hong. ChemistrySelect,2016)。当时的我非常崇拜这位大神,也对编码进行数据分析产生了浓厚的兴趣。

2. 一场美妙的纳米之旅

读研究生的第一年,我并没有找到自身兴趣与研究工作的契合点。常常感到迷茫和无助,甚至产生了厌学的情绪,做工作非常没有干劲。在导师张四纯老师的介绍下,我接触到了合作课题组何彦老师实验室的纳米颗粒动态行为分析的项目。何彦老师课题组在暗场光学成像,纳米粒子合成与表征,活性物质研究等方面有很深厚的积淀,在看到何老师实验室数据的瞬间,我就觉得非常感兴趣。

何老师课题组面临的问题是纳米粒子在复杂环境(如细胞膜表面)运动时,其轨迹可以作为局部环境与纳米粒子相互作用的一种表征。但传统的分析方法仅仅把纳米粒子的运动行为简单的分为定向,随机和受限三种状态,且轨迹中不同区域的划分依赖实验人员的直觉,缺乏可重复性和可靠性。如何更有效的进行纳米粒子运动轨迹的划分呢?更进一步的,如何更准确的表征纳米粒子在整个运动过程中的状态变化呢?

当时我们读到Science杂志上的一篇关于非线性时序分析的文章,其中的算法通过时间延迟的操作将单变量时序映射到高维空间,并根据高维空间中点的最近邻距离判断不同变量时序的非线性相关性(Sugihara, G. 2012)。受此启发,我们认为点运动的历史向量也等同于高维空间的点,代表了粒子运动的状态,同时又不包含人为定义的模型约束,最大程度的保留了数据本来的信息。既然将粒子运动状态转换为了高维空间中的点,自然就可以用无监督的方法对其相似度进行表征。再将这种相似度映射回原来的轨迹,就可以不依赖模型的对纳米粒子的轨迹进行差异性的分析。我们因此开发了名为SEES的轨迹前处理方法,在实验数据集上取得了良好的效果,帮助我们获得了更精细的动力学信息(H. Zhao. bioRxiv, 2019)。

在经历了何彦老师实验室项目的训练后,我的研究思路大大开阔,看到了更多数据思维与分析化学结合的机遇。恰逢我所在的张新荣课题组正在依托高效的质谱平台以及自主开发的离子源开展单细胞分型的项目。我开始结合聚类以及机器视觉的方法对单细胞的质谱代谢组学数据以及单细胞显微成像数据进行分析,取得了良好的结果。初步建立起较为完整的数据分析流程,自主以及协同实验室的小伙伴发表了多项工作。

3. 整体+:数据驱动的系统重构

在经历越来越多的科研训练以及数据科学院,大数据能力提升项目的学习以后,我开始尝试从更高一层的角度思考数据思维与科学哲学的关系。近年来,随着大数据话题的火热,“数据科学”的概念也开始受到人们的关注。数据分析究竟对基础科学的研究具有什么样的意义,不同的人可能有不同的理解。我相信,数据科学在提供必要的数据建模/可视化方法的工具以外,也启发着研究人员改变自身的研究思路和研究路径。数据除了作为模型构建以及模型正确性的验证依据以外,更可能成为模型本身,也即,数据即为模型。这一点在复杂体系研究中可能尤为重要。

复杂体系是指包含了大量具有弱相互作用的个体,在一个开放体系中,动态自组织的涌现出系统性行为的体系。在Warren Weaver发表于1948年的评论文章中,这样的体系被定义为Organized Complexity。实际上,这样的体系在我们的生活中举目皆是,从城市的人群,到每个人身体内的细胞,都在动态涌现着系统性的现象(如道路堵塞,癌变等)。

理想的简单体系只是复杂体系汪洋中的孤岛

理解这样的系统,如果用传统方式建立模型将面临着大量需要调整的参数(如代谢通路建模中酶促反应平衡常数),而参数过多的模型将失去约束,产生任意的结果(用四个参数就可以画一头大象,American Journal of Physics, 2010)。但数据科学的方法有望在检测大量系统个体,获取真实实验数据的基础上重构整个体系的演化过程,即在计算机中模拟出整个复杂体系,从而进行状态的判断和预测。实验数据本身构建了模型,又提供了模型的约束。这种从个体检测出发,再用数据方法从大量个体的数据中重构出来的整体,将比早先受技术限制而观察的粗略整体更能够帮助我们认识复杂体系。这就是我目前的一些认识和思考。

从整体到“整体+”

个人感受

最后,我相信我会在未来会继续在基础科研中磨砺自己,在实验技能和科学思维上不断提高和进步。数据分析不仅提高了我工作的能力和兴趣,也为我带来了更为宽广的视野。欢迎不同领域的人与我和我所在的课题组合作,欢迎喜欢数据的同学加入张新荣老师课题组,与我一起享受数据分析的快乐,探索科学的奥秘。

更多数据故事,敬请期待~也欢迎各位读者分享你与大数据的故事!

编辑:文婧

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档