专栏首页图形化开放式生信分析系统开发图形化开放式生信分析系统开发 - 2 样本信息处理
原创

图形化开放式生信分析系统开发 - 2 样本信息处理

基于生信生产系统分析的需求,在下图中可以看出样本信息在整个软件中的作用

样本数据在系统中的作用如下,是整个系统的基础数据之一

  1. 用于数据拆分(index信息)
  2. 启动分析流程时匹配(SampleNumber样本编号)输入文件
  3. 样本对应文件分析状态(SampleReport报告日期)
  4. 生成分析报告

下面来具体归纳一下样本信息在软件系统的作用并列出详细的数据字段:

1、用于标记分析运行状态的

序号

字段名称

数据类型

作用

1

样本编号SampleID、${sn}

字符

系统内唯一编号,用于区别样本,为了便于识别,默认为样本编号内容设计了一套编码规则(非强制) 以样本编号:B1908280744FF 为例:前缀:B代表分析流程的代号,显示该样本用于哪个项目,与 项目编号 字段联动数字:190828,表示该样本录入系统的日期为2019年8月28日数字:0744为样本流水号,自动增加后缀:FF 表示样本类型为FFPE还可以继续增加后缀内容,用于标记试验状态,如L01表示第一次建库D01表示该样本第一次提取 等等,可以根据实际需要自行定义。

2

项目编号SampleProject

字符

分析流程的编号,表示样本的分析项目

3

优先级别SamplePriority

整数

优先级别:数字1-**9,数字越大优先级别越高**

4

报告日期SampleReport

日期

样本项目分析完毕,获得分析报告的日期;如果该字段为空,表示尚未分析,如果非空表示样本已经经过分析。

5

拆分状态DemultiplexStatus

布尔

标记该样本测序仪下机数据是否已经完成拆分

2、分析报告上显示的信息,用于生物样本属性的数据

序号

字段名称

数据类型

作用

1

样本来源SampleSource

字符

记录样本的来源,医院、实验室、等

2

样本类型SampleType

字符

样本类型,为以下其中之一:**蜡块、血液、唾液、新鲜组织、冰冻组织、其它**

3

取样位置SamplePosi

字符

取样的位置:器官位置

4

取样方法SampleMethod

字符

取样方法:穿刺、抽血、口腔刮棒?

5

取样日期SampleCollect

日期

取样的日期

6

收样日期SampleReceive

日期

收到样本的日期

3、分析报告上显示的患者的信息,属于隐私内容,但是在报告上有需要显示的

序号

字段名称

数据 类型

作用

1

患者编号PatientNumber

字符

系统内唯一编号,用于区别患者,为了便于识别,默认为患者编号内容设计了一套编码规则(非强制) 以样本编号:1908280834为例:数字:190828,表示该样本录入系统的日期为2019年8月28日数字:0834为患者流水号,自动增加 另外,可以根据实际需要自行定义。

2

患者姓名PatientName

字符

患者姓名

3

患者性别PatientGender

字符

患者性别

4

患者年龄PatientAge

整数

患者年龄

5

诊断信息PatientDiag

字符

患者来源于其它渠道的诊断信息

6

临床信息PatientClinic

字符

患者来源于其它渠道的临床信息

4、用于和测序仪联动,生成SampleSheet文件,拆分数据

序号

字段名称

数据类型

作用

1

上机编号RunID、${runid}

字符

对应于Illumina RunID的前两个字段,用于识别下机数据目录

2

测序平台Instrument

字符

用于测序的平台,如:MiSeq,Miniseq/NextSeq

3

I7 Index IDI7_Index_ID

字符

I7 Index ID

4

Index序列Index

字符

I7 Index ID 实际碱基序列

5

I5 Index IDI5_Index_ID

字符

I5 Index ID

6

Index2 序列index2

字符

I5 Index ID 实际碱基序列

技术实现:

基于以上数据,设计录入表单如下

一个样本信息就有二十几个个字段。如果一个一个录入,可能不是很好的体验。可以从以下几点缓解这个问题:

  1. 设置必填项,可以看到经过筛选,必填项减少到5项。
  2. 提供默认值,比如样本编号,患者编号,可以默认提供计算好的默认值;需要选择的下拉框,将最常用的值设置为默认值也可以提高效率。

搜索输入,并提供联动的数据填充选项,如下图红色部分:

D、批量导入,使用固定的excel格式来实现批量导入数据:

按照以上设计,提升了使用体验,基本就完成了样本信息处理功能,为开发后续功能提供支撑。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 图形化开放式生信分析系统开发 - 5 生信分析流程服务器端运行

    在上文图形化开放式生信分析系统开发 - 4 生信分析流程的图形化设计 讨论了生信分析pipeline的图形化,如何用图形的方式显示生信pipeline,但是pi...

    SliverWorkspace
  • 图形化开放式生信分析系统开发 - 6 生信分析流程批量运行与过程控制

    在上文生信分析系统开发 - 5 生信分析流程服务器端运行 解决了设计好的流程在分析服务器上运行的问题,随之而来就衍生出的新需求:

    SliverWorkspace
  • 图形化开放式生信分析系统开发 - 8 软件稳定性测试

    前面文章讲述了更多的来自用户的需求分析,如何用技术方案解决用户需求、以及最终实现的效果,解决的是软件功能与特性的问题。

    SliverWorkspace
  • T检验的种类与区别

    我们前面讲过,T检验是用来比较两个均值之间是否有显著差异的一种检验方法。这一篇给大家介绍一下T检验的种类以及具体的Python实现代码。T检验是比较两个均值差异...

    张俊红
  • DBSCAN聚类算法详解

    Density-Based Spatial Clustering of Applications with Noise

    生信修炼手册
  • 【小白学AI】八种应对样本不均衡的策略

    分类(classification)问题是数据挖掘领域中非常重要的一类问题,目前有琳琅满目的方法来完成分类。然而在真实的应用环境中,分类器(classifier...

    机器学习炼丹术
  • 机器学习常用性能度量中的Accuracy、Precision、Recall、ROC、F score等都是些什么东西?

    为什么有了Accuracy还要提出Precision的概念呢?因为前者在测试样本集的正负样本数不均衡的时候,比如正样本数为1,负样本数为99时,模型只要每次都将...

    程序员一一涤生
  • 机器学习常用性能度量中的Precision、Recall、ROC、F score等都是些什么东西?

    为什么有了Accuracy还要提出Precision的概念呢?因为前者在测试样本集的正负样本数不均衡的时候,比如正样本数为1,负样本数为99时,模型只要每次都将...

    程序员一一涤生
  • 机器学习中样本比例不平衡的处理方法

    原创干货文章第一时间送达! 推荐阅读时间:5min~12min 主要内容:机器学习中样本比例不平衡的处理方法 在机器学习中,常常会遇到样本比例不平衡的问题,如对...

    企鹅号小编
  • 《spss统计分析与行业应用案例详解》:实例九 单一样本t检验

    spss的单一样本t检验过程是瑕设检验中最基本也是最常用的方法之一,跟所有的假没检验一样,其依剧的基木原理也是统计学中的‘小概率反证法”原理。通过单一样本t检验...

    统计学家

扫码关注云+社区

领取腾讯云代金券