众所周知,肿瘤外显子是TCGA计划的6大数据之一,而TCGA数据库是目前最综合最全面的癌症病人相关组学数据库,包括:
知名的肿瘤研究机构都有着自己的TCGA数据库探索工具,比如:
我们也针对TCGA数据库写了大量的笔记,包括:
也就是说,任意癌症,很容易在TCGA数据库下载到其肿瘤外显子队列的somatic突变信息,包括SNV和CNV,这样的话,除非大家感兴趣的疾病并不在TCGA数据库里面,或者说具有其它特殊性(比如人种),否则都不建议继续设计这样的简单的课题了。
而且肿瘤外显子价格也不便宜,数据分析也对绝大部分初学者来说不友好。在全新服务器配置肿瘤外显子数据处理环境。流程步骤:
如果仅仅是为了得到队列的somatic突变信息,包括SNV和CNV,如果是样品数量太少了, 很难得到可以讲故事的点,课题就搁浅了。。。。
比如新加坡团队的2023发表的鼻咽癌文章:《Clinical efficacy and biomarker analysis of dual PD-1/CTLA-4 blockade in recurrent/ metastatic EBV-associated nasopharyngeal carcinoma》,就是有一个肿瘤外显子队列,样品数量很少:
因为早期已经是有了七八个鼻咽癌的肿瘤外显子队列文章,这样的话,他们的这个数据分析得到的结论基本上没有什么新颖之处:
也就是说,仅仅是看了看somatic突变信息里面的SNV,这些分析我们五年前就都系统性梳理过:
其实回答这个问题并没有意义,样品数量当然是越多越好,但是绝大部分情况下都需要考虑经济情况,没有经费没有病人样品,说什么都没有用。
哪怕是队列纳入的样品数量再小,也是可以得到队列的somatic突变信息,包括SNV和CNV,绘制突变全景图,看突变特征频谱等等。
较小的样本规模可能在特定情况下满足研究需求,但较大的样本规模通常可以提供更全面和可靠的结果。同时,样本数量的选择也要考虑实验设计的合理性,例如是否包含对照组和实验组、是否涵盖不同的肿瘤类型和临床分期等。最终的决定应该根据具体研究问题和实验条件进行权衡。对于肿瘤外显子测序研究,样品数量的选择需要综合考虑以下几个因素: