2023 年美国癌症研究协会 (AACR) 会议已在美国奥兰多完美落幕,本次会议主要聚焦于晚期实体瘤和非小细胞肺癌(NSCLC)的治疗研究,特别是 KRAS 突变引起的晚期实体瘤。药物类型则包括小分子药物、蛋白-药物偶联物(ADC)和 CAR-T 细胞等,其中,小分子药物以合成简单、给药方便等优势,依然占据抗肿瘤药物类型的半壁江山。
本周,美国一名联邦法官裁定,多年来,政府研究机构一直误解了一项要求它们收集和公布临床试验数据的法律,留下了10年的数据空白,这些数据现在必须公开。
「英文标题」 Immune recognition of somatic mutations leading to complete durable regression in metastatic breast cancer
list是R语言中包容性最强的数据对象,几乎可以容乃所有的其他数据类型。 但是包容性最强也也意味着他对于内部子对象的类型限制最少,甚至内部可以存在递归结构,这样给我们提取数据带来了很大的困难。 如果你对R语言的list结构非常熟悉,又熟练控制流等函数的操作,自然可以通过构建循环来完成目标数据的提取。但是在数据量大、结构及其复杂的情形下,自建循环无论是性能还是代码量上都很不经济。 好在确实有开发者在针对list数据结构进行操作上的优化,任坤老师的大作——rlist就是一个强大的list解析神器,它可以让我们像
如果我们想探索一下什么基因研究的最多,那就是检索pubmed数据库资源。在 NCBI的ftp里面关于人的一些基因信息 :
下图总结了主要程序包,希望读者在日常练习和工作中遇到不同格式的文件时,能够瞬间反应出读取该格式所需的包及对应的函数。(限于篇幅,本文未包含图中“平面文档格式”这部分的内容,如果你有兴趣,可以继续关注大数据后续文章。)
前面文章什么基因研究最多??中下载的gene与pubmed的文献ID的文件,统计了研究基因与出版文献的对应关系。这里来探索一下你研究的基因,发表的文献,可以看看都发表在什么期刊,对题目进行文本挖掘,可以统计每年的发表文献数量等等。。。。
最近几天推送频率之所以下降了,不是因为偷懒,是在攻克一个难题~ 还记得前一篇推送,关于山东省财政数据可视化那一篇,因为没有精准、最新的山东省县级市边界地图素材数据,花了好多冤枉功夫,搜地图素材各种碰壁,最后的得到的地图数据并不尽如人意。 现在shp的素材相比json整体都不太流行了,无论是制作成本上还是占用内存上以及与实际行政区划的更新速度上,json地图素材轻便、时效、易获取,很多网站都提供这种轻量级的数据文件。 可是json文件遵循的JS语法,导入R中之后,全部被强制转化为各种嵌套的list、data.
想研究肿瘤数据库,可不是只有TCGA、GEO能用。小编今天帮大家总结了一些没那么广为人知,但好用且仍在更新的癌症基因数据库。
用 R 的话也可以使用 getGEO(gse) 和 getGEOSuppFiles(gse)函数 ,
最近,国产电影《我不是药神》正在上映,这部根据真实性故事改编的电影,通过对病人群体的描写,引发了社会对于医疗问题的大讨论。作为一位长期关注临床健康问题的统计学家,数据侠 John Yap 希望用数据可视化的方式,帮助人们更好地认识疾病。这次,他把目光聚焦在了糖尿病问题上。
2022年4月5日,总部位于波士顿的Biolojic Design宣布,首个计算设计的人类抗体AU-007将进入临床。AU-007是由Biolojic Design计算设计的单克隆抗体,对IL-2的CD25结合部分具有高度选择性。
从广义上讲,meta分析是指试图将几项研究结果结合起来的统计分析。这一术语是由统计学家Gene V Glass在1976年向美国教育研究协会发表的演讲中创造的。从那时起,meta分析不仅成为医学的基本工具,而且在经济学,金融学,社会科学和工程学中也越来越受欢迎。负责制定循证医学标准的组织,如英国国家健康和护理卓越研究所(NICE),广泛使用meta分析。meta分析在医学中的应用目的是直观的,一般旨在测试相对于标准治疗的新疗法的功效,倾向于基于相对小的样品。(例如,目前在ClinicalTrials.gov上列出的最大的四项呼吸道疾病试验也仅仅有533名患者入组。所以使用“所有信息来源”来获得更准确的结果似乎“毫无疑问” 。但是,对于很多事情来说,细节决定成败。meta分析重建立严格搜索相关研究的系统评价标准非常关键。研究者必须努力避免“选择偏见”,“发表偏见”和其他困难。
数据处理在数据分析流程中的地位相信大家都有目共睹,也是每一个数据从业者面临的最为繁重的工作任务。 在实际应用场景下,虽然SQL(SQL类专业的etl语言)是数据处理的首选明星语言,性能佳、效率高、容易培养数据思维,但是SQL没法处理构建全流程的数据任务,之后仍然需要借助其他数据分析工具来对接更为深入的分析任务。 R语言作为专业的统计计算语言,数据处理是其一大特色功能,事实上每一个处理任务在R语言中都有着不止一套解决方案(这通常也是初学者在入门R语言时,感觉内容太多无从下手的原因),当然这些不同方案确实存在
现在rio包支持读取multi object的文件例如(Excel workbook, .Rdata file, zip directory, or HTML file)
数据的下载和之前的教程一样【14-TCGA数据库下载整理】。只不过这里选择的是STAR-Counts了。加入购物车后下载下面的文件。
R语言中,<- 与 = 这两个赋值运算符最主要的区别在于两者的作用域不同。大家可以从下面的例子感受一下。
5月15日,ACS Nano在线发表了挪威科技大学Sjoerd Hak团队的最新研究"Tumor Targeting by αvβ3-Integrin Specific Lipid Nanoparticles Occurs via Phagocyte Hitchhiking"。纳米粒子的体内行为十分复杂,免疫系统在其应用中的作用仍然难以捉摸。目前,只有被动靶向纳米制剂得到临床批准,而更复杂的主动靶向策略由于缺乏对体内靶向机制的了解通常无法从进入临床。纳米粒的实时靶向动力学和吞噬细胞对纳米粒主动靶向的贡献等动态体内现象仍未得到充分研究。为了更好地了解体内靶向,必须在时空分辨率的互补水平上监测纳米粒的蓄积和体内分布。在这里,作者将体内正电子发射断层扫描/计算机断层扫描(PET / CT)成像与活体显微镜检查(IVM)和流式细胞仪分析相结合,研究了肿瘤小鼠模型中αvβ3-整联蛋白的环状精氨酸-天门冬氨酸(cRGD)修饰的脂质体和水包油纳米乳剂的体内行为。作者观察到配体介导的纳米粒肿瘤蓄积有多方面的原因,并发现吞噬细胞可帮助“纳米粒搭便车”,从而大大促进了这一复杂的过程。这些发现将对纳米药物应用的修饰提供指导,并且提示可以利用免疫细胞-纳米粒相互作用来开发临床上可行的基于纳米药物的免疫疗法。
背景:下载某数据库的数据做数据分析,发现下载的数据结构是多层list嵌套,与平时遇到的数据表(data.frame)不同,并且第二层list的名称是本人需要的变量。
一般来讲,我们想要使用TCGA数据,大概有三种方法,一是直接从GDC官网或官方下载工具gdc-client下载文件后自行处理,二是使用数据库如UCSC Xena或Firehouse,三是使用TCGAbiolinks R包自动下载并处理。
https://hbctraining.github.io/Intro-to-R/lessons/04_introR-data-wrangling.html
有一些五六年前的学生们都成长为了各个生物信息学相关公司的小领导,而且他们都有了自己的公众号,知乎号,也算是一番人物。最近他们跟我反馈面试找不到或者说很难直接考核筛选到认真干活的生信工程师,挺有意思的。让我想起来了早在生信技能树论坛创立之初我为了引流,而规划的200个生信工程师面试题。值得继续分享:
最近,在科研狗网站看到了一个有趣的项目,使用R语言读取pubmed存入mysql数据库,之前报名没有报上,还是决心要跟着做一下,无奈R语言水平比较渣渣,只能复制别人的代码来用,悲剧的是,原代码复制过来还是报错,来一个小目标,把这段代码运行起来。花了两三天的功夫,终于实现了目标。
list是R中非常重要的一个基本数据结构,它可以任意嵌套其他的任意数据结构,所以很多数据结构的核心也是由list来完成的。
距离第一次听说生信已经十几年了,现在是邋遢大叔重新开始学代码,精力确实已不像从前,各位入坑还是要乘早。后来约莫在5年前,课题组当时有个RNA-Seq数据,lab meeting时听瑞典小哥在汇报DEGs筛选,当时感觉好是神奇。其实陆陆续续也有过学习的念头,但在对自己的各种纵容下,想法又逐渐隐没。直到2月前,机缘巧合参加了生信技能树培训,才进一步强化了自己学习生信技术的信念。
文章所有内容均来自生信技能树“生信马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。
其实那个需求很简单:https://www.ncbi.nlm.nih.gov/pubmed/24893932 文章里面也说的很清楚,如下:
利用Python进行数据分析-案例1-USA.gov数据 数据集特点及目标 文件中的数据为json格式,需要json包,将其转成相应的Python能够处理的数据形式 数据是关于URL和短链接的相关信息 统计的是每个用户的是否为Windows或者非Windows用户 涉及知识点 如何处理json数据和如何逐行读取数据 Python中列表解析式的应用 pandas中dropna、fillna、take等函数的使用 如何进行标准化 seaborn库的基本使用 代码实现 import pandas as pd im
https://github.com/lixi5338619/magical_spider
对未知病原体迅速作出反应,如新型冠状病毒,于制止导致流行病的疾病不受控制的传播至关重要,可将保护措施维持在造成尽可能少的社会和经济危害的水平。而以上,可通过显著加快药物发现的计算方法来实现。一个强有力的方法是,通过现有药物的再利用,来减少全新药物的研究,这可以大大加快通常漫长的审批过程。在这里,研究者展示了,一套目前用于识别COVID-19可重复使用药物的代表性计算方法及其基础数据资源。
这天,接到了生信技能树创始人jimmy老师的一个任务,要重复一篇CELL文章中的一个图示:
“读书会是一种在于拓展视野、宏观思维、知识交流、提升生活的活动。PPV课R语言读书会以“学习、分享、进步”为宗旨,通过成员协作完成R语言专业书籍的精读和分享,达到学习和研究R语言的目的。读书会由辅导老师或者读书会成员推荐书籍,经过讨论确定要读的书,每个月读一本书且要精读,大家一起分享。” 第二章 创建数据集 本章概要 1探索R数据结构 2使用数据编辑器 3数据导入 4数据集标注 本章所介绍内容概括如下。 两个方面的内容。 方面一:R数据结构 方面二:进入数据或者导入数据到数据结构 理解数据集 一个数据
2024年5月15日,致力于通过开发潜在的一流IL-2疗法革新癌症治疗的免疫肿瘤公司Aulos Bioscience宣布与默克的瑞士子公司Ares Trading S.A签署了一项新的合作与供应协议,在其领先的候选人类单克隆抗体AU-007的临床研究中使用Bavencio® (avelumab)。
Suzy Moat and Tobias Preis Data Science Lab, Behavioural Science, Warwick Business School, The University of Warwick http://www.wbs.ac.uk/about/person/suzy-moat/ http://www.wbs.ac.uk/about/person/tobias-p
本文介绍了基于R语言的SparkR和基于Python的Spark-Python两个大数据平台的交互方式。主要内容包括:1.基于R语言的SparkR,支持R语言的所有统计函数和绘图功能;2.基于Python的Spark-Python,支持Python的多种数据处理和机器学习库;3.通过SparkR和Spark-Python交互,实现大数据的交互式分析。
Windows下,如果安装出现问题,请查看依赖包是否完整。我安装时发现XML包可能需要单独安装。
STRING(https://www.string-db.org)是已知和预测的蛋白质-蛋白质相互作用的数据库。交互包括直接(物理)关联和间接(功能)关联。数据库包含来自众多来源的信息,包括实验资料库,计算预测方法和公共文本集。每次互动都与组合的置信度相关综合各种证据的分数。目前,涵盖了来自5090的超过24百万种蛋白质生物。STRING数据库可用于在基因列表中添加含义。STRINGdb R软件包,以方便用户访问STRING中的数据库。在本指南中,以示例说明了该软件包的大多数功能。此外,iGraph包作为代表蛋白质-蛋白质相互作用网络的数据结构。
数据类结构 数据类型 一维 vector 向量 数值、字符、逻辑都可;只有长度;只允许一种数据 二维 matrix 矩阵 向量二维化 只允许一种数据类型 二维 data.frame 数据框-二维,每列只允许一种数据类型 1.数据框来源 1)用代码新建 2)由已有数据转换或处理得到 3)读取表格文件 4)R语言内置数据 2.新建和读取数据框 df1 <- data.frame(gene = paste0("gene",1:4),change = rep(c("up","down"),each = 2),
TCGAanalyze_LevelTab()将差异表达基因在正常和肿瘤组织中的表达量数据添加到差异表达分析结果中的主要用法:
要使Name列中的每个字符串都变为小写,选择Name列(参见数据选择教程),添加str访问器并应用lower方法。因此,每个字符串都被逐个转换。
2023年1月10日,由端到端人工智能(AI)驱动的临床阶段生物科技公司英矽智能宣布,特发性肺纤维化(IPF)候选药物INS018_055在新西兰临床I期试验中取得积极顶线数据,在安全性、耐受性、药代动力学(PK)方面均表现良好。INS018_055是一款由英矽智能端到端人工智能平台发现的、潜在全球首创(First-in-class)用于治疗特发性肺纤维化的候选药物。
五月份的学徒专注于GEO数据库里面的表达量芯片数据处理,主要的难点是表达量矩阵获取和探针的基因名字转换,合理的分组后就是标准的差异分析,富集分析。主要是参考我八年前的笔记:
初级统计函数 max() ,min() , mean() , median() ,var()方差 , sd()标准差 , sum()总和, length(x) # 长度(x中元素的个数), unique(x) #去重复(第一次出现不为重复,第二次出现为重复),duplicated(x)#检查重复值 , table(x) 重复值(因子)统计 ,sort(x) #排序 , dim() 查看行列数, nrow()查看行数,ncol() 查看列数
最近赖江山老师发布了一个R包: 原创R包:rdaenvpart(层次分割获取RDA和CCA单解释变量的贡献) http://wap.sciencenet.cn/home.php?mod=space&
今天学习了一些关于 R 爬虫的知识,后续会陆续写一些笔记,当然对于爬虫有更好的一些工具来进行爬取数据,作为入门小白,我自己先从 R 语言尝试开始吧。
今天在使用连接操作时发现:虽然都是合并操作函数,dplyr 包里的 *_join() 和基础包里面的 merge() 存在差异,不同的数据结构,结果也会存在偏差。
each和times的区别是times输出的是abcdabcdabcd,each输出的是aaabbbcccddd
step1 对matrix进行转置:使gene名变为列名,将样本名转化为data.frame中的第一列
DataFrame DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量。 一. DataFrame数据流编程 二. 数据读取 readr/httr/DBI 1
领取专属 10元无门槛券
手把手带您无忧上云