首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ensemble号批量转换成基因名,用这一招完美解决

我们在做数据挖掘的时候,有时候遇到的数据,提供的基因名是ensemble号,人的话是ENSG开头,比如ENSG00000141736,而我们写文章的时候是不想用这串冷冰冰的数字的,因为不能直观的让人知道这到底是何物。

如果我们最后只得到这一个基因,那么随便找一个数据库就可以搜,比如在ncbi里面把这串数字输入进去,就可以得到基因名。我们想要的是基因的缩写,比如ERBB2,瞄一眼就知道是“酪氨酸激酶受体2”。

但是,很多情况下,我们需要的是批量检索几十个甚至上百个ENSG号,这时候我们可以从ensemble的官网去下载注释列表用于检索。

这一步经常需要加载一会,如果是人的,我们选择human genes,

选择完之后页面会自动刷新,左边点击Attributes,在左边选择你最终生成的表格所需的信息,这里有很多信息,我们需要的是Gene stable ID(即Ensemble号)以及Gene name(即基因的缩写),如果需要其他信息,一并选上就行。

选完之后点results,出现如下画面,给了前十行的示意图,点击Go即可下载表格。

下载的文件默认叫做“mart_export.txt”,可以用excel打开,这个就是我们要的ensemble号和基因缩写的对照表了。

从表格种粘贴一些ensemble号到右边区域,作为示例,现在我们要用VLOOKUP函数需寻找这些基因的缩写。

这里有四个参数需要设置,

第一个参数是选需要寻找的基因,注意只选择第一个;

第二个参数选择要去搜索的对照表,两列全选就行;

第三个参数是需要输出的列数,这里是第二列(注意这里的2的所选参照表里的第二列,而不一定是excel里面的第2列);

第四个参数是模糊匹配还是精确匹配,我们当然要精确的,填个0就行了,然后点确定, 得到结果

下面的基因直接下拉就行!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200309A0EJZX00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券