发布日期:2026-05-25 02:02 点击次数:132
之前咱们磋商了Bulk RNA-seq的价值和学习老本(第1期. 快2024年了网上银河娱乐集团老板是谁,还有必要学习Bulk RNA-seq?),并一齐零基础完成了主因素分析(PCA)图(第2期. 零基础画PCA图)。今天咱们穿插一个在转录组测序中常用的常识点与妙技:不同基因ID的退换。本文将从3个方面共享:有哪些常见的基因ID类型、为什么要进行基因ID退换、若何进行基因ID退换?
图片
一、有哪些常见的基因ID类型
皇冠一直以来博彩市场佼佼者,全球范围内享有盛誉。不仅仅是因为提供丰富多样赌博游戏,一直坚持公平公正经营理念,深受玩家信任喜爱。一个具体的基因不错对应多个名字,比如东谈主内皮细胞的maker是CD31,你可能不知谈它同期是PECAM1、5175、ENSG00000261371。每个定名齐对应这一个定名体系,那么上头的名字分裂对应什么定名体系呢?1. CD31和PECAM1:二者齐属于gene symbol,它们属于归拢个基因,这就如同咱们同期有大名和奶名。gene symbol是由东谈主类基因定名委员会(Human Gene Nomenclature Committee, HGNC)指定的基因象征符。
皇冠足球源码2. 5175:属于Gene ID定名,又称为Entrez ID,这里的Entrez,实质上和咱们庸碌提到的“NCBI数据库”是指一个东西,只不外NCBI是一个组织(好意思国国度生物时候信息中心),而Entrez是一个生信检索引擎。
3. ENSG00000261371:属于Ensemble ID定名,是欧洲生物信息数据库的基因象征符。Ensemble ID由4个字母和一串数字构成,字母ENSG代表基因,字母ENST代表转录本。总的来说,Ensemble ID的定名法例是:ENS[物种象征][分子特征][唯一无二的11位数字]。
其中,分子特征对应的编号如下:
皇冠球盘源码图片
公共不错去NCBI数据库(大要说去Entrez)搜索一下,先干与https://www.ncbi.nlm.nih.gov/,遴荐Gene数据库,输入CD31。图片
不错看到不同物种的CD31基因的信息,不错点击第一滑(human的信息)。图片
不错同期看到gene symbol、Gene ID/Entrez ID、Ensemble ID。
图片
皇冠客服飞机:@seo3687二、为什么要进行基因ID退换
做博彩网站代理赚钱吗不同的定名有着各自的适用场景,比如1. Gene symbol:包括两种,其中基因亚名如CD31不错让非生信东谈主员快速辩认出这个基因,而淡雅的gene symbol如PECAM1则不错作念基因ID退换和富集分析,以及多个数据集的整合分析。
皇冠hg86a
2. Gene ID或Entrez ID:进行富集分析如GO,KEGG和GSEA。
3. Ensemble ID:时常是为了给一个分子提供一个唯一无二的ID,在推论中,基本上是将Ensemble ID调动为其他ID,很少将其他ID调动为 Ensemble ID。
三、若何进行基因ID退换
关于单个的基因,咱们不错通过第一部分共享的CD31的例子在NCBI内部检索;可是关于一串基因(如1000个),则需要借助网页器具(如DAVID的ID Conversion Tool,https://david.ncifcrf.gov/conversion.jsp)和R谈话来达成。今天咱们主要共享基于R谈话的基因ID批量退换的达成。咱们将分裂展示基于2种R包的退换本领。clusterProfiler 包
代码如下:
210.16..117.101皇冠1.R包的下载及装配
BiocManager::install("clusterProfiler") #莫得下载的,需要先下载library(clusterProfiler) 2.读取数据data <- read.csv("./Bulk_RNA_seq_Practice_1.csv",header = T,row.names = 1)图片
3.索求gene列数据
genes <- row.names(data)
图片
卡梅伦在社交平台“X”(原推特)上表示,英国正面临着俄乌冲突、中东危机等“一系列严峻的国际挑战”,支持盟国和加强伙伴关系将是他作为外交大臣的首要任务。
4. 基因ID退换(用到bitr函数)
ids <- bitr (genes, fromType = 'SYMBOL', toType = c('ENTREZID','ENSEMBL'), OrgDb = 'org.Hs.eg.db')图片
图片
综上,基于clusterProfiler包的基因ID调动本领为:#1.R包的下载及装配(莫得下载的,需要先下载)BiocManager::install("clusterProfiler") #莫得下载的,需要先下载library (org.Hs.eg.db) #2.读取数据data <- read.csv("./Bulk_RNA_seq_Practice_1.csv",header = T,row.names = 1)#3.索求gene列数据genes <- row.names(data)#4. 基因ID退换ids <- bitr (genes, fromType = 'SYMBOL', toType = c('ENTREZID','ENSEMBL'), OrgDb = 'org.Hs.eg.db')BiomaRt 包
1.R包的下载及装配#BiocManager::install("biomaRt")library("biomaRt")2.读取数据
data <- read.csv("./Bulk_RNA_seq_Practice_1.csv",header = T,row.names = 1)图片
3.索求gene列数据
genes <- row.names(data)
图片
4. 基因ID退换
4.1 先加载念念要的数据库(biomart)和数据集(dataset):先listMarts(),后useMart()
www.royalwinnerszonehomehub.com(1)若何细目选哪个数据库(biomart)?
listMarts()图片
安全澳门博彩业站gdpBiomart现在提供了4种数据库,咱们将数据库biomart 给与为ENSEMBL_MART_ENSEMBL,且现在对应的版块为Ensembl Genes 110。细目了数据库(以过头版块)之后,还需要细目该数据库中的数据集。(2)若何细目选哪个数据集(dataset)?tmp_mart <- useMart(biomart = "ENSEMBL_MART_ENSEMBL",version = "Ensembl Genes 110")listDatasets(tmp_mart)
图片
ENSEMBL_MART_ENSEMBL数据库中提供了214个物种,咱们用的演示数据着手于东谈主,是以给与为hsapiens_gene_ensembl。4.2 左证给与的数据库(biomart)和数据集(dataset),构建用于退换的数据集: useMart
my_mart <- useMart(biomart = "ENSEMBL_MART_ENSEMBL", dataset = "hsapiens_gene_ensembl")
4.3 基于前边构建的数据集和需要退换的基因ID,达成不同基因ID的退换
皇冠体育gene_id_info<- getBM(attributes=c("ensembl_gene_id","entrezgene_id","hgnc_symbol"), filters = "hgnc_symbol", #取决于咱们演示数据 values = genes, #前期提前索求好 mart= my_mart) #构建的数据库 综上,基于biomaRt包的基因ID调动本领为:#1.R包的下载及装配(莫得下载的,需要先下载)#BiocManager::install("biomaRt")library("biomaRt")#2.读取数据data <- read.csv("./Bulk_RNA_seq_Practice_1.csv",header = T,row.names = 1)#3.索求gene列数据genes <- row.names(data)#4. 基因ID退换my_mart <- useMart(biomart = "ENSEMBL_MART_ENSEMBL", dataset = "hsapiens_gene_ensembl")gene_id_info<- getBM(attributes=c("ensembl_gene_id","entrezgene_id","hgnc_symbol"), filters = "hgnc_symbol", #取决于咱们演示数据 values = genes, #前期提前索求好 mart= my_mart) #构建的数据库
本站仅提供存储管事,悉数内容均由用户发布,如发现存害或侵权内容,请点击举报。
