关于gtex数据怎样筛选。
1、通常我们在挖掘TCGA数据库的时候,会发现该项目纳入的正常组织测序结果是非常少的,也就是说很多病人都不会有他的正常组织的转录组测序结果,比如说乳腺癌吧,1200个左右的转录组数据,其中1100左右都是肿瘤组织的测序数据,只有区区100个左右的正常对照。
2、这个时候我们就需要想办法加大正常组织测序样本量,既然TCGA数据库没有,我们就从其他数据库着手。这里值得大力推荐的是GTEx数据库,Genotype-TissueExpression(GTEx)。
找剪切因子,简单而言就是,一个基因从DNA-mRNA的过程当中,由于剪切位点的不同,会形成不同的mRNA剪切变异体。对于可变剪切模式,之前的介绍TCGA SpliceSeq数据库的时候提到了数据库当中包含的其中7种可变剪切模式。具体的可见之前的帖子: TCGA Spliceseq
在这个数据库当中提到的属于经典的可变剪接模式。随着二代测序的技术的使用,也会发现一些额外的剪切模式。比如这次我们要提到的外显子内含子剪切(exitrons(exonic introns) splicing, EIS)。既然二代测序技术可以发现EIS。那么就可以使用TCGA数据库来寻找肿瘤当中的EIS。因此也就可以对肿瘤挡着的EIS事件进行全面的分析。剪接因子是参与RNA前体剪接过程的蛋白质因子。根据其功能作用,可以分为核小核糖核蛋白颗粒(snRNP)蛋白因子和非snRNP蛋白因子。
你这个问题好大,生物信息学包含的内容太多,主要看你需要做哪些分析,是想学习分析,还是只是需要发表论文,如果学习,那是一个系统的学习,推荐学习两门语言,R语言和PERL语言,学习两个数据库,GEO和TCGA,这两个数据库是现在的主流,需要掌握的。学习资源可以取生信自学wang和丁香园,都可以学到不少东西。如果是写论文,可以直接找生信分析的人,把分析好的数据和给你,你就可以写论文了,当然找人家做一般都是有偿的。
学习语言:Rperl程序两大数据库GEO芯片数据库
TCGA癌症数据库,包括癌症的临床信息,表达信息,甲基化,SNP,数据量大,全面
以上就是关于gtex数据怎样筛选全部的内容,包括:gtex数据怎样筛选、怎么找剪切因子、第一次做生物信息学,求助等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)