如果是要初步的筛选,最好用至少3个数据库进行预测,然后取共有的target gene进行下一步的验证,常用的数据库有targetscan,RNA22,mirbase,PITA,microcosom等等
全转录组的数据分析我们一直没有分享过笔记,因为确实也没有这方面直接项目机会,仅仅是跟公众号粉丝交流过一些小问题。全转录组不是全长转录组,全转录组说的是检测普通mRNA,加上 lncRNA,miRNA,CircRNA这样的3种常规 非编码基因,而全长转录组说的是测序的时候采取三代测序等技术这样可以把基因的转录产物的全部长度的碱基一次性测序到,这样很方便知道不同可变剪切转录本的区别。
那,为什么我们很少涉及到全转录组的数据分析,主要是因为它有 lncRNA,miRNA,CircRNA这样的3种常规 非编码基因,而众所周知,非编码基因的名声比较差,都知道很重要,但是它的重要性又不是直接证据,也没有系统性的go和kegg等生物学数据库的整理,所以大家研究它和交流它的时候通常是一个符号而已。
但无论是普通mRNA,还是 lncRNA,miRNA,CircRNA这样的3种常规 非编码基因,它们最后都是会得到表达量矩阵,其实就是常规差异分析啦,相关流程的公众号推文在:
解读GEO数据存放规律及下载,一文就够
解读SRA数据库规律一文就够
从GEO数据库下载得到表达矩阵 一文就够
GSEA分析一文就够(单机版+R语言版)
根据分组信息做差异分析- 这个一文不够的
如果是普通mRNA可以直接去映射到go和kegg等生物学数据库,如果是非编码基因需要先定位到它的靶基因,然后去给靶基因进行go和kegg等生物学数据库注释。
全转录组的测序
比如NPJ Breast Cancer 2021 Dec 的文章:《Plasma extracellular vesicle long RNA profiles in the diagnosis and prediction of treatment response for breast cancer 》,是两个队列的全转录组的测序:
队列1:纳入患者172例,包括乳腺癌患者112例、乳腺良性疾病患者19例和健康对照组41例。(肿瘤诊断模型)
队列2:纳入接受新辅助治疗的患者58例,pCR(病理完全缓解)组24例,non-pCR组34例。(疗效预测模型)
其转录组测序在 >
以上就是关于如何查看geo数据库上既有表达谱数据又有mirna全部的内容,包括:如何查看geo数据库上既有表达谱数据又有mirna、全长转录组测序技术算不算生物信息学、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)