国际著名的三大蛋白质数据库

国际著名的三大蛋白质数据库,第1张

国际著名的三大蛋白质数据库有UniProt数据库、The Human Protein Atlas数据库、PhosphoSitePlus数据库。

1、UniProt数据库

蛋白组学常用数据库UniProt(全称UniProt Protein Resource),建立于1986年,由Swiss-Protein、TrEMBL、PIR-PSD三大蛋白质数据库联合成立的,其信息量丰富、资源广泛,是目前公认的首选免费蛋白质数据库。

2、The Human Protein Atlas数据库

The Human Protein Atlas内含近30000种人类蛋白质的组织和细胞分布信息,并提供免费查询。

瑞典Knut&Alice Wallenberg基金会利用免疫组化技术,检查每一种蛋白质在人类48种正常组织,20种肿瘤组织,47个细胞系和12种血液细胞内的分布和表达,其结果用至少576张免疫组化染色图表示,并经专业人员校对和标引,保证染色结果具有充分的代表性。

3、PhosphoSitePlus数据库

PhosphoSitePlus数据库是一个由CST和NIH联合开发的免费资源数据库,总结归纳了海量通过科学研究发现的蛋白修饰位点,包括磷酸化、甲基化、乙酰化、泛素化等,并且包括一些CST公司发现但未发表的蛋白修饰位点。

该数据库是动态的、开放的、高度互动并持续更新的。它有助于研究PTMs在正常和病理细胞/组织中的作用,同时它也是发现新的疾病标志物和药物靶点的有力工具。

性能及历史

蛋白质数据库(HPDB),建于2005年5月,动态展示生物大分子立体结构,鼠标点击放大分子结构、原子定位、测定原子之间距离,可用于教学或科研。服务对象是能够熟练使用中文的生命科学、医学、药学、农学、林学等领域的大中专学生、教师及科技工作者。

分子结构特征描述采用汉语,同时提供英文原文以供考证。对于善于使用英文的读者,我们提倡直接访问RCSB PDB,一来可以减少网络拥挤,二来可以减少由于HPDB的翻译不妥带来的不便。

蛋白质数据库(HPDB)对每个蛋白质分子结构说明部分做了中文翻译(最新加入数据库的分子除外),内容包括分子结构定性描述、样品的来源、表达载体、宿主、化学分析方法、分子结构组成成分等。这些信息并同蛋白质分子结构数据存储于数据库,因此HPDB支持中文查询。

蛋白质数据库(HPDB)虽然翻译了“分子结构说明”部分,但为了保证数据的可靠性和准确性,HPDB对一级结构序列及大分子结构坐标数据等未做任何改动,数据库保持RCSB PDB核实后的原始实验数据文件,并保持PDB文件格式和蛋白质分子编号。

T-cell repertoire analysis and metrics of diversity and clonality - ScienceDirect

注:但是实际上不只这些技术

Quantifiable predictive features define epitope-specific T cell receptor repertoires | Nature

10X单细胞(10X空间转录组)TCR数据分析之TCRdist(3) - (jianshu.com)

10X单细胞(10X空间转录组)TCR数据分析之TCRdist(2) - (jianshu.com)

本质就是生成一个指令表

Biophysicochemical Motifs in T-cell Receptor Sequences Distinguish Repertoires from Tumor-Infiltrating Lymphocyte and Adjacent Healthy Tissue | Cancer Research (aacrjournals.org)

注:怎么说呢,其实多样性测量这东西都是各个领域互相抄,拿过来用的,最初都是发源于信息论老祖宗香农这里(因为他开创了给信息做度量的方法),然后生态学发现信息论可以描述物种丰富变化的信息,进而进一步发扬,然后人们发现生态的话,微环境的生态不也是生态吗?也就拿到了微生物组学上,同样,细胞的生态和TCR不也是生态吗?只要是一群东西混在一起都算生态,所以也就用到了单细胞和TCR上(也就是想要深入了解单细胞技术的算法,除了看论文之外,其实离不开要翻翻数量生态学这些以前的课本)

注:涉及到信息不确定性的东西一般都会把信息论巨佬香农拉出来

其中 pi 是序列指令表中序列 i 的频率,n 是唯一序列的总数。通过对多样性指数进行参数化,可以计算免疫指标多样性的不同特征。

1阶多样性:香农熵

α1阶多样性:Gini-Simpson

Peripheral T cell receptor diversity is associated with clinical outcomes following ipilimumab treatment in metastatic melanoma | Journal for ImmunoTherapy of Cancer | Full Text (biomedcentral.com)

2.Sorensen 指数(索伦森指数)

CCLE(Cancer Cell Line Encyclopedia),是由Broad Institute 研究所牵头的一项肿瘤基因组学研究项目,涵盖了三十多种组织来源上千种细胞系基因表达情况、突变、拷贝数、甲基化等,是研究肿瘤的利器。

二话不说,先上网址,赶紧注册使用吧。

网址: https://portals.broadinstitute.org/ccle/

首页很简洁,首先我们点击“About”,我们可以看到CCLE数据的基本信息,目前涵盖细胞系为1457,基因84434,特异性数据集136488,突变数据集1159663,分布信息集118661636,甲基化信息集411948577。点击“Open”,可以看到这1457个细胞系的占比。

点击空白处,可以SAVE图标,则可以加载如下页面,我们还可以通过该页面绘制表格。

点击柱形图中对应注释,则可以在饼图里取消该类,如我要取消NA,点击右侧NA的白色方框,则饼图中NA则去除了。

今天就对CCLE数据简单介绍下,接下来我们将会介绍如何利用CCLE绘制基因表达谱,咱们下次GO On。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/9947752.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-03
下一篇 2023-05-03

发表评论

登录后才能评论

评论列表(0条)

保存