基因家族分析4 || 多序列比对和进化树分析_安全

====================================================================================================================================

a聚类分析。如亚家族分类。像MAPKKK基因家族通过进化树可以清楚分为MEKK,Raf和ZIK三个亚家族。
b亲缘关系鉴定。在进化树上位于同一支的往往暗示这亲缘关系很近。
c基因家族复制分析。研究基因家族复制事件（duplication events）：两种复制事件类型（tandem duplication and segmental dulication）

phyML
Mrbayes

文件准备：
从MEGA导出的nwk树文件，上传到iTOL，修改option
color ranges（基因背景色）
Datssets—color strip （即外围条带）

4)FigTree v143 >你先不用着急，好好看看相关文献！
这好这几天我也在做聚类分析，所谓聚类分析就是根据遗传距离或相似系数把遗
传距离小的或相似系数大的样品聚为一类，然后应用可生成树状图以便观
察。
如还不明白可继续提问。

gzh：BBio，欢迎关注

scanpy软件由Theis Lab实验室开发，和Seurat相同都是常用的单细胞数据分析工具。scanpy以anndata数据结构存储的单细胞基因表达数据，包括预处理、可视化、聚类、轨迹推断和差异基因鉴定等功能。基于python实现可以有效处理超过100万个细胞的数据集的强大功能。

以10X官网的3k pbmc数据为例，学习一下scanpy。

>宏基因组是指特定环境中全部生物（微生物）遗传物质的总和。宏基因组测序是利用高通量测序技术对环境样品中全部微生物的基因组进行测定，以获得单个样品的饱和数据量，可进行微生物群体的基因组成及功能注释，微生物群体的物种分类，多样性分析，群落结构分析，样品间的物种或基因差异以及物种间的代谢网络研究，探索微生物与环境及宿主之间的关系，发掘和研究新的具有特定功能的基因等。与传统方法相比，基于高通量测序的宏基因组研究无需构建克隆文库，这避免了文库构建过程中利用宿主菌对样品进行克隆而引起的系统偏差，简化了实验 *** 作，提高了测序效率。此外，宏基因组测序研究摆脱了微生物分离纯培养的限制，扩展了微生物资源的利用空间，为环境微生物群落的研究提供了有效工具。通过宏基因组深度测序可以揭示或估计环境中真实的物种多样性和遗传多样性，挖掘具有应用价值的基因资源，应用于开发新的微生物活性物质，为研究和开发新的微生物活性物质提供有力支持。技术流程生物信息分析1原始数据整理、过滤及质量评估2基于物种丰度分析：物种丰度列表稀释曲线3基于物种丰度分析：丰度分布曲线图生物多样性指数（α多样性）列表物种丰度差异性分析列表多样品物种分布柱图丰度差异物种聚类分析PCA图Krona图4基因丰度列表：提取基因分级注释丰度列表（KO、NOG、subsystem）功能基因列表生成venn图基因丰度差异性分析列表丰度差异基因聚类分析富集分析（KO）样品要求1、样品采集：样品采集条件的一致是最为重要的环节，严格按照采样标准采样，采样后立即封存样品冷冻保存。2、样品DNA：环境因素异常复杂，许多物质或抑制因子影响后续PCR、测序文库构建和序列测定，常规提取方法不一定适合，建议采用专用试剂盒提取。DNA浓度≥20ng/μl，总量≥6μg（荧光定量），并确保电泳检测无明显RNA条带，基因组条带清晰、完整；基因组DNA完全无降解；提供DNA电泳检测照片，用自封袋密封后随样品一起送样；组织样品﹥15g。3、样品保存期间切忌反复冻融。4、送样管务必标清样品编号，管口使用Parafilm膜密封。

基因表达水平分析

一个基因表达水平的直接体现就是其转录本的丰度情况，转录本丰度越高，则基因表达水平越高。在RNA-seq分析中，我们可以通过定位到基因组区域或基因外显子区的测序序列(reads)的计数来估计基因的表达水平。Reads计数除了与基因的真实表达水平成正比外，还与基因的长度和测序深度成正相关。为了使不同基因、不同实验间估计的基因表达水平具有可比性，人们引入了FPKM的概念，FPKM(expected number of Fragments Per Kilobase of transcript sequence per Millions base pairssequenced)是每百万fragments中来自某一基因每千碱基长度的fragments数目，其同时考虑了测序深度和基因长度对fragments计数的影响，是目前最为常用的基因表达水平估算方法(Trapnell, Cole, et al, 2010)。

差异表达分析

通过所有基因的FPKM分布图以及盒形图对不同实验条件下的基因表达水平进行比较。对于同一实验条件下的重复样品，最终的FPKM为所有重复数据的平均值。

基因差异表达的输入数据为基因表达水平分析中得到的readcount数据。对于有生物学重复的样品，我们采用DESeq（Anders et al, 2010）进行分析：

该分析方法基于的模型是负二项分布，第 i 个基因在第 j 个样本中的 read count 值为Kij，则有Kij ～ NB(µij,σij2)

对于无生物学重复的样品，先采用TMM对read count数据进行标准化处理，之后用DEGseq进行差异分析。差异表达基因列表如下：

用火山图可以推断差异基因的整体分布情况，对于无生物学重复的实验，为消除生物学变异，从差异倍数和显著水平两个方面进行评估，对差异基因进行筛选，

阈值设定一般为: |log2(FoldChange)| > 1 且 qvalue < 0005。对于有生物学重复的实验，由于DESeq已经进行了生物学变异的消除，我们对差异基因筛选的标准一般为:
padj < 005。

差异基因维恩图

差异基因维恩图展示了各比较组间差异基因的个数，以及比较组间的重叠关系。

差异基因聚类分析

聚类分析用于判断差异基因在不同实验条件下的表达模式；通过将表达模式相同或相近的基因聚集成类，从而识别未知基因的功能或已知基因的未知功能；因为这些同类的基因可能具有相似的功能，或是共同参与同一代谢过程或细胞通路。以不同实验条件下的差异基因的FPKM值为表达水平，做层次聚类(hierarchical clustering)分析，不同颜色的区域代表不同的聚类分组信息，同组内的基因表达模式相近，可能具有相似的功能或参与相同的生物学过程。

原文：基因表达水平及差异表达分析

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/yw/12820324.html

基因家族分析4 || 多序列比对和进化树分析

发表评论

评论列表（0条）