一般都采用摇瓶法。以正辛醇为油相,以你要测药物比较易溶的溶剂为水相,也可以用水。先相互饱和24小时。完了将药物溶解在饱和好的正辛醇中,与一定体积的水相混合,体积比是任意选择的。振荡72小时。分别测药物在正辛醇和水肿的含量。利用浓度比来求LOGP。
随着数据采集和测试技术的进步,科学家拥有大量数据,但这仍然不能满足所有数据需要,于是共享数据就成为人们的要求。由于Internet的普及,借助网络来实现数据共享成为一种现实可行的方法。
预处理
试验中必须使用分析纯的正辛醇和蒸馏水 (或 重蒸馏水 ,不能使用直接从离子交换器 中得到的去离子水)。 试验前 ,正辛醇与水需经预饱和处理 ,即在试验温度下 ,采 用两个大储液瓶 ,分别装入正辛醇与足量 的水 ,水与足量 的正辛醇 ,置于恒温振荡器 中振摇 24h后 ,静 置足够长 的时间使两相完全分离 ,以分别得到水饱和的正辛醇 、正辛醇饱和水 。
GEO数据挖掘或转录组分析 差异表达 基因时,结果中会出现 Log2FC ,p值和 FDR 值,这三个值是生信技能树 生信爆款入门课程 geo数据挖掘差异基因筛选提到的重点。这些个值是什么意思呢?为拓展课堂所学知识,现在对他们做下总结。
差异倍数(fold change),fold change翻译过来就是倍数变化。limma接受的输入参数就是一个表达矩阵,而且是log后的表达矩阵(以2为底)。
logFC这一列的值,其实就是输入的表达矩阵中case一组的平均表达量减去control一组的平均表达量的值,那么就会有正负之分,代表了case相当于control组来说,该基因是上调还是下调。
假设A基因表达值为1,B表达值为3,那么B的表达就是A的3倍。一般我们都用count、TPM或FPKM来衡量基因表达水平,所以基因表达值肯定是非负数,那么fold change的取值就是(0, +∞)。
为什么我们经常看到差异基因里负数代表下调、正数代表上调?因为我们用了log2 fold change。
当expr(A) <expr(B)时,B对A的fold change就大于1,log2 fold change就大于0(见下图),B相对A就是上调;
当expr(A) >expr(B)时,B对A的fold change就小于1,log2 fold change就小于0。通常为了防止取log2时产生NA,我们会给表达值加1(或者一个极小的数),也就是log2(B+1) - log2(A+1)。
假设A表达为1,B表达为8,C表达为64;直接用差B相对A就上调了7,C就相对B上调了56;用log2 fold change,B相对A就上调了3,C相对B也只上调了3. 通过测序观察我们发现,不同基因在细胞里的表达差异非常巨大,所以直接用差显然不合适,用log2 fold change更能表示相对的变化趋势。
log2FC中的FC即 fold change,表示两样品(组)间表达量的比值,对其取以2为底的对数之后即为log2FC。一般默认取log2FC绝对值大于1为差异基因的筛选标准;
据多数文献报道 有取1得 , 1/2/1.5 也都有。这个没有规定,你想多少都可以,也要结合自己的数据,如果取1.5你找不到差异基因就不找了把数据扔了吗。
可以,这个标准由自己定,在神经系统方面,微小的变化都会产生效应。另外自己注意看看芯片数据是不是有批次效应,如果不去除批次效应,计算差异gene可能存在问题。另外, 甲基化信号值的差异分析也许不应该是看logFC ,也要注意哦。
值是在统计学的范畴假设检验首先必须要有假设,我们假设A和B的表达没有差异(H0,零假设),然后基于此假设,通过t test(以RT-PCR为例)算出我们观测到的A和B出现的概率,就得到了P-value,如果P-value<0.05,那么说明小概率事件出现了,我们应该拒绝零假设,即A和B的表达不一样,即有显著差异。
logFC 就是倍数变化取对数(也有说不是对数就是倍数的,但大多数人都按对数来的),-logP.val 就是 p 值取对数然后加负号。因为 p 值一般都很小,所以一般取对数做图。然后又因为一般 p <1 所以取对数都是负值,我们为了作图方便所以加个负号。举例,p = 0.01 取 -logP 之后变成 2 、p = 0.001 变成 3。你看这就很好做图啊。
显著性只能说明我们的数据之间具有统计学上的显著性,要看上调下调必须回去看差异倍数。
即False Discovery Rate错误发现率,是通过对差异显著性p值(p-value)进行校正得到的。由于转录组测序的差异表达分析是对大量的基因表达值进行独立的统计假设检验,会存在假阳性问题,因此在进行差异表达分析过程中,采用了公认的Benjamini-Hochberg校正方法对原有假设检验得到的显著性p值(p-value)进行校正,并最终采用FDR作为差异表达基因筛选的关键指标。一般取FDR<0.01或者0.05作为默认标准。
这两个指标的选取一般是按照经验值去筛选的,并非完全不可以调整。在实验差异基因数目过低或者过高,可以对指标进行微调。
实际上经常看到的差异表达火山图(如下图)里的几条虚线就是这两个指标的体现。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)