ATAC-seq/ChIP-Seq中重复样本的处理
ATAC-Seq要求必须有2次或更多次生物学重复(十分珍贵或者稀有样本除外,但必须做至少2次技术重复)。理论上重复样本的peaks应该有高度的一致性,实际情况并不完全与预期一致。如何评价重复样本的重复性的好坏?如何得到一致性的peaks?
1. 用Bedtools进行简单的overlap合并重复样本
2. 用IDR(Irreproducibility Discovery Rate)的方法获得高重复性的peaks
如何得到两和槐散个重复样本间一致性的peaks? 一种简单粗暴的方法就是用 bedtools 计算peaks的overlaps。
用法: bedtools intersect [OPTIONS] -a <bed/gff/vcf/bam>-b <bed/gff/vcf/bam>
其他常用参数解释和图解如下:
评估重复样本间peaks一致性的另一种方法是IDR。IDR是通过比较一对经过排序的regions/peaks 的列表,然后计算反映其重复性的值。
IDR在 ENCODE 和modENCODE项目中被广泛使用,也是 ChIP-seq指南和标准 中的一部分。
使用IDR的注意事项:
--samples :narrowPeak的输入文件(重复样本)
--input-file-type :输入文件格式包括narrowPeak,broadPeak,bed
--rank p.value :以p-value排序
--output-file : 输出文件路径
--plot :输出IDR度量值的结果
输出文件解读:
详细内容可参考: https://github.com/nboley/idr#output-file-format
(1)sample-idr
sample-idr是common peaks的结果输出文件,格式与输入文件格式类似,只是多了几列信息。前10列是标准的narrowPeak格式文件,包含重复样本整合后的peaks信息。
其他列信息如下:
wc -l *-idr 计算下common peaks的个数,接着可再计算下与总peaks的比率。
如果想看IDR<0.05的,可以通过第5列信息过滤:
awk '{if($5 >= 540) print $0}' sample-idr | wc -l
(2)sample-idr.log
log文件会给出peaks通过IDR <0.05的比率,如下图所示
左上: Rep1 peak ranks vs Rep2 peak ranks, 没有通过特定IDR阈值的peaks显示为红色明纤。
右上:Rep1 log10 peak scores vs Rep2 log10 peak scores,没有通过特定IDR阈值的peaks显示为红色。
下面两个图: Peak rank vs IDR scores,箱线图展示了IDR值的分布,默认唤氏情况下,IDR值的阈值为-1E-6。
哈佛深度NGS数据分析课程
06-Handling replicates in ChIP-Seq
peaks.narrowPeak的文件结果
每一列的含义是:
1;染色体号
2:peak起始位点
3:peak结束位点
4:peak的name
脊磨 5:score 表示峰值在浏览器中显示的暗度(0-1000)。如果在将数据提交给DCC时所有得分均为“0”,则DCC基衫粗于信号值分配1-1000。理想情况下,每个碱基扩散的平均信号值在100-1000之间。
6 :strand 用+/- 表示链或者方向。如果是“.”则代表没有指定方向。
7:signalValue 测量该地区的总体(通常是平均)浓缩度。
或野镇 8:pValue - 统计显着性的测量(-log10)。如果未分配pValue,请使用-1。
9:qValue - 使用错误发现率(-log10)测量统计显着性。如果未分配qValue,请使用-1。
10:峰值 - 点源要求此峰值从chromStart开始的基于0的偏移量。如果 没有调用点源,请使用-1。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)