第6篇：重复样本的处理——IDR_教程

ATAC-seq/ChIP-Seq中重复样本的处理

ATAC-Seq要求必须有2次或更多次生物学重复（十分珍贵或者稀有样本除外，但必须做至少2次技术重复）。理论上重复样本的peaks应该有高度的一致性，实际情况并不完全与预期一致。如何评价重复样本的重复性的好坏？如何得到一致性的peaks?

1. 用Bedtools进行简单的overlap合并重复样本

2. 用IDR（Irreproducibility Discovery Rate）的方法获得高重复性的peaks

如何得到两和槐散个重复样本间一致性的peaks? 一种简单粗暴的方法就是用 bedtools 计算peaks的overlaps。

用法： bedtools intersect [OPTIONS] -a <bed/gff/vcf/bam>-b <bed/gff/vcf/bam>

其他常用参数解释和图解如下：

评估重复样本间peaks一致性的另一种方法是IDR。IDR是通过比较一对经过排序的regions/peaks 的列表，然后计算反映其重复性的值。

IDR在 ENCODE 和modENCODE项目中被广泛使用，也是 ChIP-seq指南和标准中的一部分。

使用IDR的注意事项：

--samples :narrowPeak的输入文件（重复样本）

--input-file-type ：输入文件格式包括narrowPeak,broadPeak,bed

--rank p.value ：以p-value排序

--output-file : 输出文件路径

--plot ：输出IDR度量值的结果

输出文件解读：

详细内容可参考： https://github.com/nboley/idr#output-file-format

（1）sample-idr

sample-idr是common peaks的结果输出文件，格式与输入文件格式类似，只是多了几列信息。前10列是标准的narrowPeak格式文件，包含重复样本整合后的peaks信息。

其他列信息如下：

wc -l *-idr 计算下common peaks的个数，接着可再计算下与总peaks的比率。

如果想看IDR<0.05的，可以通过第5列信息过滤：

awk '{if($5 >= 540) print $0}' sample-idr | wc -l

（2）sample-idr.log

log文件会给出peaks通过IDR <0.05的比率，如下图所示

左上： Rep1 peak ranks vs Rep2 peak ranks, 没有通过特定IDR阈值的peaks显示为红色明纤。

右上：Rep1 log10 peak scores vs Rep2 log10 peak scores，没有通过特定IDR阈值的peaks显示为红色。

下面两个图： Peak rank vs IDR scores，箱线图展示了IDR值的分布，默认唤氏情况下，IDR值的阈值为-1E-6。

哈佛深度NGS数据分析课程

06-Handling replicates in ChIP-Seq

peaks.narrowPeak的文件结果

每一列的含义是：

1；染色体号

2：peak起始位点

3：peak结束位点

4：peak的name

脊磨 5：score 表示峰值在浏览器中显示的暗度（0-1000）。如果在将数据提交给DCC时所有得分均为“0”，则DCC基衫粗于信号值分配1-1000。理想情况下，每个碱基扩散的平均信号值在100-1000之间。

6 ：strand 用+/- 表示链或者方向。如果是“.”则代表没有指定方向。

7：signalValue 测量该地区的总体（通常是平均）浓缩度。

或野镇 8：pValue - 统计显着性的测量（-log10）。如果未分配pValue，请使用-1。

9：qValue - 使用错误发现率（-log10）测量统计显着性。如果未分配qValue，请使用-1。

10：峰值 - 点源要求此峰值从chromStart开始的基于0的偏移量。如果没有调用点源，请使用-1。

欢迎分享，转载请注明来源：内存溢出

第6篇：重复样本的处理——IDR