DNA甲基化测序数据处理(一):数据比对

DNA甲基化测序数据处理(一):数据比对,第1张

因为组里面出了一批甲基化测序数据,使用的技术为BS-seq,处理的时候顺带记录了学习过程,演示使用数据为官方提供的example.fastq。

DNA甲基化作为基因组上的表观修饰(区别于组蛋白修饰),存在于各种生物中。

虽然CpG序列出现的频率并不高,但是在某些基因区域内,CpG的密度很高,俗称CpG岛。这些CpG岛大多出现在基因的启动子区域(人类占到70%),长度达300-3000bp。目前的研究表明,大多数的管家基因都含有CpG岛,位于基因的5'端(其中的大多数CpG岛都是未甲基化的)。

另外需要注意的是,目前的研究表明, 肿瘤样本 与正常样本的CpG岛甲基化差异大多不是发生CpG岛的内部而是位于 CpG岛岸(CpG island shore)

由于CpG位点的易甲基化导致胞嘧啶脱氨变成胸腺嘧啶,所以在漫长的进化过程中,CpG位点逐渐消失,但是又存在着对于基因表达的调控要求,所以CpG岛的出现也被理解为抵抗甲基化经常很,维持调控功能。

此处略过,请自行了解(示例文件为WGBS单端测序文件)。

Bismark官网

需要用户已经装好bowtie1/bowtie2

此处使用测试数据 test.fastq

(from SRR020138, Lister et al., 2009trimmed to 50 bpbase call qualities are Sanger encoded Phred values (Phred33)).

--cytosine_report 参数会根据当前目录下的信息文件生成一个HTML格式的报告文件,即 test_data_bismark_bt2_SE_report.html 文件,它包括了比对信息,甲基化信息,M-bias等,可以对数据有一个大概的认知(下图只展示了一部分):

同时因为使用了 --comprehensive ,所以结果合并正反链的数据后会输出CpG/CHG/CHH三种类型的甲基化文件,包含了胞嘧啶所有的组合形式,但实际上我们自然最关注的是CpG位点的甲基化。其中

CpG_context_test_data_bismark_bt2.deduplicated.txt 即CpG甲基化位点的文件。

test_data_bismark_bt2.deduplicated.bismark.cov 文件则给了每个位点的甲基化比例,为下一步确定CpG岛提供了基础,其数据形式如下:

test_data_bismark_bt2.deduplicated.CpG_report.txt.CpG_report.txt 文件则是背景信息:

此处根据测序数据得到了甲基化位点的信息,但是后续DML以及DMR的确定还需要R包的使用,以及后续的可视化还以探索以下包:

(1)在DNA分子中,两股DNA链围绕一假想的共同轴心形成一右手螺旋结构,双螺旋的螺距为3.4nm,直径为2.0nm (2)链的骨架(backbone)由交替出现的、亲水的脱氧核糖基和磷酸基构成,位于双螺旋的外侧。 (3)碱基位于双螺旋的内侧,两股链中的嘌呤和嘧啶碱基以其疏水的、近于平面的环形结构彼此密切相近,平面与双螺旋的长轴相垂直。一股链中的嘌呤碱基与另一股链中位于同一平面的嘧啶碱基之间以氢链相连,称为碱基互补配对或碱基配对(base pairing),碱基对层间的距离为0.34nm。碱基互补配对总是出现于腺嘌呤与胸腺嘧啶之间(A=T),形成两个氢键;或者出现于鸟嘌呤与胞嘧啶之间(G=C),形成三个氢键。 (4)DNA双螺旋中的两股链走向是反平行的,一股链是5′→3′走向,另一股链是3′→5′走向。两股链之间在空间上形成一条大沟(major groove)和一条小沟(minor groove),这是蛋白质识别DNA的碱基序列,与其发生相互作用的基础。 DNA双螺旋的稳定由互补碱基对之间的氢键和碱基对层间的堆积力(base?stacking force)维系。DNA双螺旋中两股链中碱基互补的特点,逻辑地预示了DNA复制过程是先将DNA分子中的两股链分离开,然后以每一股链为模板(亲本),通过碱基互补原则合成相应的互补链(复本),形成两个完全相同的DNA分子。因为复制得到的每对链中只有一条是亲链,即保留了一半亲链,将这种复制方式称为DNA的半保留复制(semi?conservative replication)。后来证明,半保留复制是生物体遗传信息传递的最基本方式。 DNA双螺旋是核酸二级结构的重要形式。双螺旋结构理论支配了近代核酸结构功能的研究和发展,是生命科学发展史上的杰出贡献。本文来自: 医学生网(www.yixuesheng.com) 详细出处参考:http://www.yixuesheng.com/jichu/swhxfz/201001/25974.html维持DNA双螺旋结构稳定性的因素主要是上下层碱基对之间堆砌力和链间互补碱基之间的氢键。在双螺旋结构中碱基堆砌构成疏水性核心,而亲水性带负电荷的糖-磷酸基团处于外部,使双螺旋更加稳固;而氢键不仅是一种稳定双螺旋的力量,同时也为选择正确碱基配对提供了分辨能力


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/7398877.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-05
下一篇 2023-04-05

发表评论

登录后才能评论

评论列表(0条)

保存