怎样打开BED格式文件

怎样打开BED格式文件,第1张

BED 文件格式是一个可变方式的数据线,用来描述注释的数据。建议用plink转换为.map和.ped格式,其中ped文件中的数据就是想要的。用EditPlus打开即可。或者用excel可以打开。

BED线有3个要求的字段和9个额外的字段。每条线的字段数目必须是任意单条数据的在注释上一致。可选字段的序试结合低数字的字段必须流行如果高位字段被使用。

首先是三个要求的BED字段:

1.chrom, 染色体或scafflold 的名字(eg chr3, chrY, chr2_random, scaffold0671 ).

2.chromStart 染色体和scaffold的起始位置,第一个染色体的位置是0.

3.chromEn 染色体和scaffold的结束位置,染色体的末端位置没有包含到显示信息里面。例如,首先得100个碱基的染色体定义为chromStart =0 . chromEnd=100, 碱基的数目是0-99

9 个额外的可选BED 字段是:

1. name 定义BED 的名字

2. score 0到1000的分值,如果track线在注释时属性设置为1,那么这个分值会决定现示灰度水平,数字越大,灰度越高。下面的这个表格显示Genome Browser

3. strand 定义链的''+” 或者”-”

4. thickStart 开始的位置,这个特征是画thickly(例如,在开始的编码显示基因的显示

5. thickEnd 结束的位置,这个特征是画thickly例如,在结束的编码显示基因的显示 

6. itemRGB An AGB 值的形式, R, G, B (eg. 255, 0, 0), 如果track line itemRgb属性是设置为'On”, 这个RBG 值将决定数据的显示的颜色在BED 线。注意,它推荐简单的颜色方案(eight color or less )是用作这个属性避免颜色资源在基因组浏览器上过多

7. blockCount BED线在exon 的block数目

8. blockSize 用逗号分割block size, 这个item的列表对应于BlockCount

9. blockStarts- 用逗号分割的列表, 所有的blockStart位置应该被计算相关于chromStart, 这个数字的项应该对应于blockCount

将可以拼接的片段经过重叠拼接后形成contigs,若干的contigs根据另外的酶切信息或其他可以作为“路标”的标记信息而拼接,可以形成各个contig在染色体上的线性排列或是相对位置关系,这样的排列就形成了scaffold. 换言之,scaffold是众多的contig拼接结果。

输入文件有:物种基因组序列文件、物种基因组注释文件、转录本比对后的BAM文件;

以斑胸草雀为例:

-基因组注释文件: GCF_003957565.2_bTaeGut1.4.pri_genomic.gtf

-基因组序列文件: GCF_003957565.2_bTaeGut1.4.pri_genomic.fna

-转录本比对文件: myBAMfile.bam

文件内容一览:

samtools view myBAMfile.bam | less -S 查看BAM文件内容

如果要查看所有转录本的比对情况基本是不现实的(一般上百G),受限于电脑性能无法加载这么大的bam文件,所以查看reads的比对情况一般通过提取出map到基因组的其中一个Scaffold的所有reads的bam文件。

示例从BAM文件提取斑胸草雀转录本比对到Scaffold NC_007897.1 的所有reads

打开IGV浏览器,首先载入基因组文件,点击Genomes选择加载本地基因组,导入GCF_003957565.2_bTaeGut1.4.pri_genomic.fna文件

然后选择File点击Load from file选择加载本地gtf文件,导入GCF_003957565.2_bTaeGut1.4.pri_genomic.gtf

加载BAM文件


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/8145236.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-13
下一篇 2023-04-13

发表评论

登录后才能评论

评论列表(0条)

保存