BED格式文件有3个基本列和9个可选的附加列
基本列
第一列:chrom,染色体号;
第二列:chromStart,在染色体上的起始位置,从0开始计数;
第三列:ChromEnd,在染色体上的终止位置。bed文件为左闭右开区间,当片段碱基为0-99时,记为“ChromStart=0,ChromEnd=100”。
附加列
第四列:name,行名;
第五列:score,基因组浏览器中显示的灰度设定值,介于0-1000之间,越大越黑;
第六列:正负链标记,“+”、“-”、“.”(no strand);
第七列:thickStart,编码起始位置;
第八列:thickEnd,编码终止位置;
第九列枝锋:itemRgb-R,G,B,当 itemRgb 设置为“On”,行会显示颜色;
第十列:blockCount,外显子数量;
第十一列:BlockSizes,外显子大小列表,逗号分隔;
第十二列:blockStarts,外显子起始列表位置,逗猛轮晌号分隔,是与 chromStart 相对的一个位置。
增加两端长度
增加一端长度
链特异性影响
genomic features通常使用bed 或者gff文件表示桐耐,两者最基本的信息就是染色体或Contig的ID或编号、DNA的正负链信息以及在染色体上的起始和终止位置数值。两种文件的区别在于,BED文件中起始坐标为0,结束坐标至少是1,GFF中起始坐标是1而结束坐标至少是1。把BED转成对应的GFF格式(仅保留两者相同信息)
bed文件的定义:【生信】数据格式:bed12格式详解 - (jianshu.com)
bed文件定义中有12列,其中前三列是必须的。
bed12表示包含12列的御备bed文件,包含的信息最完整。
bed文件官方网页: https://m.ensembl.org/info/website/upload/bed.html
前三列:
这个例子也只给了前9列的信息
先使用convert2bed把gtf转化为bed6文件。再使用别人开发的工具把bed6文件转化为bed12文件。
或者使用gtf2bed
链接:
https://gffutils.readthedocs.io/en/latest/gtf2bed.html
参考:
https://www.jianshu.com/p/847801e8bf92
这篇文章作者旦吵写了镇迟毁一个python脚本可以把bed6转化为bed12。
本来我是想使用bedtools 把bed12文件提取出fasta文件,得到read的序列信息
所以才这么折腾
后面查了一下,可以直接使用cufflink中的gffread把gtf文件提取出对应的fasta文件
参考链接:
https://www.jianshu.com/p/566954bd5711
或者使用Tophat中的gtf_to_fasta
参考: https://www.tqwba.com/x_d/jishu/204915.html
bed文件怎么看区域大小1)BED文件
BED 文件(Browser Extensible Data)格式是ucsc 的genome browser的一个格式 ,提供了一种灵活的方式来定义的数据行,以用来描述注释信息。BED行有3个必须的列和9个额晌衫外可选的列。每行的数据格式要求一致(见下图)。 每条线的字段数目必须是任意单条数据的在注释上一致。
BED文件结构:
-------------------------------------------------------------必须有以下3列------------------------------------------------------------------------
chrom :即染色体号
chromStart :即feature在染色体上起始位置 。在染色体上最左端坐标是0
chromEnd :即feature在染色体上的终止位置。例如一个染色体前100个碱基定义为chromStart=0, chromEnd=100, 跨度为 0-99.
----------------------------------------------------------------可选9列-------------------------------------------------------------------------------
name :feature的名字 ,在基因组浏览器左边显示;
score :在基因组浏览器中显示的灰度设定,值介于0-1000;
strand :定义链的方向,''+” 或者”-”
thickStart :起始位置(例如,基因起始编码位置)
thickEnd :终止位置(例如:基因终止编码位置)
itemRGB :是一个RGB值的形式, R, G, B (eg. 255, 0,0), 如果渣谨弯itemRgb设置为'On”, 这个RBG值将决定数据的显示的颜色。
blockCount :BED行中的block数目,也就是外显子数目
blockSize:用逗号分割的外显子如闷的大小, 这个item的数目对应于BlockCount的数目
blockStarts :用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应
2)bed和gff之间的关系
前面已经讲过GFF格式,用UCSC Genome Browser可以将两者进行可视化比较。 Bed文件和GFF文件最基本的信息就是染色体或Contig的ID或编号,然后就是DNA的正负链信息,接着就是在染色体上的起始和终止位置数值。
两种文件的区别在于,BED文件中起始坐标为0,结束坐标至少是1;GFF中起始坐标是1而结束坐标至少是1。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)