生物数据格式 - bed

生物数据格式 - bed,第1张

BED格式文件有3个基本列和9个可选的附加列

基本列

第一列:chrom,染色体号;

第二列:chromStart,在染色体上的起始位置,从0开始计数;

第三列:ChromEnd,在染色体上的终止位置。bed文件为左闭右开区间,当片段碱基为0-99时,记为“ChromStart=0,ChromEnd=100”。

附加列

第四列:name,行名;

第五列:score,基因组浏览器中显示的灰度设定值,介于0-1000之间,越大越黑;

第六列:正负链标记,“+”、“-”、“.”(no strand);

第七列:thickStart,编码起始位置;

第八列:thickEnd,编码终止位置;

第九列枝锋:itemRgb-R,G,B,当 itemRgb 设置为“On”,行会显示颜色;

第十列:blockCount,外显子数量;

第十一列:BlockSizes,外显子大小列表,逗号分隔;

第十二列:blockStarts,外显子起始列表位置,逗猛轮晌号分隔,是与 chromStart 相对的一个位置。

增加两端长度

增加一端长度

链特异性影响

genomic features通常使用bed 或者gff文件表示桐耐,两者最基本的信息就是染色体或Contig的ID或编号、DNA的正负链信息以及在染色体上的起始和终止位置数值。两种文件的区别在于,BED文件中起始坐标为0,结束坐标至少是1,GFF中起始坐标是1而结束坐标至少是1。把BED转成对应的GFF格式(仅保留两者相同信息)

bed文件的定义:

【生信】数据格式:bed12格式详解 - (jianshu.com)

bed文件定义中有12列,其中前三列是必须的。

bed12表示包含12列的御备bed文件,包含的信息最完整。

bed文件官方网页: https://m.ensembl.org/info/website/upload/bed.html

前三列:

这个例子也只给了前9列的信息

先使用convert2bed把gtf转化为bed6文件。再使用别人开发的工具把bed6文件转化为bed12文件。

或者使用gtf2bed

链接:

https://gffutils.readthedocs.io/en/latest/gtf2bed.html

参考:

https://www.jianshu.com/p/847801e8bf92

这篇文章作者旦吵写了镇迟毁一个python脚本可以把bed6转化为bed12。

本来我是想使用bedtools 把bed12文件提取出fasta文件,得到read的序列信息

所以才这么折腾

后面查了一下,可以直接使用cufflink中的gffread把gtf文件提取出对应的fasta文件

参考链接:

https://www.jianshu.com/p/566954bd5711

或者使用Tophat中的gtf_to_fasta

参考: https://www.tqwba.com/x_d/jishu/204915.html

bed文件怎么看区域大小

1)BED文件

BED 文件(Browser Extensible Data)格式是ucsc 的genome browser的一个格式 ,提供了一种灵活的方式来定义的数据行,以用来描述注释信息。BED行有3个必须的列和9个额晌衫外可选的列。每行的数据格式要求一致(见下图)。 每条线的字段数目必须是任意单条数据的在注释上一致。

BED文件结构:

-------------------------------------------------------------必须有以下3列------------------------------------------------------------------------

chrom :即染色体号

chromStart :即feature在染色体上起始位置 。在染色体上最左端坐标是0

chromEnd :即feature在染色体上的终止位置。例如一个染色体前100个碱基定义为chromStart=0, chromEnd=100, 跨度为 0-99.

----------------------------------------------------------------可选9列-------------------------------------------------------------------------------

name :feature的名字 ,在基因组浏览器左边显示;

score :在基因组浏览器中显示的灰度设定,值介于0-1000;

strand :定义链的方向,''+” 或者”-”

thickStart :起始位置(例如,基因起始编码位置)

thickEnd :终止位置(例如:基因终止编码位置) 

itemRGB :是一个RGB值的形式, R, G, B (eg. 255, 0,0), 如果渣谨弯itemRgb设置为'On”, 这个RBG值将决定数据的显示的颜色。

blockCount :BED行中的block数目,也就是外显子数目

blockSize:用逗号分割的外显子如闷的大小, 这个item的数目对应于BlockCount的数目

blockStarts :用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应

2)bed和gff之间的关系

前面已经讲过GFF格式,用UCSC Genome Browser可以将两者进行可视化比较。 Bed文件和GFF文件最基本的信息就是染色体或Contig的ID或编号,然后就是DNA的正负链信息,接着就是在染色体上的起始和终止位置数值。

两种文件的区别在于,BED文件中起始坐标为0,结束坐标至少是1;GFF中起始坐标是1而结束坐标至少是1。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12222794.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存