生信数据分析常见格式(一)

生信数据分析常见格式(一),第1张

测序数据fa格式:一般为fa.gz文件

基因组参考序列fa格式:

第一行以@开慧唯头,之后为序列的标识符以及描述信息(与FASTA格式的描述行类似)

第二行为序列信息

第三行以+开头,之后可以再次加上序列的标识及描述信息(可选)

第四行为质量得分信息,与第二行的序列相对应,长度必须与第二行相同

GTF(Gene Transfer Format)格式是借鉴前燃培于GFF2格式,也被称为GFF2.5,大部分字段的定义是和GFF2相同的,只是每行的第九列必须带有如下四个域,具体为gene_id valuetranscript_id value这样的设计是为了适应一个基因的多个转录本这种情况。GTF格式主要用来注释基因:

[图片上传失败...(image-8d42c2-1536734614697)]

gff主要用来注释基因组

SAM(sequence alignment/map format):由标头注释部分和比对部分组成

bed(Browser Extensible Data):是ucsc 的genome browser的一个格式,描述注释的数据。bed有3个要求的字段(基本列)和9个额外的字段(附加列)

vcf(Variant Call Format):格式是用于表示突变信息的文本格式,可以用来表示SNV(single nucleotide variants),INDEL( insertions/段拆deletions), CNV(copy number variants )and SV(structural variants)等。VCF格式同样是分为两大部分,一部分是注释描述信息,一部分是具体的突变信息,其中注释信息是以##开头的。

应用:

https://wiki.bits.vib.be/index.php/Category:Formats

未完待续....

方法和详细的 *** 作步骤如下:

1、第一步,在桌面上单击“ FA文件”图标,见下图,帆橘春转伍慧到下面的步骤。

2、第二步,完成上述步骤后,右键单击“Edit with Notepad++”这一项,见下图,转到下面的步骤。

3、第三步,完成上述步骤后,“FA文件”已成功打开,见下图,转到下面的步骤。

4、第四步,完成上述步骤后,还可以编辑文态耐件的内容,见下图。这样,就解决了这个问题了。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12285434.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-24
下一篇 2023-05-24

发表评论

登录后才能评论

评论列表(0条)

保存