当你双击要打开的文件,Windows将检查文件胡敏扩展名。如果Windows能够识别的文件扩展名,它打开文件在程序与关联的文件扩展名。当Windows不能识别的文件扩裤团枝展名,您会收或乱到以下消息:
篇目
.sra文件扩展的细节
Sequence Read Archive
.sra 文件转换器
.sra 文件相关的错误
这个文件Windows无法打开
例子.sra
打开这个文件,Windows需要知道你想用什么程序打开它...
如果你不知道如何设置 .sra 文件关联,检查 常见问题。
扩展的文件我可以改变吗?
更改文件扩展名的文件是不是一个好主意。当您更改文件的扩展名,你改变方式你的计算机上的程序读取文件。问题是,改变文件扩展名不能更改文件格式。
来源还是 生信技能树 。
高通量测序产生的海量数据都是经过压缩再上传的,目前比sra更好的压缩方式也正在研究中。首先把sra文件转换成人可读的fastq格式:
--gzip 输出gz压缩格式 --split-3 对PE reads使用
首先看下fastq数据前几行了解数据大猜世败概内容。因为是PE测序,所以两个文件都分别看下 zcat SRR3589959_1.fastq.gz |head -n 8 和 zcat SRR3589959_2.fastq.gz |head -n 8 。
可以看出fastq数据每条read的记录由4行组成:
其中
HWUSI-EAS100R 设备名
6flowcell lane(流动槽泳道号)
73 tile number within the flowcell lane(泳道区块号)
941‘x’-coordinate of the cluster within the tile(区块上x坐标)
1973 ‘y’-coordinate of the cluster within the tile(区块上y坐标)返枣
#0 index number for a multiplexed sample (0 for no indexing)
/1 the member of a pair, /1 or /2 (paired-end or mate-pair reads only)
ls *.fastq.gz |xargs fastqc -t 6
结果如下:
其中绿色表示检测通过,黄色为警告,红色为未通过。如图Per base sequence content因为前15个碱基分布异常而未通过检测,可能存在序列污染或者接头没去干净。一般mRNA测序数据的碱基分布都是比较均一平行的,穗颤而 ChIP-seq、RIP-seq则可能出现比较大的碱基分布偏好 。
根据最后三项检测可以进一步分析是否有污染或者没去干净的接头序列存在。
如何从SRA文件中分离出从对短序paired-end reads很多时候我们从NCBI的SRA文档中分离paired-end
sequencing数据。但是当我们使用SRA
toolkit的芹搜肆fastq-dump工具时,往往只能得到一个文件,而不是两个文件。如何才能将这个文件分离成两个或者更多的文件呢?答案是不一定。首先我们可以试试使用fastq-dump的–split-3参数。对于–split-3参数,是这样介绍的:漏伏
Legacy
3-file splitting for mate-pairs: first biological reads satisfying dumping
conditions are placed in files *_1.fastq and *_2.fastq If only one biological
read is present it is placed in *.fastq. Biological reads and above are
ignored
也就是说如果SRA文件中只有一个文件,那么这个参数就会被忽略。如果原文件中有两个文件,那么它就会把成对的文件按*_1.fastq,
*_2.fastq这样分开。如果还有出现了第三个文件,就意味着这个文件本身是未成配对的部分。嫌轿可能是当初提交的时候因为事先过滤过了一下,所以有一部分数据被删除了。
转载
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)