第一种文件为主文件,后缀名为.mdf,数据库中的主要数据都存储在这个文件中,还有一个文件是日志文件,后缀名为.ldf,主要记录数据库的日志以及数据库的 *** 作记录。一个数据库中必须有至少一个主文件和日志文件。但是主文件只能有一个,日志问及可以有多个。还有一种文件就是辅助文件,后缀名是.ldf。主要存储数据库的一些辅助信息。
步骤如下:1. 在Linux系统中(或虚拟系统)通过cd命令进入文件夹(路径);
2. 用FLASH工具:flash subsample_r1.fq subsample_r2.fq -m 200 -M 280 -o merged
3.提取barcode: extract_barcodes.py -f joined.extendedFrags.fastq -c barcode_single_end --bc1_len 6 -o processed_seqs
4. 割库:split_libraries.py -m mapping.txt -b 10 -l 250 -f merged.extendedFrags.fastq_fasta -o split_library_out
5. OTU分类:pick_otus.py -i split_library_out/chimera_filtered_seqs.fna -o picked_otus/
到这里就可以得到biom文件了
6. 得到分类信息:biom summarize-table -i sorted_otu_table.biom -o seqs_per_sample.txt
细菌的核糖体RNA(rRNA)按照沉降系数分为5S, 16S, 23S三种。16s rRNA是微生物核糖体RNA的一个亚基,16s rDNA是编码该亚基的基因,存在于所有细菌染色体基因中。测序是将16S rDNA扩增出来,而不是研究RNA。
将翻译16S rRNA的DNA扩增出来测序,目的为识别样本中 有哪些 原核生物物种(细菌/古菌),研究物种多样性。包括他们的相对丰度及物种构成。
为什么可以根据16S rRNA来识别其物种? 16S rRNA测序是测其上若干个 可变区 。这些可变区是 species-specific 的,可以根据这些可变区的序列特征识别出其物种。同时可变区中穿插着一些保守区。保守区则在不同物种之中变化不大,不能用于特异的识别其属于哪一个物种。
Illumina二代测序的具体过程可以通过官方视频了解,十分详细。大概是:
参考 wiki
参考 illumina官网
官网视频是youtube的,这里是 一个B站的
另一个B站视频
raw sequence data的fastq格式文件,有固定的格式。参考 https://en.wikipedia.org/wiki/FASTQ_format
列举工作中常见的两种双端测序得到的raw seqence data:
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)