我的SNP calling和核心SNP(core SNP)聚类分析流程_教程

个人进行SNP分析用的软件是 snippy ，主要是可以一次批量完成。

准备工派陪作：

1.待分析的序列文件（fastq/fasta)，可以先筛选掉冗余的序列文件。

3.参考基因组的gbk或者fasta文件。

运行开始 用到软件自带的批量运行程序

第一步

第一步运行完会提示共有多少个基因组参与SNP分析，注意检查。

第二步

就是直接运行第一步输出的.sh文件：

注意运行run_snp.sh的时候所在目录即为输出文件目录，最好新建一个文件夹再把run_snp.sh转移到该文件尘御蠢夹后再运行。

第三步

核心SNP聚类，去掉基因重组后用snp-sites进行核心SNP分析，最后用Fasttree作树。

输出的newick文件就可以拿去绘制进化树了，每个基拆兄因组的SNP VCF文件保存在该文件名的文件夹中。

参考

snippy官网: https://github.com/tseemann/snippy

我渗颂困经常使用一个不起眼的功能， Fasta Stat 。但从未写过相关推送。主要是其使用过于简单，只要把 Fasta 序列文件放进丛念去，点击 Start 就可以了。早上起来，突然想起了这一功能，并增加了一个 相对高频 的需求快捷完成樱毕选项。既然这一功能是我高频使用，那么相信他就跟 序列提取 功能类似。虽然不起眼，虽然是小功能，但是很实用，甚至或者是最能节约数据分析时间。

于是索性也写一个帖子

在日常分析中，我们常常手上会有一个 Fasta 序列文件，文件可能很小，数十 Kb，也可能很大数十 Gb。当然，可以使用 TBtools 的 Big File View 进行快速浏览。更多时候，我们想要知道的或许是：

于是，你打开了 TBtools

于是看到

输入界面简单

可以看到，上述 *** 作可以快速获得序列文件概览

有些时候，我们不仅仅想要知道序列文件整体情况，我们还想知道其中每条序列的长度，GC含量等等

于是 *** 作起来也很简单， 只需要设置一个输出文件就可以

直接输出序列长度信息 。事实上，这个功能比较常用，比如一些FPKM/RPKM的计算，比如Basic BioSequences View等序列结构可视化功能等。

此时只需要补充勾选 Keep Only Sequence Length 即可。于是上述输出文件会变成，

快速查看几/一个序列的情况 。有时候，我们手上会有一个或几个序列，会想要快速查看其大体情况，比如长度。那么，直接切换输入选项到 Seq Input 即可。

Emmm... 功能整体就这么简单。其实我甚至认为，不需要这个推文，每个人看到这个功能也知道怎么使用。当然，这是我个人写 TBtools 时一直期望。

真正优秀的界面化工具，应该是一打开就会使用，而无需Manual 。

不过，这有可能吗？哈哈。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/12274661.html

我的SNP calling和核心SNP(core SNP)聚类分析流程

发表评论

评论列表（0条）