导入数据后自动计算位点的maf、缺失等信息,会汇总成统计表,可以导出,示例如下
统计结果中,标红的部分是未通过过滤的位点,系统会自动全选所有通过过滤的位点参与单倍型的计算。图片下方显示的是参数设置窗口,可自行输入阈值,点击Rescore Markers即可重新统计。
ps:上图中Advanced Views中会显示表中没有的统计结果,比如样本的缺失率等,可以自行查看;此外,这些统计数据都可以导出
软件会自动根据输入的数据绘制对应LD-Block区域的单倍型块结果,所有统计以及图片结果都可以导出保存,示例如下
LD导出数据:
单倍型块数据Haplotypes:
当位点数目或者选择的目标区间比较小时,一般使用默认参数运行即可,不会出现太大问题。当位点数目太多或者强连锁的区域太长时,导入数据时会遇见一下错误。
遇见这种问题一般有两点,一个是数据量太大,一个是位点间强连锁区域太长。
对于数据量问题,文章中给出的了参考示例,1.8 GHz Pentium 4处理器加1 GB内存,可以轻松处理400样本的200位点,对于大样本、多位点的情况,推荐使用命令行 *** 作,我觉得最好在资源较多的服务器上 *** 作。
如果位点太多,可以考虑先用其他软件算一下连锁情况,分区间提取位点进行单独分析
最近遇到了这种问题,我测试的数据集有905位点,区间50k左右,一直出现内存超限的问题,后来发现是连锁区域太长的原因。对于这种问题,可以在导入数据的时候,减小联锁区间的阈值。
界面上 Ignore pairwise... 对应的参数就是连锁区间设定的阈值,可以适当调小。这种情况下,本应该是同一个连锁区域的两端会分开,后续需要进行更正。
参考文献:
[1] https://academic.oup.com/bioinformatics/article/21/2/263/186662
请教各位老师了,bow!!!没有人通过做湿实验进行单体型分析吗?用算比较方便,尤其是多点的单体型,很快.并且用可以一起做别的分析,如做连锁,关联分析!还有个问题就是如何确定单体型中的tag SNPs呢?通过实验方法确定单倍型的话,是比较麻请教各位老师了,bow!!!没有人通过做湿实验进行单体型分析吗?用软件算比较方便,尤其是多点的单体型,很快.并且用软件可以一起做别的分析,如做连锁,关联分析!还有个问题就是如何确定单体型中的tag SNPs呢?通过实验方法确定单倍型的话,是比较麻...欢迎分享,转载请注明来源:内存溢出
评论列表(0条)