GWAS分析（R包GAPIT）之二（数据准备）_IT百科

第一行是表头，第一列是个体号，其余每一列一个表型，Tab键分隔。

可以接受 standard HapMap format 或 numeric format。

第一种，Hapmap Format。

在基因型数据前有11列数据。尽管这11列数据都必须有，但读取的时候只读取第1、3、4列数据，其余数据可填充为NA。另，基因型数据可以是两个碱基形式的，也可以是单碱基形式的，如下表所示：

第二种，Numeric format。

这种格式的需要两个文件，一个指定SNP名称、染色体、和位置；一个指定所有个体在该位点的基因型。

无表头数据，表示亲缘关系的一个矩阵。

一个包含协变量的文件，包括群体结构之类的信息。第一列是个体名称，后面每一列都是协变量的值。

具体 *** 作：

表型文件不多赘述，笔者重复一遍 numeric format 格式的基因型文件的生成方式。

上述 *** 作会生成 3 个文件，分别是 xx_matrix.012、xx_matrix.012.pos、xx_matrix.012.indv。

SNP_INFORMATION的文件处理完成，接下来处理基因型文件，vcftools 直接生成的文件如下图所示：每一行表示一个个体，每一列表示一个位点，第一列是个体名称。

接下来，首先替换个体名称，利用 xx_matrix.012.indv 文件。

然后给每一列变量增加名称：我的 *** 作是先生成变量名称的文件。

以上，生成计算所需基因型文件。

GWAS分析（R包GAPIT）之二（数据准备）