在之前的两期中,我们探讨了进行GWAS(全基因组关联分析)所需的数据类型和数据质控方法。现在终于进入我们的核心内容:关联分析。GWAS分析通常会构建回归模型来检验标记(如SNP)与表型之间是否存在关联。具体而言:
零假设与备择假设
① 零假设(H0)表示标记的回归系数为零,即标记对表型没有影响。② 备择假设(H1)则意味着标记的回归系数不为零,即标记与表型相关联。
在第一期中提到,表型数据可以分为三种类型:数量性状、质量性状和分级性状。在进行关联分析之前,我们需要依据不同类型的表型选用合适的分析方法,并且为了减少假阳性,通常会对p值进行矫正。
1. 连续性状
连续性状指在群体中呈现连续分布的特性,如身高、体重和血压等。可选择的分析方法包括T检验(Student’s t-test)和线性回归(linear regression)。
命令示例:
- 不校正p值:plink --bfile test --assoc --out result_assoc
- 校正p值:plink --bfile test --assoc --adjust --out result_assoc
注意:校正p值时会生成一个带有*assoc_adjusted后缀的文件。
关于线性回归:
- 不考虑协变量/不校正:plink --bfile test --linear --out result_linear
- 考虑协变量/校正:plink --bfile test --linear --adjust --out result_linear
协变量需使用--covar参数添加。
2. 阈值性状
阈值性状的表型数据通常为两类:1和2(0和-9表示缺失),常见的如对照组(1)与实验组(2)。分析方法包括卡方检验和逻辑斯蒂回归(logistic regression)。
命令示例:
- 不校正p值:plink --bfile test --assoc --out result_assoc
- 校正p值:plink --bfile test --assoc --adjust --out result_assoc
注意:会多出一个带有*assoc_adjusted后缀的文件。
逻辑斯蒂回归:
- 不考虑协变量/不校正:plink --bfile test --logistic --out result_logistic
- 考虑协变量/校正:plink --bfile test --logistic --adjust --out result_logistic
协变量需使用--covar参数添加。
3. 分级性状
分级性状是指可以通过人为观察进行分类的离散变量,其定义依赖于经验。例如,对于植物的抗病性,我们既可以按病斑面积定义连续性状,也可设定阈值为分级性状(如高、中、低)。
可选方法包括卡方检验和逻辑斯蒂回归:
- 不允许有协变量的卡方检验:
- 不校正p值:plink --bfile test --assoc --out result
- 校正p值:plink --bfile test --assoc --adjust --out result_adjust
逻辑斯蒂回归:
- 不考虑协变量/不校正:plink --bfile test --logistic --out result_logistic
- 考虑协变量/校正:plink --bfile test --logistic --adjust --out result_logistic
协变量需使用--covar参数添加。
经过这些步骤,我们终于得到了期待的显著性结果,对结果表进行p值筛选以过滤假阳性,并可通过可视化工具(如Q-Q图和曼哈顿图)直观展示结果。如何进行这些可视化操作?请继续关注我们的后续内容!同时,欢迎访问尊龙凯时人生就博,获取更多优质生物医疗相关资讯与支持。