在遗传流行病学上,全基因组关联研究(Genome Wide Association Studies,GWAS)是一种检测特定物种中不同个体间的全部或大部分基因,从而了解不同个体间的基因变化有多大的一种方法。不同的变化带来不同的性状,如各种疾病的不同。在人类中,这种技术发现了特定基因与疾病的关联,如被称为年龄相关性黄斑变性的眼部疾病和糖尿病。在人类中,数百或数千人通常用于单个DNA突变(单核苷酸多态性或SNPs)进行测试,约600人通过GWAS来检查150 疾病和相关性状,发现800个SNP具有关联性。他们在发现疾病的分子途径时非常有用,但是通常在发现预测疾病风险的基因是却不是很有用。[1]
这些研究通常比较两组参与者的DNA:有疾病的人(病例)和相同条件的无该疾病的人(对照)。每个人都提供些作为样本的细胞,如从口腔内侧擦下了的表皮细胞。DNA可以从这些细胞中提取,并涂布在基因芯片上,该芯片上可以读取上百万个DNA序列。这些芯片被读入计算机,在那里通过生物信息学技术对其进行分析,而不是阅读的全部DNA序列,这些系统通常读的是各个SNP,这些SNP被是成组的DNA变异(单倍型)的标记。
如果在患者中某基因型的变异很频繁,那么就说该变异与该疾病“相关”。相关的遗传变异所在的人类基因组区域被视为标示点,基因组的该区域可能是致病原因的所在。有两种方法用来寻找疾病相关的突变:假说驱动和非假设驱动的方法。假设驱动的方法为一开始假设一个特殊的基因可能与某种疾病,并试图找出关联。非假设驱动的研究用蛮力的方法来扫描整个基因组,看那些基因与该病有关联。GWAS一般采用非假说驱动。
令人惊讶的是,与疾病相关的SNP变异大多不是在编码蛋白质的DNA区域。相反,他们通常位于染色体上编码基因间的大型非编码区域上,或者位于编码基因的内含子上,该内含子通常在蛋白质的表达过程中被剪切掉。这些是有控制其他基因能力的可能的DNA序列。但通常,他们的蛋白质功能是不知道的。
GWAS为人们打开了一扇通往研究复杂疾病的大门,将在患者全基因组范围内检测出的SNP位点与对照组进行比较,找出所有的变异等位基因频率,从而避免了像候选基因策略一样需要预先假设致病基因。同时,GWAS研究让我们找到了许多从前未曾发现的基因以及染色体区域,为复杂疾病的发病机制提供了更多的线索。