zl程序教程

您现在的位置是:首页 >  Java

当前栏目

统计遗传学:第六章,基因与环境互作

2023-02-18 16:23:49 时间

大家好,我是邓飞,今天继续介绍《统计遗传学》这本书,第一部分基础,分为六个章节,分别是:

本次介绍第六章:基因与环境互作。

基因与环境互作

主要内容

本章节包括:

  • 理解和区分不同类型的基因-环境相互作用(G×E)相互作用和基因-环境相关性(rGE)
  • 了解定义环境的多种方法,包括多层次、领域和时间方面
  • 认识G×E研究的历史和常见错误,从经典方法到候选基因,以及最新的全基因组方法
  • 理解和区分素质应激、差异易感性、,生物生态学(社会补偿)和社会控制
  • 区分不同的可再生能源TPE,包括被动、唤起(反应)和主动,并理解为什么rGE模型很重要,基础研究
  • 设计抓住了这一研究领域潜在的未来方向

GXE介绍

医学、流行病学以及社会科学,对于基因与环境互作,感兴趣的点在于:某些特定的基因型,使某些人在一定的环境下,发生什么样的改变。

遗传学家和生物学家关注的是某个基因在某个环境下会如何表现。(在研究机理)

基因-环境相互作用是指基因-环境相互作用(GxE)和基因-环境相关性(rGE)的现象。该领域的大多数研究考察了基因-环境相互作用(G×E),即研究基因型对表型的影响是否因环境而异。这种影响可以是因果的,也可以是非因果的。基因-环境相关性(rGE)是个体基因型影响或与暴露于环境或换句话说相关的过程。 基因和环境如何协同运作。因此,相关性衡量在不同环境中是否存在不同的等位基因频率。由于医学、流行病学和社会科学的研究人员通常对特定基因型如何使人群中的某些亚群易受各种环境暴露感兴趣,这一研究领域受到了越来越多的关注。相反,遗传学家和生物学家更经常关注环境如何与基因表达相关并导致特定疾病或特征。

GWAS中的PGS并不能解释所有的变异,有些是与环境互作的,需要考虑环境的影响。

许多复杂的特征,如心血管疾病、癌症、糖尿病和精神障碍,都受到遗传和环境因素的强烈影响[1,2]。回想一下,特别是对于复杂的行为特征,来自全基因组关联研究(GWAS)的多基因评分(PGS)通常不能捕捉到很大比例的表型变异。大多数复杂的疾病和行为都有很强的环境成分,这在非遗传文献中已经得到了很好的证实。这一领域的先驱研究人员已经表明,了解复杂特征不仅需要有关遗传风险的信息,而且还需要考虑到个体的社会和自然环境的重要性[3-6]。例如,一些研究表明,某些积极的遗传倾向在高资源或无压力环境中实现,而消极倾向在消极环境中加剧[7,8]。通过研究G×E,我们的目标是确定在特定环境中实现或抑制的遗传脆弱性或优势[9]。

本章的目的是向读者概述这一研究领域的主要概念,包括最突出的理论模型。在第一章中,我们提供了实证例子,并讨论了这一研究领域的其他方法挑战。一个简单的G×E模型包括一个表型或特征(T)、一个遗传因子(G)、一个环境因子(E)和通常潜在的混杂因子(C)。前几章详细讨论了遗传因子(G),本书重点讨论了使用GWASs和PGSs识别的遗传位点。在下一节中,我们从关注遗传学转移到定义环境的多方面术语和环境因素的相互依赖性。然后,我们简要介绍了G×E研究的历史,从经典方法开始,到有争议且经常未复制的候选基因(cG×E)研究,然后是全基因组G×E方法。下一节介绍了四个关键的理论GxE模型,然后总结了该研究领域的主要挑战和潜在解决方案。我们在第6.5节中介绍了不同类型的rGE和研究设计,以及为什么这一研究领域仍然难以研究,但仍然需要考虑的原因。最后,我们讨论了未来的发展方向。

定义基因环境互作中的环境

当人们想到“环境”这个词的白话用法时,首先想到的是暴露在污染物或阳光下的图像。然而,在遗传研究的背景下,环境可以采用多种形式。环境的最佳特征是多层次、多领域和多时(生命过程、纵向)框架,这是可能影响研究特征的上游过程[10]。在遗传学中,E实际上是所有非遗传学的东西,回想一下我们之前的统计章节,ausal设计通常是这类研究的主要焦点。外生变量是指其值由所研究因果系统之外的因素决定的变量[11]。在这类研究中,E通常表示为外源性环境变量,如空气污染、高海拔或政策变化(如吸烟税、强制上学年限)或某种形式的暴露(如垃圾食品或高热量环境)。

性质和范围:多层次、多领域和多时相

环境的性质和范围:对该研究领域至关重要的多层次、多领域和多时相 研究是关注环境的范围、测量和定义[10]。医学文献中对环境因素的经典定义是:“环境风险因素可以是接触,物理(例如辐射、温度)、化学(例如多环芳烃)或生物(例如病毒);行为模式(例如首次怀孕的晚年);或“生活事件”(例如失业、受伤)”([12],第764页)。正如Boardman及其同事所说[10],这些类型的定义可以扩展到更高聚合群体水平的行为,以解释社会、政治和文化环境。如上文所列的定义,将环境划分为协会的一组近似环境调节因子(见方框6.1)。近因是与我们观察到的结果最接近的事件,或者实际上是导致我们观察到的结果的事件。 在研究基因型和环境的相互作用时,重点是个人在自然、社会和文化结构中的位置所起的作用,作为其脆弱性和暴露的基本决定因素。 实证社会学尤其提供了强大的理论和测量模型,以超越物理环境的定义,将环境包括为多层次、多领域和多时相。多级emvironcenter是指超个体语境,在这种语境中,个体被“嵌套”或分组在不同的分析层次中。 第2章讨论了缓和(见第2.4.2节,图2.10)。它被定义为当两个变量之间的关系依赖于第三个变量时发生的情况。在我们的例子中,基因和性状(T)之间的关系取决于环境。E是调节变量,我们通常通过向回归模型中添加交互项来测量调节变量,以查看该变量是否影响G和T之间关系的方向或强度。换句话说,调节因子E是第三个变量,影响G和G(自变量或协变量)斜率ofT(因变量或结果)值之间的零阶相关性。本章后面将提供有关本规范的更多详细信息,以及使用计算机代码的应用示例和本书第三部分中系数的解释。

可以通过回归分析的方法,计算GbyE。

这些水平包括国家、州、省或地区、社区、学校和家庭。多域环境是指在人们生活的多个领域中相互作用的多个并行环境。这包括自然环境(例如海拔、温度),但也包括社会、经济、文化和制度环境(例如健康、社会或就业政策)。如果我们认识到我们也有一个多时相环境,我们承认随着时间的推移,个体内部(即随着他们在整个生命过程中的年龄增长)以及群体内的出生队列(即他们出生时)和历史时期效应(即他们所处的历史时期)都会发生变化[13]。在这里,借鉴生命过程视角也很有用,它认识到环境在整个生命过程中都会发生变化。例如,妊娠发生在子宫环境中,受母亲行为(如吸烟、怀孕期间的饮食)的影响,而在儿童和青少年时期,重要的环境因素是个人的父母、学校、同龄人和邻居。成年后,个人受到高等教育机构、工作场所、伴侣和家庭单位的影响。生命历程视角超越了孤立地审视个体,拥抱相互联系的生活(伴侣、孩子或家庭),以及从一个特征或事件转变为生命历程中的多个序列[14-16]。这与之前的研究结果相联系,这些发现表明遗传力通常随着年龄的增长而增加,例如FTO基因(与肥胖相关)在整个生命过程中的遗传力更强[17]。

环境风险因素的相互依存性

环境之间也不是独立的,高资源环境的人能够实现其遗传潜力,低资源环境的人则不能。

研究G×E特别具有挑战性的一个方面是,环境风险因素很少相互独立。社会特征,如社会经济地位较低、吸烟或空气质量差,通常集中在社区、学校或工作场所等地理区域。例如,想象一下,你的目标是检查压力性生活事件或孕期母亲吸烟对出生体重和儿童后期发育的影响。如果vou只检查有压力的生活事件和母亲吸烟,你会错过一个关键的事实,即与健康相关的行为和可能导致母亲吸烟或暴露于压力的更高水平的社会风险都来自同一个来源,即聚集的社会经济地位较低。 这种更深入的背景理解对于正确解释G×E和基因关联至关重要,这些关联在种族或社会经济地位等关键衡量指标上存在差异。如果健康等复杂特征主要由社区或环境的物理和社会特征驱动,则基因可能与我们在某些群体中观察到的个体差异关系不大。各种研究表明,在资源贫乏的环境中,某些遗传效应不太明显。这是该领域最有影响力的早期例子之一。Turkheimer等人[7]发现,对于那些来自恶劣环境的人来说,认知测试分数的遗传力几乎为零,但重要的是,遗传力随着社会经济资源的增加而显著增加。换句话说,来自高资源环境的人能够实现其遗传潜力,而来自低资源环境的人则不能。因此,与认知能力相关的遗传因素在最弱势群体中被抑制或没有实现。

PGS应用的局限性,弱势群体中,基因与环境互作更重要。

另一个例子是研究载脂蛋白E等位基因(APOE)与认知功能变化之间的关系,认知功能变化通常与阿尔茨海默病风险增加有关[18]。Boardman及其同事测试了APOE与认知功能变化之间的关系是否在社会障碍程度较高或较低的情况下有所不同。他们假设,处于高度不利地位或紊乱的社会环境可能会对结果产生更微妙的遗传影响。作者发现,事实上,APOE-E等位基因的遗传效应在社会无序的社区中最弱,在社会有序的社区中最强[19]。这些区别对于正确解释不同群体,特别是最弱势群体之间的遗传效应和G×E至关重要。由于少数民族往往集中在更为不利的社区(例如美国),因此得出种族或种族是有害或较低基因结果的原因的结论不仅具有误导性,而且显然是不正确的。撇开我们在第4章中讨论的问题不谈,即大多数GWA来自欧洲祖先群体,并且PGS不能在不同祖先群体之外应用,如果应用适当的遗传分数,环境结构仍可能导致差异暴露和遗传效应减弱或淡化。此外,如第3章中关于人口分层的描述,我们知道遗传变异通常与地理位置有关[20]。

基因与环境互作简史

G×E指的是我们检查不同环境中遗传效应的适度性的情况。这些相互作用通常以三种方式之一进行研究。首先,遗传力-环境(H×E)交互作用或经典模型估计基因在不同环境中对性状方差的相对贡献。其次,候选G×E设计关注特定等位基因和性状之间关联的环境调节。这就是所谓的候选基因(cG×E)或等位基因与环境的相互作用。有些人将这两种方法区分为“潜在”(H×E)和“测量”(cGxE)。第三种也是目前最常用的方法采用了GWASs确定的PGS,并将其应用于各种环境背景。

GxE的三种研究方法:

  • 第一种,用统计回归分析的方法,查看互作的解释百分比
  • 第二种,关注等位基因与性状的关联分析
  • 第三种,使用GWAS中的PGS,测试不同环境的表现

经典方法

正如我们前面提到的,在全基因组数据和方法可用之前,基于家庭的数据(例如双胞胎、领养子女、父母、兄弟姐妹)的行为遗传学方法被用于估计遗传和环境对表型的影响。他对来自遗传变异群体的特定样本中总方差的遗传力或比例进行了划分,我们在前几章中对此进行了详细描述。特别是这一经典研究中的扩展多元模型在几个方面推动了该领域的发展。首先,他们确定了两个具有高度表型相关性的变量是否具有相同的潜在遗传基础。其次,他们指出了非共享环境和潜在结构的来源。然而,这些模型很难估计遗传影响和环境共同作用的方式。家庭模型对于回答特定问题的这类研究仍然非常相关。例如,越来越多的证据表明,在使用兄弟姐妹样本时,在控制家庭固定效应后,遗传效应,特别是对GWASs中行为表型的遗传效应可能会有偏差或显著减弱。

候选基因cGxE方法

这里有两种候选基因方法。首先,2000年代有早期的候选基因研究,基于对基因座的生物功能或对所研究性状的影响的先验知识,重点研究了预定义的感兴趣基因座。其他地方对这项研究进行了更彻底的审查,特别是在心理学领域,这些研究更为常见[21,22]。 其次,候选基因也可以从GWA研究的热门项目中选择。在这方面,使用与阿尔茨海默病相关的APOE-E等位基因和与肥胖相关的FTO基因取得了一些早期成功[23]。 候选基因研究是在21世纪初引入的,因为成本和技术既限制了遗传研究的样本量,也往往仅限制了少数基因座的基因分型。早期的研究经常检查可能的神经生物学过程,如神经传递,因为批准的药物治疗针对这些途径。事实上,在这项研究的前十年中,89.2%的候选基因研究检测了与神经传递有关的基因[22]。许多研究重复了关于这些神经递质功能的几乎相同的叙述,但很快就发现大多数发现都是假阳性[21]。一些研究侧重于检测遗传主效应,但许多著名的研究侧重于G×E。 Duncan等人[22]研究了103cG×E研究,这些研究有六次或六次以上的复制尝试。 他们发现,几乎所有人都缺乏明确的支持,其中一人根本没有得到任何支持。候选基因研究的假阳性结果主要归因于以下原因。首先,候选基因假设是错误的,原则上大多数假设都应该保证零发现。这项研究源于一个明确的生物学基础,专注于被认为有效的药物。在这里,重要的是要区分一个基因是否与一个性状相关,以及该基因是否参与该性状的生物学,这一点尚未确定。GWAS表明,相关变体的大部分不在蛋白质编码区(外显子),这是大多数候选基因被选择的地方。相反,它们似乎位于基因间和内含子区域,人们对其了解较少[24]。然而,我们注意到,这一点很微妙,即非编码变体可能通过影响蛋白质编码基因的表达而发挥其作用。第二,统计显著性规范增加了假阳性的风险,这是我们在第2章[25]中已经详细讨论过的主题。第三,大多数研究都严重不足,无法检测出任何与如此小的影响相关的关系。Duncan及其同事[22]阐述说,在比较之前的候选基因研究时,即使是与GWASs相关性最强的变体也比候选基因研究假设的变体小得多。第四 对积极结果有强烈的出版偏见。值得注意的是,这导致《行为遗传学》杂志的编辑在2012年的一篇社论中写道:“行为遗传学文献已经变得令人困惑,现在看来,过去十年发表的许多发现很可能是错误的或误导性的,并没有对知识的真正进步做出贡献”[26,p.1]。 所有这些观点都是指研究人员自由度的罪魁祸首[25]。这是指研究人员在收集和分析数据的过程中做出关键决策的研究过程中的现象。它包括应收集多少数据、是否应排除某些观察结果、应组合哪些条件、包含控制变量以及转换具体措施。由于研究人员在探索各种分析技术时很少事先做出这些决定,因此存在一种内在的驱动力,导致研究结果“有效”并有利于统计意义。因此,这增加了这些分析尝试中至少一次产生假阳性结果的可能性。 对这些研究的详细回顾可在别处找到[21,22]。最臭名昭著的cG×E研究可能是2002年的科学出版物Caspi[27],该研究检测了5-羟色胺受体基因(5HTTLPR)中短等位基因的携带者是否对应激性生活事件敏感。将短等位基因携带者与在该位点具有两个长等位基因的携带者进行比较,后者似乎免受菌株和应力的有害影响。最初由于cG×E的开创性方法,该研究获得了相当大的关注,但后来由于缺乏复制[21,28]。这项研究本身就吸引了许多人,因为它似乎证实了环境在预测遗传效应方面的重要性。

全基因组多基因评分GxE方法

我们在前几章中注意到,随着GWA的到来,成本的降低,以及对更多变体进行基因分型的技术能力,大多数GxE工作现在应用GWAS中的PGS。自2014年左右以来,已经发表了许多使用这种方法的研究。在心理学领域,一些人采用了病例对照设计。例如,多项研究调查了重度抑郁症(MDD)的遗传易感性与儿童创伤之间的关系。一些人发现MDD的PGS和儿童创伤在预测抑郁症方面存在显著的交互作用[29,30]。例如,eyrot及其同事[29]。发现患有MDD的PGS较高且经历过童年创伤的个体比那些PGS较低且无创伤病史的个体更容易发展为抑郁症(MDD)。越来越多的研究使用英国的义务教育年龄改革,该改革要求学生完成额外的学业。作为一个自然实验。Barcellos等人(2018)[31]例如,研究了基因组成是否会调节教育对健康结果的影响。Boardman及其同事的一系列研究表明,当美国各州对香烟销售实行限制性政策并提高税收时,吸烟的遗传性是如何显著降低的[32]。 当我们描述中心理论模型时,我们将更详细地探讨其中的一些示例。

GxE模型实施

G×E交互作用通常借助四个关键概念模型进行描述,总结在表6.1中。这些理论也经常通过基因型(G)、环境(E)和特征(T)之间关系的功能形式来指定和区分。我们还使用图6.1中的函数形式说明了理论。可能需要注意的是,在一开始,这些模型并没有严格指定或形式化为相互排斥。因此,它们有时会重叠,并具有模糊和模糊的经验应用。其他模型本身并不是单独或排他性的理论模型,而是描述另一个模型的积极(例如补偿模型)或消极(例如素质压力或触发模型)补充的模型。

第一种:素质压力、脆弱性或语境触发模型

心理应激、脆弱性或语境触发模型

大多数G×E研究应用素质应激模型,也称为脆弱性或语境触发模型,即diqthesis应激模型。 由Monroe和Simons[33]提出,在风险环境中与负面结果相关的基因差异要么关系减弱,要么在低风险环境中完全沉默。该模型假设一个性状的遗传倾向处于休眠状态,直到它被某种应激源或环境暴露所触发。“素质”一词源于希腊语中的一个倾向词,但在这一研究领域,它被用来指患有某种特定疾病的倾向。在这里,素质通常由遗传或生物预测因子表示。 在这个理论中,压力源或触发因素是有害或不利的条件,可以是重大的生活压力事件(如配偶死亡、离婚),也可以是轻微或慢性的条件,或者是Shanahan和Hofer[36术语语境触发。正如我们在基因-环境相关性的讨论中不久所描述的那样,素质甚至可能影响个体是否在一开始就体验到环境。大多数研究都集中在研究逆境如何调节基因影响,特别是受到早期Caspi研究[27]和相关工作的启发。然而,在不同领域进行了扩展,包括学术成就[40]。

第二种:生态或社会补偿模式

生态或社会补偿模式

尽管它们通常作为单独的理论提出,但从概念上讲,生物生态或社会补偿模型实际上是先前理论的反面或镜子。 该理论通常关注个人生活、工作或互动的环境背景(例如宗教场所、学校)[35]。与之前关注消极和不利条件的理论不同,该理论假设低风险或高度稳定的环境允许积极和持久的互动。这些过程被称为个体与其环境之间相互作用的近端过程。这些相互作用反过来让个体认识到他们的基因潜力,这类似于Shanahan和Hofer[36]所说的“社会增强”。这方面的研究通常侧重于环境的适应和缓冲,以使个体达到其遗传潜力。缓冲或社会增强环境可以是,例如,刺激健康饮食、体育锻炼、家中有很多书或不吸烟的父母。 或者,那些在FTO(即肥胖相关)基因上具有两个多态性的更“危险”等位基因的人可以避免将其转化为高BMI,如果他们进行补偿,例如,高度锻炼身体。 使用该理论的一系列研究检验了认知能力和智力的遗传,以及这些指标的遗传影响如何随社会经济地位而变化。这源于Turkheimer及其同事[7]的上述研究,他们表明,只有在社会经济地位最高的人群中,才会意识到基因对智力的影响。那些来自低风险环境(例如,高社会经济地位)和IO或认知能力较高的PGSs的人更有可能实现其遗传潜力。即使是处于低风险环境中的低PGS组(即认知能力遗传分数较低)的患者也比处于高风险环境中的患者表现更好。无论他们的基因分数如何,那些来自高风险环境的人的教育成就都是最低的。这一发现已经在几项研究中得到了成功的复制,例如塔克·德罗布及其同事关于幼儿认知[41]和数学能力[42]关系的研究。然而,Turkheimer等人的最初发现避免了在一些非美国环境中的复制,如英国[43]和荷兰[44]。正如我们在其他地方注意到的那样,基因对IO影响的调节差异可能与国家之间的环境差异有关。历史时期、社会经济地位和不平等程度[13,45]。

第三种:微分磁化率模型

微分磁化率模型

差异易感性模型[6]也是素质应激模型的变体。两种理论都表明,个体对环境影响的易感性存在差异。素质-压力模型几乎只描述了与负面影响相关的这种区别。如图6.1中幅所示,微分敏感性模型有时也称为塑性模型。假设存在对消极和积极环境都敏感的群体。一些人还将其称为对语境的生物敏感性模型或蒲公英假说[46]。任何试图种植兰花的人都知道,它需要专业护理的精细组合才能生存,而蒲公英在任何环境中都能茁壮成长。非常危险的环境(例如,低社会经济地位)允许表现出遗传脆弱性,导致不良结果,而低风险或高度富集或补偿的环境(例如,高社会经济地位)允许实现并繁荣遗传倾向。 该理论还假设个人对环境具有一定程度的可塑性或适应性,有些人更容易受到积极和消极环境的影响。其特点是交叉交互;当具有高PGS(遗传风险)和高环境压力源时,出现结果的可能性最高的人,当具有低遗传风险和低环境风险时,出现结果的可能性也最低。其他人更详细地关注了区分素质应激和差异易感性模型的细微差别[47]。Belsky等人[48]也进行了出色的讨论。这个模型的一个例子是South和Krueger[8]关于“兰花”效应的研究,即身体健康与个人婚姻关系质量之间的关系。作者发现,在高度痛苦和高度满意的夫妇中,主观健康的遗传率最高。

第四种:社会控制或社会推动模式

社会控制或社会推动模型

社会控制模型,有时也称为社会推动模型,假设在存在社会限制性环境的情况下,基因关联会减弱或减弱。换句话说,该模型不强调环境对遗传贡献的直接影响,而是强调在强烈环境影响的情况下,遗传倾向可以减弱。这可能包括社会规范,如生活事件发生时间的年龄规范、父母监督或限制某些社会行为和环境暴露(如吸烟或饮酒)的宗教规范。 尽管Shanahan和Hofer[36]分别介绍了这些理论,但正如我们之前所指出的,这些理论在概念上经常重叠,并且具有相似的结果,因为它们都涉及到保护潜在有害遗传倾向的环境背景的存在。在社会控制模型中,环境由结构过程和社会规范施加的约束组成。在社会补偿模型中,环境因实际缺乏压力或丰富方面的表现而引人注目[39]。素质-压力模型侧重于遗传倾向和压力存在的结合。社会控制和补偿模型关注的是可能抑制或抑制较低遗传倾向的环境环境,从而导致有害的结果或特征。一些研究表明,青少年吸烟是如何随着父母监控水平的提高而减少的[37]。其他人研究了酒精代谢的遗传学,以及某些等位基因对饮酒的影响程度,以及与宗教、家庭环境和童年逆境的关系[49]。社会控制也可以采取政策的形式,例如一项研究表明,在美国各州,吸烟的遗传性显著降低。这些州对香烟销售实行了限制性政策,并提高了税收[32]。

第五种:研究GxE的研究设计

研究GxE的电子搜索设计

面临的第一个挑战是确定理论模型,如果没有广泛的文献综述和对特征、主要预测因子和环境条件变化的深刻理解,这通常很难实现。对于许多新手(甚至是经验丰富的研究人员)来说,第二个通常是无法克服的挑战是无法为这些模型阐明一个合理的生物学途径。在这里,必须直接与生物学家合作,或精通本书未涵盖的下游生物和功能分析。本章广泛指出的第三个挑战是,研究人员在某些课题中采用候选基因方法时应保持沉默,并小心重复研究。第四个挑战是研究中暴露或表型的测量不一致。由于原始表型测量缺乏协调性,研究有时无法复制。正如我们在讨论E时所指出的,一个相关的问题是,可以在多个层次和不同的时间段观察到环境条件。 第五个问题是,环境往往被视为接近的环境调节因素,因此与实际因素相去甚远。在这里,重要的是要了解个人的具体情况以及他们在特定环境中面临的风险。第六个挑战是,在某些情况下,过分强调个人环境,忽略了更大的现象,例如夫妻或群体层面的行为和更大的文化过程。在这里,我们鼓励研究人员区分人们的个人行为和行为发生的环境。然后,表6.2阐述了与该研究领域缺乏多样性相关的两点,第4章对此进行了详细讨论。在这里,我们注意到GWAS研究样本选择性方面的问题,即健康志愿者的偏见和来自少数几个国家的受试者的极端集中,以及欧洲血统的受试者比例过高。 最后剩下的五点是方法问题。确定样本量是否足以检测G×E关联至关重要,我们在第2章和第4章中讨论了这一点(另见方框4.1),因为单步分析可能会承受多重比较负担(即,由于同时比较了许多SNP),研究人员还应考虑两步测试。由于分析中通常只使用乘法标度,因此同样重要的是在加法标度上评估相互作用,以确保相互作用不归因于标度度量。一个常见的错误是,交互效应实际上是由混杂因素驱动的。为了避免这个问题,有必要在测试G×E相互作用的同一模型中输入环境协变量和基因相互作用协变量。最后,作为这些G×E模型中PGS基础的标准GWAS结果可能会掩盖环境影响(见第4章)。

基因与环境的相关系数

rGE,类似于环境相关。

在基因-环境相互作用(G×E)和基因-环境相关性(rGE)之间的区别上经常存在相当大的混淆。基因-环境相关性(rGE)是一个基因和环境共同作用和串联变化的过程。换句话说,rGE是个体基因型影响或与暴露于环境相关的现象。这是心理学和精神病学的一个长期研究领域[55.56]。这也让人想起了个体-环境相关性社会学中成熟的生命历程模型,该模型描述了个体的行为、能力或个性如何塑造其环境[57]。这些研究通常试图揭示遗传倾向如何控制或影响环境暴露的因果机制。这些遗传变异通常通过特定行为间接影响环境暴露。Plomin及其同事于1977年首次描述了三个主要的rGE过程[55],并将其分类为被动、唤起和主动。

辅助基因-环境相关性(rGE)

被动基因-环境相关性(rGE)是指儿童从其父母那里继承的基因型与儿童成长环境之间的关联。父母不仅将遗传物质传递给他们的孩子,而且还创造了一个受其自身可遗传特征影响的家庭环境。例如,在一篇科学论文中,以作者所称的与教育程度、生殖行为和健康相关的“非传递等位基因”的形式对这一观点进行了实证检验[58]。换句话说,虽然父母通过有性生殖和基因重组传递他们的遗传物质(见第1章第1.2节),但他们未传递的遗传物质的其余部分仍然影响着他们孩子居住的环境,被动rGE解释了观察到的孩子行为与其环境之间的相关性。例如,考虑那些攻击性强并且受到父母惩罚(例如打屁股)的儿童。如果这些父母也比平均水平更具攻击性,他们创造了一个包括身体训练的环境,但也会将攻击行为的遗传风险传递给他们的孩子。这增加了他们的孩子变得更具攻击性的可能性,并且作为父母,更有可能使用身体训练[59]。另一个例子是受过高等教育的父母的各种交配。如果父母双方都受过高等教育,他们就会创造一个学习、监督家庭作业和更高教育期望的环境。同样,他们也传递了获得高等教育的更高联合遗传风险(通常与认知能力相关)。 研究被动rGE的一个挑战是,结果可能代表了环境和特质之间的虚假关系。虚假关系是指由于第三个遗漏(或混淆)变量的存在,另外两个彼此没有因果关系的变量被误认为是相关的。如果我们以第一个例子为例,施以攻击性行为的父母在身体上惩罚甚至虐待孩子的风险更大。这种身体虐待可能是父母传染给子女的遗传风险,而不是儿童自身攻击行为的因果风险因素。

呼唤(或反应)rGE

呼唤性(也称为反应性)基因-环境相关性(rGE)是指个体的可遗传特征引起环境中其他人的反应。基因上倾向于某些个性特征的儿童,例如内向和相关的强迫行为,例如害羞,可能在同龄人面前显得难以接近或冷漠,而同龄人因此通过他们的反应强化了这一特征。或者,考虑更高的抑郁基因倾向与伴侣(婚姻)冲突之间的关系。基因关联和婚姻冲突可能是由于与抑郁伴侣交往中的问题而产生的,实际上并不代表婚姻冲突和抑郁风险的因果关系。

活性rGE

主动基因-环境相关性(rGE)或生态位创造是指个体主动选择或创造与自身遗传倾向相关的环境。喜欢冒险或性格外向的人可能会积极寻找这些环境。那些在受控环境或受社会规范(如宗教规范、税务局)高度监管的环境中感到更舒适的人,更有可能寻找有利于他们偏好的同龄人和环境。

为何rGE模型重要

尽管与基因-环境相互作用模型相比,rGE模型的研究较少,并且难以进行实证检验,但rGE模型之所以重要有几个原因。首先,他们检查了我们可能无法完全理解环境风险暴露与我们研究的特征之间的关系的可能性。基因和环境可能相关的事实意味着环境暴露(例如,在儿童时期)与特征或结果之间的简单因果关系模型可能会混淆。 其次,我们对因果关系的理解往往过于简单化,无法衡量随时间变化的相互因果关系,例如受基因影响的行为如何引发反应,进而强化该行为。这反映了之前提供的一个例子,一个性格内向的害羞儿童可能会表现出看不见的行为,并引发被同龄人忽视的反应,这反过来又强化了这种行为。第三,他们告诉我们,我们正在研究的特质是如何随着时间的推移而发展的,与前面讨论的多时维度有关。导致某些特征的生命过程和发育途径越来越被认为是重要的。rGE的研究朝着了解个体随时间变化对其环境的相互影响的方向发展[60]。这可能解释了遗传力如何随年龄变化的研究结果,解释了受遗传影响的行为会影响环境与个体互动的方式。这一领域的研究正在提供越来越多的证据,证明从基因到环境的途径涉及环境。换句话说,环境中没有特定的基因,相反,基因可能引发行为和能力,进而塑造个人的环境。

研究rGE的研究设计

通常很难确定我们观察到的环境暴露和我们研究的特质之间的关系是否是因果关系,因为它通常是一个复杂和相互作用的过程的结果。虽然这超出了本介绍性书籍的范围,但一些研究人员开发了独特的研究设计来研究这些过程,例如准实验设计[61,62]。其他人则使用了一些设计,例如包括通过辅助生殖技术怀上孩子的父母,其中父母在生物学上是相关的,但也使用精子、卵子或胚胎捐赠[63]。然后,他们比较了亲子行为之间的关联,以估计被动rGE。其他人使用准实验设计和兄弟姐妹对的统计匹配来排除引起rGE混淆男性婚姻状况和反社会行为之间联系的可能性[64]。rGE模型仍然是一个具有挑战性的前沿,因为rGE的规模在不同的背景下有所不同。生命过程阶段,涉及与个人及其环境的相互作用。家庭内部和人口内部各不相同[65]。

结论和未来方向

为什么没有识别出许多GXE?

检测和复制G×Es一直是该研究领域的主要挑战之一。如前所述,一个基本挑战是缺乏与低统计能力相关的可复制性,以及检测即使是低到中等程度的相互作用效应所需的大量样本量。其次,我们通常假设G和E中都存在测量误差,这反过来会降低检测真实关联的总体能力。关于G,我们承认因果遗传位点很少被直接测量或理解。当使用具有多个遗传位点的PGS时,测量误差和对遗传预测因子的生物学基础的理解更为明显。还需要注意的是,我们通常依赖连锁不平衡(LD)来定位一个区域,但很多时候并不是真正的因果基因。如第3章所述,单倍型块的大小不同,某些变体的LD有时非常高。在这方面,对更多样化的人群进行测序和研究可能会有所帮助。第三,如前所述,关于E,在测量环境的多个方面和环境因素的高度相关性方面往往存在困难。回应往往是不断增加样本量。然而,一种更具成本效益和精度的测量方法,不仅可以测量E,而且可以测量我们研究的性状,显然是一种更有效的解决方案。第四,虽然很不可信,但G×E理论上是令人满意的,但并不存在。由于我们通常只检测最近出现的常见遗传变异,选择压力可能已经消除了所有大的G×E效应,让我们真正发现没有G×E。即使G×E对罕见变异或罕见环境情况很重要,我们目前的方法也可能使其几乎无法检测。对未来研究途径的一个建议是对分析进行分层,以确定可能出现G×E的亚组。例如,Aschard和他的同事显示了与乳腺癌相关的SNP的年龄特异性等位基因几率,这将使人们能够关注那些最能从该疾病的基因筛查中受益的人群[66]。

练习

分割线


大家好,我是邓飞,一个持续分享的数据分析师