科学研究

威尼斯电子游戏大厅郭国骥教授团队Nature Communications发文提出基因组变异解码框架Huatuo

发布日期:2023-07-27 点击次数:

2023年6月30日,Nature Communications在线刊登了威尼斯电子游戏大厅特聘研究员王晶晶和双聘教授郭国骥,以及威尼斯电子游戏大厅基础医学院教授韩晓平团队的学术论文“An analytical framework for decoding cell type-specific genetic variation of gene regulation”。该研究提出了一种新颖的分析框架Huatuo(华佗),可仅依据来自少量生物学个体的基因表达谱,实现对突变转录效应在细胞类型水平上的推断,为解析复杂的基因表达遗传调控机制提供了一种高效途径。该研究还进一步构建了一个全面的细胞类型特异性基因调控遗传变异景观,并通过各种基准测试验证了分析结果的合理性。最后,团队探索了基因组遗传变异与复杂表型之间的关系,为复杂性状和疾病的驱动细胞类型和因果变异提供了系统性见解。



640.png


自人类基因组计划完成20年以来,基因组学的研究取得了相当大的进展。然而,由30亿碱基对组成的人类基因组序列绝大部分都是非编码区域,人们对其潜在功能的理解只是冰山一角。在过去的十年中,大量工作致力于在全基因组尺度上研究基因表达的遗传调控机制,表达数量性状位点(eQTL)及其靶基因(eGenes)的发现弥补了复杂表型全基因组关联研究(GWAS)的局限性,使其进一步的临床应用成为可能。尽管如此,在GWAS所确定的与复杂表型相关的非编码突变中,有相当一部分无法通过已知的eQTL位点获得功能注释,人们对位于非编码区的遗传变异的理解仍然非常有限。组织样本中的细胞异质性也限制了人们对非编码突变功能的更深入理解。

在这项研究中,研究人员在方法学上进行了两个方面的扩展。首先,团队提出了一种基于单细胞表达谱推断细胞亚群依赖性eQTL的新方法,以揭示更多在传统分析中被掩盖的非编码突变与基因之间的关联。其次,团队改进了现有的深度学习模型,提出了一种基于单细胞表达谱建立细胞亚群特异性预测模型的方法。通过模拟DNA序列的碱基替换,该模型可以预测突变在每个细胞亚群中的转录破坏效应。最后,研究团队将这些方法整合到一个名为Huatuo的框架中,并开发成一个工具供广大研究者使用。该框架可以利用少量生物学个体的scRNA-seq数据,探索细胞图谱和全基因组范围的细胞类型特异性基因调控遗传变异。


640 (1).png


为了证明分析方法的可行性,研究团队首先对Huatuo模型的预测表现进行了系统性的评估,并发现Huatuo模型能够直接基于DNA序列准确预测基因表达的水平。对于来源于20个不同组织的357个细胞亚群,测试集基因的预测和实际观察到的基因表达水平之间的皮尔森相关系数(PCC)中位数达到了0.763,而在肾脏、胃和横结肠的某些细胞亚群模型中,PCC甚至超过了0.80(图左)。接着,为了检测突变效应预测结果的合理性,团队还测试了模型是否可以仅基于DNA序列重现基于人群数据得到的eQTL结果。尽管一些转录破坏效应非常大的位点可能由于负向选择作用在人群中及其罕见,进而导致eQTL统计力度的不足,但测试结果仍然显示,在同一个连锁不平衡区域中,突变预测效应的最高绝对值和eQTL z-score大小表现出显著的相关性(图右)。


640 (5).png

此外,研究团队也对细胞依赖性遗传关联的分析结果进行了检测。通过对114套GWAS数据集进行贝叶斯共定位分析,发现Huatuo计算出的cell cluster-ieQTL能够揭示那些在使用标准eQTL分析时无法检测到的共定位信号(图左)。然后,团队使用了GWAS性状因果基因的“银标准”数据集,将其与cell cluster-ieQTL揭示的共定位基因进行比较。与预期一致,研究团队观察到,具有更高PP.H4的GWAS性状-基因对在“银标准”数据集中显著富集(图右)。总的来说,这些结果显示了Huatuo推测的cell cluster-ieQTL结果在生物学上是合理的。


640 (6).png


研究团队于2020年发表了人类单细胞转录图谱Human Cell Landscape (HCL),在单细胞尺度上系统性地表征了人体主要组织的基因表达特征。然而,如果想要推测各细胞类型在人群中基因表达变异的遗传调控位点,传统的关联分析方法通常需要超过100名生物学个体的基因型数据以及匹配的单细胞转录组数据,这对于很多组织和细胞类型的样本来说是不现实的。在这种情况下,Huatuo框架提供了一个有效的解决方法。研究人员通过应用Huatuo框架,仅基于HCL转录组数据进行推测,识别出大量的细胞依赖性eQTL以及人群中所有常见突变在不同细胞亚群的调控效应,最终构建了44种主要细胞类型的特异性基因调控遗传变异景观。该景观覆盖了人体主要组织类型和细胞谱系,包含13182个具有调控功能的非编码突变,以及6181个表达水平与之相关的基因。



640 (7).png


利用114个GWAS数据集,研究人员全面评估了Huatuo景观对各类复杂疾病和性状的遗传力贡献。基于Huatuo景观,团队估计了GWAS数据的SNP遗传力在细胞类型特异性调控位点的富集情况,并证明了其在揭示疾病驱动细胞类型方面的潜力。此外,这些推测结果还能够在单碱基尺度/细胞类型尺度上,为GWAS揭示的疾病关联位点提供见解。例如,对于哮喘GWAS的一个位于非编码区的关联基因座,研究人员先通过贝叶斯精细映射分析识别其具有最高后验概率的因果突变集合,然后,将该集合映射到Huatuo景观,发现该遗传关联背后的分子机制:可能是突变在粒细胞中特异性地改变了AP5B1的基因表达水平(如图)。类似地,针对多种人类复杂性状,研究团队揭示了与这些性状关联位点可能具有因果关系的细胞类型特异性基因表达调控。


图片1.png

最后,为了更好地展示这些结果,团队构建了Huatuo遗传变异的数据库网站https://bis.zju.edu.cn/huatuo/),以促进生成的数据资源在未来研究中的应用。


640 (8).png


总之,该研究克服了当前因技术方面的不足和样本收集困难所导致的瓶颈,提供了一个解码非编码突变功能和研究疾病基因组的新范式。这些研究结果将推动功能基因组学领域的进展,为阐明对疾病发生至关重要的细胞通路以及实现精准医疗和个性化医疗奠定基础。

威尼斯电子游戏大厅基础医学院2020级博士生肖彦宇、威尼斯电子游戏大厅特聘研究员王晶晶、威尼斯电子游戏大厅基础医学院2019级直博生李佳琦和威尼斯电子游戏大厅基础医学院博士后张霈婧为本文共同第一作者。威尼斯电子游戏大厅特聘研究员王晶晶和双聘教授郭国骥,以及威尼斯电子游戏大厅基础医学院教授韩晓平为本文的通讯作者。研究获得了国家重点研发计划、国家自然科学基金的支持。