陈峰/沈思鹏团队在《Genomics Proteomics Bioinformatics》发表研究成果:揭示基于SNP芯片数据探索罕见变异的可行性

发布者:公卫教研办发布时间:2025-09-23浏览次数:11

2025917日,南京医科大学公共卫生学院陈峰/沈思鹏团队Genomics Proteomics Bioinformatics》(中国科技期刊卓越行动英文领军期刊)发表了题为Boosting the Power of Rare Variant Association Studies by Imputation Using Large-scale Sequencing Population的研究论文

 

 

由于单核苷酸多态性(Single-nucleotide polymorphismsSNP)芯片技术的局限性,罕见变异在传统全基因组关联研究(Genome-wide association studyGWAS)中往往被忽视。全基因组测序(Whole-genome sequencingWGS)技术的出现使得精准捕获罕见变异成为可能,这些变异在解释人类复杂性状和疾病遗传性方面具有重要意义。罕见变异统计效能较低,往往需要更大的样本量。对于复杂疾病而言,目前存在大量SNP芯片数据,重新测序成本极高。基因型填补技术,通过高质量外部参考面板(如TOPMedHRC+UK10K)对缺失的基因型进行填补,提供了一种弥补上述不足的途径。尽管已有研究表明应用填补数据开展罕见变异关联性分析能够得发现未报道的新信号,但其在不同样本量和表型类型下是否能够接近或超越WGS数据的效能,仍需进一步系统性评估。

 

 

研究流程示意图

 

主要结果解读

1. 该研究利用了样本量为150,119UK Biobank芯片填补数据与WGS罕见变异(频率<1%的变异)数据TOPMed填补数据覆盖了WGS数据中22.2%单核苷酸变异(Single-nucleotide variantsSNVs),远高于HRC+UK10K填补数据的10.0%WGS作为金标准,对不同种族(白人、亚洲人和黑人)的基因型一致性分析显示,TOPMed填补数据WGS数据的相似性显著高于HRC+UK10K填补数据,TOPMed数据的平均Cramer's V值超过0.75,表明TOPMed填补数据与WGS数据的一致性较高。

2. 针对30个生化指标和15种复杂疾病,分别使用总样本量150,119WGS数据、TOPMed填补数据与HRC+UK10K填补数据的开展罕见变异关联性分析。结果显示TOPMed填补数据发现的显著关联罕见变异数为WGS数据发现数的41.88%,而HRC+UK10K则为32.69%。当填补数据的样本量增加至488,377时,30个生化指标的分析结果显示TOPMed填补数据发现的显著关联罕见变异数相比总样本量为150,119WGS数据发现数增加了27.71%,而HRC+UK10K填补数据发现数相比之下仅增加4.7%。对于15种复杂疾病,大样本填补数据发现的显著罕见变异数较WGS数据发现数能提高近10倍。

3. 对肺癌和卵巢癌分别基于WGSSNP芯片数据开展关联分析,并对两组结果进行meta分析。单变异检验中,肺癌meta结果与卵巢癌meta结果分别发现12个、22个显著关联罕见变异,而单独使用WGS数据进行关联分析则未能保留任何显著信号。WGS+SNP芯片数据的meta策略仍能发现多数显著关联变异。

 

本研究以WGS数据作为金标准,系统评估了基于TOPMedHRC+UK10K参考面板的罕见变异填补性能。研究表明,大人群测序的TOPMed面板能够填补更多高质量罕见变异,在绝大多数场景下与WGS数据的相关性优于HRC+UK10K。但是,填补的罕见变异假阳性关联的问题仍不容忽视,尤其是MAF<10-4场景,假阳性率较高,笔者建议仍需真实测序数据进行多阶段验证。结合WGS数据和大样本SNP芯片填补数据的整合策略有助于提高罕见变异关联分析的统计效能,为复杂性状的遗传机制研究提供更全面的视角。

 

我院陈峰教授、沈思鹏副教授为论文的共同通讯作者,戴景岚/张艺昕硕士生为论文第一作者。原文链接https://doi.org/10.1093/gpbjnl/qzaf084