英国公布世界最大全基因组数据集,但不适用研究亚洲人健康问题

·除了全基因序列数据之外,数据库还收集了50万名志愿者身上超过10000项生物指标,包括血压、认知功能、饮食和骨密度等。通过将这些数据联系起来,研究者们就能够探究精准医疗相关的问题,比如为什么带有相同致病基因的人却对同样的治疗有不同的结果、反应和副作用。

当地时间2023年11月30日,英国生物数据库UK Biobank公布了迄今为止世界上最大的全基因组序列(whole-genome sequence)数据集,包含近50万人的基因数据。这些数据将通过UK Biobank的云平台向全世界的申请者开放。

“对于从事健康研究的科学家来说,这个数据库毫无疑问是一个宝库。我期待全球的研究者们可以通过它做出诊断、治疗和药物方面的转化性成果。”UK Biobank的项目负责人、英国医学科学院院士(FMedSci)Rory Colins教授在数据库官方新闻中说。

UK Biobank开始于2006年,是一项由英国卫生和社会福利部(DHSC)资助的长期生物样本研究计划。该计划的目标是通过收集志愿者的基因、生物和健康数据来研究疾病和生物特征之间的关系。2010年,该计划完成了对50万年龄在40岁至69岁的英国居民志愿者的招募,并持续收集他们的生物样本、全身扫描数据以及健康和生活方式数据。除此之外,在参与者同意的情况下,该数据库还通过英国国家健康服务(UK National Health Service)所保存的医疗记录来追踪参与者的病史。UK Biobank称,所有的数据均剥离了参与者的姓名、住址等个人信息。

在2012年之后,UK Biobank开始陆续发布测得的健康数据以及基因组数据,包括DNA标志物扫描数据与外显子组数据。2021年,UK Biobank发布了一个初步的全基因组数据集,包含20万人的数据。而这次发布的数据在质量和数量上均有提升,包含491554名参与者。据悉,UK Biobank此次项目受到英国政府、一家投资公司以及四家制药公司共计2亿英镑(约合18亿人民币)的投资。

UK Biobank的数据通过其网络研究分析平台向全世界申请者开放。目前已有来自90个国家的超过3万名研究者成功申请使用数据库,并产生了超过9000篇经过同行审议的研究论文。

全基因组数据助力精准医疗

通过研究全基因组序列,研究者们能够发现基因的编码和非编码区域中生物特性与罕见基因变量之间的关系。编码基因又称“外显子”(exon),能够翻译成蛋白质,而非编码基因是指那些不直接负责蛋白质合成的基因。这些基因占据了基因总数的98%,且对生物性状具有重要调控作用。目前人们对非编码基因还知之甚少,而这次公开的全基因组序列将成为研究它们的重要材料。

在这些数据的基础上,研究人员有望以更高的成功率来开发药物。目前全世界有超过四分之一的在研药物因为药效差而无法通过临床试验。《自然·遗传学》(Nature Genetics)上刊载的一项研究显示,包含直接基因证据的药物机理研究对药物研发至关重要,能够提升两倍的临床试验成功率。大数量的全基因组数据有助于研究人员发现疾病靶点,从而进一步明确疾病和药物机理。

“这个里程碑式的数据集能够让我们借助人工智能的力量来快速识别新的疾病靶点,帮助研究者们根据基因来预测候选药物对特定病患群体的影响。这将使得临床医学发展更加高效,使我们在通往精准医疗的道路上迈进一步。”强生公司的创新药物研究部执行副总裁John Reed博士评论道。

“精准医疗”(Precision Medicine)是目前公共卫生领域炙手可热的概念,于2008年由哈佛大学商学院一位教授提出,其基本含义是通过研究人的基因、环境和生活方式等因素之间的复杂关系,以制定出更加精准的治疗方式。大数据基因组学是精准医疗的基础之一,通过对比分析健康人群与患病人群基因的差别,研究者们能够发现基因与疾病的关系,从而进行精准防治与个性化治疗。

UK Biobank在官方网站上透露,除了全基因序列数据之外,数据库还收集了50万名志愿者身上超过10000项生物指标,包括血压、认知功能、饮食和骨密度等等。通过将这些数据联系起来,研究者们就能够探究精准医疗相关的问题,比如为什么带有相同致病基因的人却对同样的治疗有不同的结果、反应和副作用。

多国部署全基因组计划

尽管有着史无前例的样本数量和参数数量,这一数据集仍然存在值得注意的缺陷。首先,参与计划的志愿者在健康程度和社会经济地位上都要高于英国民众的普遍水平。其次,在50万样本中大部分人是欧洲白人血统,非洲血统和亚洲血统的志愿者只有各约1万人。这意味着研究者们难以使用这套数据来研究非洲和亚洲人健康问题。

使用本国数据能更好反映当地居民的基因特征和生活环境。目前,多国正在开展收集海量居民健康信息的研究计划。美国国立卫生研究院(NIH)于2015年启动All of Us研究计划,目标收集100万人的基因组学信息和其它生物信息,为精准医疗产业提供基础。该计划目前已公布25万组全基因序列数据,但是仅提供给美国的学者使用。该项目在2018年的预算为2.9亿美元,约合20亿人民币。

中国也在积极加强精准医学研究布局,在2016年公布的《“十三五”国家科技创新规划》中部署构建了百万人以上的自然人群大型健康队列、重大疾病专病队列和罕见病的临床队列研究等,预计投资2.5亿元。中国科学院生物物理研究所的徐涛院士与何顺民研究员发起的“女娲”中国人群基因组计划,是已发表的唯一高深度测序中国参考人群全基因组队列,第一阶段包含5000多例样本。该项目于2023年8月15日发表了第四项研究成果。

参考文献:

1. World’s largest genetic project opens the door to new era for treatments and cures: UK Biobank’s major milestone

https://www.ukbiobank.ac.uk/learn-more-about-uk-biobank/news/world-s-largest-genetic-project-opens-the-door-to-new-era-for-treatments-and-cures-uk-biobank-s-major-milestone

2. https://www.science.org/content/article/uk-biobank-releases-half-million-whole-genome-sequences-biomedical-research

https://www.science.org/content/article/uk-biobank-releases-half-million-whole-genome-sequences-biomedical-research

3. All of Us Research Program Overview

https://allofus.nih.gov/about/program-overview

4. 中国队列研究建立和发展现状

doi: 10.11847/zgggws1125238