50万人数据库UK Biobank使用介绍、数据申请攻略

2023-12-01 MedSci原创 MedSci原创 发表于威斯康星

截止日前,在 PubMed 数据库中使用UK BioBank作为检索词,可以发现使用该数据库发表的学术论文已经高达9,869项,其中不乏医学顶级期刊 NEJM,Lancet、JAMA 及其子刊。其中,

截止日前,在 PubMed 数据库中使用UK BioBank作为检索词,可以发现使用该数据库发表的学术论文已经高达9,869项,其中不乏医学顶级期刊 NEJM,LancetJAMA 及其子刊。其中,中国学者参与的研究也高达2426项。可以说,这是宝藏数据库,面向全球研究者开放共享。例如:NEJM:可改变危险因素对心血管疾病和死亡的影响,这项研究就使用UK BioBank数据库进行分析的。

一、什么是 UK BioBank?

UK BioBank(英国生物银行)是英国迄今以来规模最大的有关致病或预防疾病的基因和环境因子的信息资源库。目的是探求一些特定基因、生活方式和健康状况之间的关系,提高对一些遗传类疾病致病基因的理解,包括癌症、心脏病、糖尿病和一些特定的精神疾病。

该项目已经在英国境内采集 40 至 69 岁人群中 50 万份志愿者的基因信息和血液样本、生活方式及环境暴露数据,并跟踪记录他们之后数十年的健康医疗档案信息。

研究期间,所有疾病、药品处方以及参加者死亡等都将被记录在库,以供英国国家医疗服务体系(NHS)利用并管理,成为了全球少数大规模的人体生物健康信息库之一。

图片来源:网页截图

二、UK Biobank 数据库有哪些重要信息?

1、流调数据

(1)社会人口因素、吸烟和饮酒状况、家族史(常见癌症、心血管疾病等)和个体早期的一些暴露因素(出生体重、母乳喂养、母亲吸烟、儿童体型)等。

(2)环境因素。调查问卷考虑了大量潜在的环境暴露,选择被认为是常见疾病影响的指标,这些问题包括当前住址、出生时的居住地、职业和其他工作场所因素、被动吸烟暴露、室内空气污染和使用手机频率。

(3)饮食习惯。主要是包括食物频度问卷、24 小时饮食回忆和多天饮食回忆问卷。

(4)参与体育活动情况。主要是体力活动强度(剧烈、适度),体育活动频率,关于常见久坐活动的问题也被纳入。

(5)心理和认知状态。在心理状态方面,调查问卷的方法是在标准化问卷的基础上评估心理特质和情绪,并记录影响心理症状的严重事件及其医学表现。

2、体格检查

身体测量指标。当志愿者完成问卷后,接下来会进行一系列的身体测量过程,包括血压(和脉搏)、身高、体重、腰围、臀围、握力、肺活量、骨密度数据。

3、生物样本检测、组学检测

主要收集的血液数据和尿液数据,用于进行基因组,蛋白质组,代谢组学的检测。

2023年11月又发布了50万人的全基因组测序数据。详细见:UK biobank新增50万人全基因组数据,面向全球研究者开放共享

4、电子医疗记录数据

包括,死亡和癌症登记数据、入院诊断数据、全科医生数据、其他医疗(如处方、病理报告、影像报告、筛查)与健康有关的数据。

UK Biobank 数据库 大样本、前瞻性、精细化的特点

(图片来源:UK Biobank 官网)

这项数据库中,包含有大量的疾病数据。见下图:

Demographic and clinical characteristics UKB 50,000 WES participants UKB 500,000 participants
Number of participants 49,960 502,543
Number of women (%) 27,243 (54.5) 273,460 (54.4)
Age at assessment in years (Q1–Q3)a 58 (45–71) 58 (45–71)
Body-mass index in kg m−2 (Q1–Q3)a 26 (21–31) 26 (21–31)
Number of imaged participants (%)a 12,075 (24.1)b 21,407 (4.3)b,c
Number of current and past smokers (%)a 17,515 (35.0) 216,482 (43.1)
Townsend deprivation index (Q1–Q3)a −2.0 (−6.1, −2.1) −2.1 (−6.2, −1.9)
Inpatient (ICD10) 3-digit codes per patient (Q1–Q3) 5 (2–9) 5 (2–9)
Patients with ≥1 inpatient ICD10 diagnoses (%) 42,066 (84.2) 391,983 (78.0)
Genetic ancestry assignmentd
African (%) 1.49 1.24
East Asian (%) 0.54 0.51
European (%) 93.6 94.5
Cardiometabolic phenotypes
Coronary disease (%) 3,340 (6.7) 35,879 (7.1)
Heart failure (%) 300 (0.6) 4,399 (0.8)
Type 2 diabetes (%) 1,541 (3.0) 17,261 (3.4)
Respiratory
Asthma (%) 8,250 (16.5) 68,149 (13.5)
COPD (%) 741 (1.4) 7,438 (1.4)
Oncology phenotypes
Breast cancer in women (% in women) 1,657 (6.1) 16,772 (6.1)
Ovarian cancer (% in women) 162 (0.6) 1,777 (0.6)
Pancreatic cancer (%) 602 (1.2) 4,611 (0.9)
Prostate cancer (% in men) 848 (3.7) 8,855 (3.9)
Melanoma (%) 598 (1.1) 5,715 (1.1)
Enhanced measuresa
Hearing test (%) 40,546 (81.1) 167,011 (33.2)
Visual acuity measured (%) 39,461 (78.9) 117,092 (23.2)
IOP measured (left) (%) 37,940 (75.9) 111,942 (22.2)
Autorefraction (%) 36,067 (72.1) 105,989 (21.0)
Retinal OCT (%) 32,748 (65.5) 67,708 (13.4)
Electrocardiogram at rest (%) 10,829 (27.1) 13,572 (2.1)
 
注:英国生物银行(UKB)外显子组测序联盟对454,787名UKB参与者的外显子组进行了测序。95.8% 的目标碱基覆盖深度为20X或更大。实验使用的是(Integrated DNA Technologies,IDT公司的)外显子组WES产品,我们在18,893个基因的编码区的3,900万个碱基对中鉴定了1,230万个变异,其中99.6%是稀有变异(次要等位基因频率 [MAF] 在所有人种中均<1%)。该数据库超过了TOPMed和gnomAD合并数据集中包含的编码变异约1.3倍,并且通过插补算法可将UKB中的编码变异增加约8倍。在确定的变异中,有3,457,173个(每个人 10,273 个)同义突变、7,878,586个(每个人9,292个)错义突变和915,289个(每个人214个)功能丧失(pLOF)变异,其中大约一半在这个数据集中只观察到一次,大约23% (1,789,828) 的错义突变被五种预测算法预测为有害。这种独特的编码变异数据库,结合大样本量和数以千计的可观测表型,为前所未有的规模评估基因功能提供了独特的机会。

三、UK Biobank 申请流程

研究者在申请 UK Biobank 研究数据和生物样本前,需在 UK Biobank 官方网站注册一个 Access Management System(AMS)账号。

登陆 UK Biobank 官方网站(https://www.ukbiobank.ac.uk/),进入网站后选择「Research login」。

图片来源:网页截图

点击进入 UK Biobank 的「Research login」,即可进入可转至 UK Biobank Access Management System 登录注册页面「AMS Login」。

图片来源:网页截图

在 AMS Login 页面中,点击「Sign up to access UK Biobank resources」按钮,进入 Sign up 页面。

图片来源:网页截图

在 Sign up 页面中必须填写姓名、E-mail 地址(应为研究者所在大学和研究机构的专用邮箱)、密码等信息。填写完成后勾选「I'm not a robot」,然后点击「Sign up」即可完成账号注册。

需要特别注意的是,因为国内服务器限制的原因,reCAPTCHA 验证通常加载不出来,这时候可以通过委托国外的朋友或使用一些插件来解决。

在 Registration 页面,根据要求继续完成个人有关信息的登记,包括完善个人科研背景并上传个人英文履历(CV)和完善研究者所在研究机构的相关信息。

在申请提交后,会出现提示页面,表示申请正在审核,正常情况下需 3~5 个工作日。

四、UK Biobank 研究资源检索

注册成功后,即可在 AMS Login 页面(图 2)中输入 Uesrname 和 Password 登陆。

「Showcase」一栏是对 UK Biobank 数据的展示,研究者可通过所需的数据字段对数据库进行检索。

研究人员可在「Showcase」页面,通过输入关键词、编码或查看分类目录等多种方式对相关数据和样本情况进行检索。

对于初次使用者来说,强烈建议阅读用户指南,点击「User Guide」即可打开用户指南。

图片来源:网页截图

通过UKB官方网站进入Data Showcase,点击Browse,根据数据项的层次类别和子类别中来查找感兴趣的数据项。这种方法是系统性的寻找一类数据的方法。按原始类别进行搜索,数据以树形结构呈现,可通过点击浏览获得,根据收集数据的来源分为七种类别。

这些类别包括: 

1)Population characteristics,人口特征,这个类别包含参与者的一般特征数据。

2)UK Biobank Assessment CentreUKB评估中心,这一类别包含了评估中心收集的信息,并根据评估的类型(如触屏、语言面试、身体测量、生物采样)被分为子类别。

3)Biological samples,生化样本,该类别包含UKB在评估中心采集后收到的生物样本的类型和数量信息(样本清单),以及进行的测定及其结果。

4)Genomics,基因组信息,UKB目前包含以下基因组数据,488,000名参与者的基因型及其填充数据,5万参与者的外显子组序列,50名参与者的全基因组序列。

5)Online follow-up,在线的随访数据,此类别包含基于UKB使用在线问卷进行的额外评估的信息。

6)Additional exposures,额外的暴露因素,这一类别包含基于在评估中心以外进行的其他评估的信息。

7)Health-related outcomes,健康相关的结局,该类别包含通过与一系列健康相关记录的链接提供的参与者健康结果有关的信息。这些数据集还在不断累积,数据库也在定期更新,

这七个大的类别下面还有小的类别,小的类别还可以分更小的类别,有三个level的数据。

当然,也可以直接进行搜索,通过UKB官方网站进入Data Showcase,点击Search,进入Search 界面。

但是如何寻找我们感兴趣的数据呢,使用Category前提是需要我们知道感兴趣的数据的类别,比如我们想知道UKB数据中是否含有Vitamin D的数据,我们需要知道Vitamin D是生化指标,一般是从血液中检测,血液又属于生物样品类别,因此我们直接找到Browse里面的Biological samples数据集,这个数据集又包括了Blood assays、Saliva assays和Urine assays数据,在这里我们就知道应该从Blood assays数据集寻找数据Blood biochemistry,在这个数据集中,我们最终找到了Vitamin D aliquot(Field ID 30890),Vitamin D assay date(30891),Vitamin D correction level (30893),Vitamin D correction reason(30894),Vitamin D missing reason(30895)和Vitamin D reportability(30896)。最后我们根据Field ID号(后面会再次介绍)在自己数据中就能定位到数据了。

上面有六个搜索条件,包括Data-Field,Data-coding,Category,Resource,Return, Genomics。通过选择相关的搜索类型按钮,可以进行数据编码、类别资源和基因型数据的搜索,例如我们想要找到vitamin D 的数据,我们就在Data-Field中搜索,最终在搜索完的界面,能找到许多包括vitamin D的数据,同时也能找到vitamin D的数据,例如进入Field ID 30890 Vitamin D 数据中,我们会看到图六的数据。

我们可以获得的信息是30890这个数据来源于血液生化指标,有449,953个参与者(Participants),共收集到469,389个数据(Item count),数据类型(Value Type)是连续型变量,除了基线数据外,并且是含有一次随访的数据(Defined (2),2006-2010,2012-2013年),同时还对这部分数据有一个初步的统计量的描述,例如均值为48.58nmol/L,标准差为21.433。关于这个数据的详细介绍可以参阅Resources里的两个PDF文件(Biochemistry assay quality procedures.pdf,Companion document for serum biomarker data.pdf)。另外从Categories选项卡中可以看到数据所属的类别和子类别。它还在页面顶部的类别树中水平显示。Data-Field是非常重要的编号,在确定选取的数据后,它的编号,是后面要提取数据的唯一编号。除了搜索Data-Field外,UKB网站还能搜索大类的搜索条件,例如选中Category后,在搜索窗口中搜索lifestyle,可以看到两个大类Lifestyle和Lifestyle and environment,点进去又有很多小类的关于lifestyle的数据,这个功能对我们搜索成系统一类的数据还是很有帮助的。除了搜索基本的表型信息外,Search功能还能提供genomics的搜索条件,在这个窗口下,你可以搜索SNP的rs号,通过在染色体上的位置信息寻找是否包含在UKB基因组数据中。

UKB数据使用介绍

当我们通过UKB的申请后,会收到一封包含32字符MD5校验和64字符的电子邮件,UKB中的数据都是保存在一个安全的在线存储库中,所有标准数据下载后必须解密并转换成合适的格式才能使用。

第一步,需要下载三个帮助程序来解密和转换数据,“ukbmd5”,“ukbunpack”,和 “ukbconv”。这些程序可以从UKB主网站的Data Showcase中的download下载,帮助程序可以选择Windows系统跟Linux系统下版本。但是使用Windows系统的研究者来说,需要使用命令提示符窗口下运行(可以使用Windows+R进入,但是路径需要跟三个帮助程序下载的位置保持一致),Linux系统需要在终端运行命令。除了上述的三个帮助程序外,在ukbconv转换数据过程中,还需要一个“encoding.ukb”的文件用于将编码定义分配给数据集中的变量,这个文件是兼容Windows跟Linux系统的,这个文件也需要跟上面的帮助程序在一个文件中。

第二步是要下载数据集,首先须登录到访问管理系统(Access Management System),导航到Downloads界面,进入Datasets,根据ID号,点击进入下载数据。在这里,需要进行身份验证,通过输入32字符的MD5校验(MD5 Checksum)进行验证(一长串字母和数字),并选择generate,将打开一个包含数据集链接的新页面。选择Fetch按钮下载加密数据集,尽量将数据集保存在与帮助程序相同的文件目录中。

第三步,数据解密和转换过程,如果是选用的Windows系统的,需要进入命令提示符窗口,然后进入到帮助程序及加密数据集所在的目录下(cd +位置信息),接下来需要验证加密数据集的完整性,输入命令ukbmd5  filename(加密数据集名字),运行此命令时产生的MD5的值应该与通过电子邮件提供的MD5值相同。如果值不同,则应删除文件并重新下载数据。当加密数据集通过验证后,接下来需要ukbunpack程序进行加密数据集的解密和解压为一个自定义的UKB格式,所用到的命令是1, ukbunpack inputfile keyvalue, 其中keyvalue表示来自通知电子邮件的64个字符的密码。命令2,ukbunpack inputfile keyfilekeyfile是包含密码的纯文本文件的名称。默认情况下,下载的文件命名为“ukbN”。,其中N是整数(申请号)。将解压缩此名称的文件以生成“ukbN.enc_ukb”。

到这一步,我们已经有了基本的数据,利用ukbconv程序(ukbconv inputfile format)可以将此数据集“ukbN.enc_ukb”转换为各种标准格式,例如csv,docs,sas,stata,r等数据格式,便于利用相应的软件进行后续处理分析,另外如果申请的数据量非常大的话,而分析只是用到一部分数据的话,我们还可以从ukbN.enc_ukb数据中提取用到的一部分数据,所用到的命令是ukbconv inputfile format flagfile-ID, Flag,主要是包括:

1)-i 后面跟一个txt文件,这个文件是一个每行都有一个字段Field-ID号的txt文件(例如Vitamin D 30890),需要提取的数据的Field-ID号都放进这个txt文件中,最终提取的数据就是含有这个txt的Field-ID的数据集。

2)–x,但是-x是原始文件中去除掉所在txt文件标注的Field-ID号,提取剩余的数据。

3)–o, 为输出文件指定一个替代名称。

4)–e,指定要从其它文件中提取编码信息的,默认是“encoding.ukb”。由于原始文件一般很大,提取数据非常耗时,因此我们一般是从Linux系统中进行提取数据,用到的命令如图七,

图七,Linux系统下进行数据的提取

提取的数据格式是r语言可以运行的tab文件。Field-ID.txt,是所用到的数据的Field-ID号(一行一个号),最终得到的数据名字是final_data。注意,大型数据集可能需要较长的时间(可能几个小时)转换,完成后,数据集将在指定的文件目录中输出。当获得所需数据后,就可以开始进行各式分析。

如何申请 UK biobank 的研究数据和生物样本?

在了解数据和样本的基本情况后,若要下载使用数据和样本,则需进行申请。

在 AMS 主页中,点击「Application」按钮,在弹出页面中点击「Start new application」,在「Newapplication」页面中,按要求逐项填写申请信息,包括研究的简要概述、研究方法、目标和预期产出、所需数据集的类型和大小、研究的关键词、研究项目的持续时间等内容。

图片来源:网页截图

全部填写完成后点击「Submit form」即可提交申请。

在申请中要注意,研究者需明确是否仅申请研究数据还是需要申请生物样本或与参与者重新联系,后两者的申请需经过更严格的科学性或伦理性审查。

申请的数据或样本不是免费提供,费用取决于所批准的研究项目需要的数据和样本量的大小。

需要注意的是,在研究者提交申请后,UK Biobank 管理团队的审核委员会会分小组对每一份申请进行科学性审查,最终确定批准或拒绝申请。

小结

随着大数据时代的到来,基于大样本人群的研究对于医学的发展和促进人群健康具有重要的意义。而对于医学科研工作者来说,UK BioBank 数据是不可多得的宝贵资源。

内容来自基因姑娘等

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (2)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2172258, encodeId=190f21e2258f4, content=NEJM:可改变危险因素对心血管疾病和死亡的影响, beContent=null, objectType=article, channel=null, level=null, likeNumber=27, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=2d3d3015017, createdName=jshbyywk2008, createdTime=Fri Dec 01 07:21:46 CST 2023, time=2023-12-01, status=1, ipAttribution=河北省), GetPortalCommentsPageByObjectIdResponse(id=2172241, encodeId=993c21e224156, content=<a href='/topic/show?id=18ff5e7388f' target=_blank style='color:#2F92EE;'>#数据库#</a> <a href='/topic/show?id=43ed1080e969' target=_blank style='color:#2F92EE;'>#UK biobank#</a> <a href='/topic/show?id=a4c010808005' target=_blank style='color:#2F92EE;'>#数据申请#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=36, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=108079, encryptionId=43ed1080e969, topicName=UK biobank), TopicDto(id=57738, encryptionId=18ff5e7388f, topicName=数据库), TopicDto(id=108080, encryptionId=a4c010808005, topicName=数据申请)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Fri Dec 01 04:03:14 CST 2023, time=2023-12-01, status=1, ipAttribution=威斯康星)]
    2023-12-01 jshbyywk2008 来自河北省

    NEJM:可改变危险因素对心血管疾病和死亡的影响

    0

  2. [GetPortalCommentsPageByObjectIdResponse(id=2172258, encodeId=190f21e2258f4, content=NEJM:可改变危险因素对心血管疾病和死亡的影响, beContent=null, objectType=article, channel=null, level=null, likeNumber=27, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=2d3d3015017, createdName=jshbyywk2008, createdTime=Fri Dec 01 07:21:46 CST 2023, time=2023-12-01, status=1, ipAttribution=河北省), GetPortalCommentsPageByObjectIdResponse(id=2172241, encodeId=993c21e224156, content=<a href='/topic/show?id=18ff5e7388f' target=_blank style='color:#2F92EE;'>#数据库#</a> <a href='/topic/show?id=43ed1080e969' target=_blank style='color:#2F92EE;'>#UK biobank#</a> <a href='/topic/show?id=a4c010808005' target=_blank style='color:#2F92EE;'>#数据申请#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=36, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=108079, encryptionId=43ed1080e969, topicName=UK biobank), TopicDto(id=57738, encryptionId=18ff5e7388f, topicName=数据库), TopicDto(id=108080, encryptionId=a4c010808005, topicName=数据申请)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Fri Dec 01 04:03:14 CST 2023, time=2023-12-01, status=1, ipAttribution=威斯康星)]

相关资讯

2022年《中国全科医学》高影响力论文名单发布

高PCSI论文:同年度同学科同种文献类型(研究型、综述型文献)的国内期刊、会议论文中,PCSI指数排名前1%的论文,即高PCSI论文Top1%。

The Lancet Psychiatry:抗抑郁药和抗精神病药的副作用和个性化处方:系统回顾和数字工具开发

副作用数据库和数字应用软件促进了协作式、个性化和循证处方决策,支持提供符合国际精神分裂症和抑郁症治疗监管指南的护理服务,因此有望为精神科实践提供信息并改善疗效。

中国初步建成两个国家级罕见病数据库

国家卫生健康委规划发展与信息化司司长毛群安28日指出,目前,罕见病诊断和治疗还缺少有效的方法和产品。

BioCyc数据库介绍 23.5更新版

地址:https://www.biocyc.org/

重要速看!大数据告诉你哪些因素容易引起隆胸术后早期并发症!

早期并发症发生在手术后数周内,包括血肿、早期血清肿、感染、植入物丢失和伤口破裂。