大数据时代,OpenSAFELY如何保证医疗数据更安全
2020年3月下旬,疫情在英国不断升级,首相鲍里斯不得不下令进入全国封锁。那时候人人自危,但是为了病人的生命安全和社会秩序的稳定,一批关键工作者仍坚守在岗位。TPP的资深开发师Jonny Cockburn就是其中之一,3月底,Jonny和他的团队临危受命,为牛津大学的研究团队设计医疗大数据研究平台OpenSAFELY。从这个想法的产生到平台搭建到论文发表,只用了不过40多天的时间。5月7号,依托这个平台大数据的第一篇新冠疫情的论文发表,截至目前,该平台已经在《自然》、《柳叶刀》等杂志发表了9篇论文。
2020年3月下旬,疫情在英国不断升级,首相鲍里斯不得不下令进入全国封锁。那时候人人自危,但是为了病人的生命安全和社会秩序的稳定,一批关键工作者仍坚守在岗位。TPP的资深开发师Jonny Cockburn就是其中之一,3月底,Jonny和他的团队临危受命,为牛津大学的研究团队设计医疗大数据研究平台OpenSAFELY。从这个想法的产生到平台搭建到论文发表,只用了不过40多天的时间。5月7号,依托这个平台大数据的第一篇新冠疫情的论文发表,截至目前,该平台已经在《自然》、《柳叶刀》等杂志发表了9篇论文。
这个项目有两个难点,第一个就是庞大的数据量,第二个就是在投入应用的同时,考虑到数据的安全和患者的隐私问题。
OpenSAFELY团队由牛津大学率领的多家研究机构和TPP组成
TPP拥有全世界最大的临床数据库,数据中心托管了超过英国70%人口数量的5,020万份电子健康档案,Jonny在他的博客中提到,OpenSAFELY需要从40%英国人口的患者记录中获取编码后的医疗数据,即2400万患者记录和超过200亿个编码条目,TPP中央数据库的数据量足以支撑整个项目的运行,但仅仅有数据基础是不够的,OpenSAFELY还需要解决数据筛选和用户隐私安全的问题。
为了解决这个问题,Jonny和他的团队巧妙的设计了一种创新的模型工具并编写了一套三级分层系统,以此增强数据访问的安全性。
三级分层系统
第一级系统:用于识别TPP数据中心的的有效数据。
第二级系统:根据特定的研究需求和约定的准则,对数据进行筛选,并通过匿名数据与外部数据集关联。
第三级系统:最终筛选出有效的匿名数据供研究人员使用。
OpenSAFELY平台的三级分层系统
通过这三层逐级筛选,不仅隐去了患者的个人隐私信,也筛选出了用于科学研究的有效而关键的信息。
由于OpenSAFELY平台上的所有的数据分析都是在TPP的数据中心进行,且全程未对电子病历进行任何数据转移和复制,从根本上杜绝了由于数据的复制和转移带来的不安全隐患。
OpenSAFELY平台突出优势
时效性:OpenSAFELY采用的方法能够保证统计模型运行在实时更新的医疗记录上,使分析结果更具时效性,这些优点在全球紧急卫生情况下,政府决策者需要作出快速反应时,尤为重要。
支持大规模运算且测算结果准确度高:目前,OpenSAFELY已经成功对英国国家医疗服务体系(NHS)中超过2400万名匿名患者的基层医疗记录进行了分析,还发布了导致新冠病毒肺炎致死的关键因素——研究结果证实,男性、老年人、低收入群体、血糖失控的糖尿病患者以及患有严重哮喘的人死于新冠肺炎的风险更高。其准确度比以往任何分析都高出一个数量级。
开源性:所有底层软件和研究代码均是开放性的,可以作为开放源代码工具使用,可以为更多社区和科研机构利用,从而帮助其提高科学研究水平。
目前,已有包括《自然》、《经济学人》、《纽约时报》、《麻省理工科技评论》等多家知名媒体报道了该平台及其应用的创新性方法。《经济学人》指出,这种创新方法的广泛采用有望为未来医学研究带来重大的影响,它意味着电子病历系统将不仅仅是数据的存储,更将成为医学研究基础设施中的积极一环。
2020年对所有人来说都是不平凡的一年,这一年年初Jonny喜获一对双胞胎,在博客中Jonny对她们的喜爱之情溢于言表,生活和工作让他觉得这一年格外充实。他最后提道:“我很高兴能够亲自参与OpenSAFELY平台的建设,虽然项目紧张而忙碌,但团队的高效合作使项目顺利完成且取得了令人瞩目的成果。我一直为TPP为支持英国以及全球医疗系统所做的工作感到骄傲!”
了解更多平台信息,请浏览:www.OpenSAFELY.org