健康大数据安全要闯哪些技术关
本网:医圣祠 信息来源:医圣祠 更新时间:2018-10-17
□中国信息安全测评中心 陈锦
对于医疗行业来说,大数据一直是一个待挖掘的“金矿”,但是对于大数据应用存在的问题,很多人还停留在数据安全、数据共享等表层的名词理解上。
为了让大家深度理解大数据应用存在的安全挑战,本文特整理中国信息安全测评中心大数据安全高级专家陈锦近日在北京健康医疗大数据论坛上的演讲,从技术的角度剖析,大数据安全风险究竟是如何产生的,会带来什么影响,如何建立防护体系。
医疗大数据有四个特征
健康医疗大数据有四个特征。一是高度敏感。这些数据和个人直接相关,涉及个人隐私;价值高,是其他类别数据的50倍以上,极易成为被攻击的目标。二是处理方式的变化。因为大数据量大、类型多、变化快,需要新型的计算架构来处理,包括分支计算、分支存储等;同时,在分析的时候,需要用到一些机器学习的算法。三是应用理念的变化。现在大家都知道,要应用健康医疗数据去辅助医疗决策,提高工作效率。这就带动了业务创新,即数据业务化,基于医疗大数据进行分析挖掘,发现新价值,推出新产品,提供新的基于数据的服务,如疾病预测、预防等。四是数据流动。在开放共享的过程中,数据不可避免地需要流动。数据业务化和数据流动带来两个重要的数据安全问题,即数据泄露、数据滥用等。
在IT时代,各个业务系统是相互独立的,而且各个业务系统之间没有交集。而到了大数据时代,各个业务系统会进行汇聚融合,形成一个新的数据集,然后再进行数据挖掘分析,开辟新的业务。这种模式典型的应用,就是华大基因推出的肿瘤基因检测服务。第二种是第三方应用,依托相关的业务系统访问数据,对外提供分析服务。第三种是通过数据合作的方式,实现数据的交换和共享。这种模式的典型应用就是健康医疗大数据交易中心。通过以上三种模式,基本实现了数据业务化的特点,以及数据在不同的组织机构和网络区域内进行流动的特点。
安全问题面临四大挑战
健康医疗大数据面临的安全挑战,包括基础平台安全、数据安全、用户隐私安全、安全防护几个方面。
首先是基础平台安全挑战。
Hadoop是一个能够对大量数据进行分布式处理的软件框架,在大数据处理应用中得到广泛应用,因为其自身在数据提取、变形和加载方面具有天然优势。但是,Hadoop最初是考虑在可信的环境中运行,没有考虑安全机制问题。在运行过程中,发现存在数据被篡改、作业被恶意提交等问题,随后加入数据认证、访问控制、加密等安全机制,但是仍然存在不足,表现在三个方面。一是在身份管理和访问控制方面,依赖Linux的身份管理与权限控制机制,不能满足基于角色的身份管理和细粒度访问控制等需求。二是在安全审计上,因为大数据系统各组件只有简单的日志记录功能,并没有原生安全审计功能,需要使用外部附加工具进行日志分析。三是这些系统是开源的,我国推出的大多数大数据产品是基于开源设计的,但开源组件缺乏严格的测试和安全认证,对组件漏洞和恶意后门防范能力不足。
另外,传统访问控制机制难以满足需求,这表现在几个方面。一是多源数据大量汇聚增加了访问控制策略制定和管理的难度,过度授权和授权不足现象严重。二是非结构化和半结构化数据精细化描述困难,无法准确为用户指定其可以访问的数据范围,难以实现最小授权原则。三是数据存储和流动场景复杂,使得数据加密的实现异常困难。海量数据的密钥管理也是亟待解决的难题。
同时,大规模集群安全配置难度成倍增长。因为开源Hadoop系统的身份认证、权限管理、加密、审计等功能都没有实现的话,必须对各个组件进行安全配置。但是目前并没有有效的技术手段能评估安全配置效果的好坏,从而导致系统存在很多问题,甚至数据泄露事件的发生。2017年6月,Shodan互联网搜索引擎分析显示,Hadoop服务器因配置不安全导致海量数据暴露,涉及4500台HDFS服务器,数据量高达5.12PB。
第二是数据安全挑战。
健康医疗领域数据泄露事件时有发生。今年8月,因为MongoDB数据库安全配置不当,导致墨西哥200万公民的医疗健康数据泄露。2016年7月,我国30个省份至少275位艾滋病感染者的个人信息遭泄露。
数据泄露的潜在隐患同样不容乐观。据Shodan统计,截至2017年2月3日,中国有1504个MongoDB数据库暴露在公网,存在严重安全问题。IDC市场研究公司预计,在2020年,全球42%的电子健康数据会处于无保护状态。
内部威胁是健康医疗领域数据泄露的主要原因。根据Verizon发布的报告统计,医疗行业是内部威胁高于外部威胁的唯一一个行业。一方面,健康医疗行业的数据安全意识薄弱,管理不严;另一方面,系统安全防护能力不足。一些行业内部员工在经济利益或者好奇心驱使下窥探患者隐私,盗取数据。
数据采集环节是影响决策分析的新风险点。健康医疗大数据量大、种类多、来源比较复杂,为数据的真实性和完整性校验带来了困难。目前并没有有效的机制,去对数据的真实性和完整性进行鉴别,无法剔除虚假、恶意数据。这导致一些黑客通过网络工具的手段向数据采集终端中注入脏数据,破坏数据真实性,引导数据分析的结果,实现操纵数据分析结果的目的。
数据开放共享面临诸多因素制约。一是权利属性制约,在大数据时代,谁拥有了数据,谁就有了发言权。二是财富属性制约,数据是新的“石油”,谁拥有了数据,谁就拥有了财富。三是体制机制制约,政策法规层面缺乏指导数据开放共享的具体细则。以上种种,导致这些数据不愿开放、不敢开放、不能开放、不会开放。
数据流动的复杂性导致数据存在被滥用的风险。数据流动路径变得复杂,不再是以前单向、单路径以及在组织内部的简单流动模式,而是变成双向、多路径、跨组织的复杂流动模式。这种模式下,跨越了数据控制者和安全域,数据溯源中数据标记的可信性验证困难,数据标记和数据内容之间捆绑的安全性难以保证,导致数据无法追踪溯源,加剧数据被滥用的风险。
第三是个人隐私安全挑战。
传统隐私保护技术因大数据的超强分析能力可能失效。数据分析挖掘带来隐私泄露风险。我们在进行隐私处理的时候,用到的算法、规则都是不一样的,这种情况下,就会对多来源、多类型的数据集进行关联分析和深度挖掘,可能会复原匿名化数据。
传统隐私保护技术难以适应非关系数据库。大数据的很多数据是半结构化或者非结构化的,基本通过非关系型数据库(NoSQL)进行存储,目前并没有严格的访问控制机制及相对完善的隐私保护工具来适应这种非关系型数据库的保护。
第四是安全防护挑战。
大数据是一把双刃剑,分析结果满足业务目标、业务需求的同时,也对安全防护技术带来挑战。传统的攻击一般是窃取数据,或者是瘫痪系统,攻击的效果要么是让系统宕机,要么是信息泄露。但是现在大数据的攻击目标变成了污染数据和干扰分析结果,攻击的效果是使分析结果发生偏差。这种污染数据或者影响数据分析结果的行为是很难检测的。
在数据开放共享的过程中,更多的角色参与进来,增加数据泄露风险;数据跨域传输和脱离挂空,导致数据管理和流向追踪困难,数据滥用存在风险;传统的静态隔离安全保护方法满足不了需求,必须通过动态变化的视角分析和判断数据安全风险,构建以健康医疗数据为中心的动态风险控制和持续监测防护体系,应对数据流动过程中面临的安全风险。
防护要从三方面着手。一是建立大数据安全保障体系,重点保障数据在流动过程中的安全。二是开展大数据安全分析,重点针对数据内容污染、干扰分析结果的行为来进行分析;三是建设大数据安全风险评估体系,从主动识别风险、消除风险的角度去开展工作,提前把风险控制在能够接受的范围内。