揭秘:中移软件全生命周期数据安全防护平台

先后参与集团OSS4.0、集团集中化经分、内蒙古大数据平台、上海统一汇聚平台等大型项目建设,参与《中国移动大数据安全防护技术实施指南》规范撰写,负责Hadoop平台安全技术研究项目、“门神计划”防数据泄漏系统项目等多个安全项目。为中国移动集团公司技术咨询委员会安全领域专家组成员。

关于大数据安全的思考

中移软件多年来一直致力于大数据平台建设,为中国移动提供大数据平台建设和服务能力。

在建设实践过程中,我们一直在思考大数据平台安全与传统数据安全的区别。从本身特征来看,大数据平台数据量大、数据涉敏,同时大数据平台底层为开源组件。从外部环境来看,GDPR和网络安全法都关注个人隐私数据,最近频发的安全事件也注意是数据泄露事件。

此前平台建设实践更多的关注于平台本身,我们做了漏洞扫描工具等,但是都是独立于数据采集、存储、处理、共享过程之外的,要真正保障大数据平台数据的安全,必须关注数据本身,关注数据生命周期,也就必须与数据采集、存储、处理、共享完全结合,不能游离在大数据处理流程之外。

全生命周期数据安全防护平台

我们将数据全生命周期精简定义为“采集传输-存储处理-数据共享”三大部分流程,其中数据采集过程涉及平台外与平台内之间的数据交互,存储处理为平台内处理过程,数据共享为平台内与平台外之间的数据交互。同时对全过程通过安全态势感知平台进行检测和预警。

图1 数据全生命周期

数据采集传输安全防护

  • 采集过程主要包括:

配置采集数据源、配置采集流程(含建目标表)、调度监控采集流程、采集数据传输四步。

  • 配置采集数据源过程:

主要通过采集白名单配置、数据源操作权限管理等手段进行安全防护

  • 配置采集流程(含建目标表):

主要通过事前敏感字段标注、安全级别设置、静态脱敏等方式进行安全防护

  • 调度监控采集流程:

通过应用程序账号认证、流程监控告警、资源相互隔离等方式保障

  • 采集数据传输流程:

通过传输加密等方式保障

图2 数据采集传输过程-静态脱敏

数据存储处理安全防护

敏感数据存储是大数据安全的难题。全生命周数据安全防护平台提供透明加密和数据完整性检查两种解决方案,加固数据存储环节,提高数据存储安全性。但是加密存储对平台性能影响大,同时对使用造成较大影响,因此一般敏感级别的数据不建议加密存储。

中移软件全生命周期数据安全防护平台更重视使用过程的安全,使用过程分4种不同场景进行防护。以数据使用场景 “用户ABC对A表X字段进行查询操作”为例,通过不同的技术手段,实现4种不同层级的使用防护。

  • 场景1:

对不起,您对A表的访问权限仅限访问Y字段,无权访问X字段。该场景使用行列细粒度权限管控技术实现细粒度数据权限管控。

  • 场景2:

对不起,您对A表的操作权限仅限插入数据,无法查询数据。该场景使用操作细粒度权限管控技术实现细粒度操作权限管控。

  • 场景3:

对不起,该操作涉敏,需要XXX审批,审批后可执行。该场景将传统数据安全手段移植至大数据平台,实现敏感重要操作的多人协同。

  • 场景4:

对不起,该操作涉敏,查询结果已自动脱敏为“188****9672”。该场景通过动态脱敏技术,使得不同使用者对涉敏数据操作得到不同结果。

图3 数据存储使用过程-金库模式

数据共享安全防护

数据对外共享一般包括两种方式:

接口方式和文件方式。

  • 接口方式

包括接口数据(JSON/XML)、流式数据(Kafka)等多种数据访问方式。我们通过API操作权限管理、API流量管控、API认证管理等手段实现接口管控。

  • 文件方式

主要指通过FTP、SFTP、邮件等对外共享数据,数据类型包括TXT、CSV、Word、PPT、Excel、网页等,平台通过数字暗水印进行安全防护。数字水印通过对文本(TXT、CSV、Word、PPT、Excel、网页等)嵌入暗水印作为标记一起传输,保障数据在发生泄漏时,能够提取水印信息并追踪至责任人,达到事后安全保护的目的。企业安全管理员、文档管理员等可以通过水印嵌入、水印提取功能,有效追溯外泄源头,实现共享数据泄露的事后追踪。解决了数据泄露后无法追踪、难以定责、难以避免再发生的问题。

图4 数据共享过程-数字水印

全流程安全态势感知

安全态势感知依托于对大数据平台操作行为的审计,对Hadoop集群业务进行安全监控,重点对用户的内部违规行为进行采集分析、监控和画像,是一种企业业务型的态势感知。通过“采集-分析-感知-告警”实现安全事件的有效感知,利用数据可视化技术实现整体风险态势的直观化呈现。

图5 全过程-安全态势感知

核心技术解析

在全生命周期数据安全防护平台中,使用到大数据技术、传输数据安全技术以及AI技术,具体包括以下方面:

结语

从产品可用到安全有效之间,还存在很大的鸿沟,例如库表敏感级别定义、字段敏感标注、对应的安全策略设置(动态脱敏、静态脱敏、金库、存储周期、加密算法)等,均暂无可直接借鉴的案例。这些实际的落地需要更多的业务人员参与进来细化,使得大数据平台真正实现数据全生命周期安全防护。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。