踏雪无痕系列·开篇——入门篇
我们都需要有地方可以去探索而不依靠别人施加在我们身上的眼光,只有在一个不必被放大检视的地方我们才可以真正地测试出自己的极限。真正的私域才能允许不同声音、创造力和个人试探式的谎言。
Glenn Greenwald in Huffington Post
主张你不在意个人隐私的权利因为你无不可告人之处,这就等同于你不在意言论自由因为你没什么事情可说。
Edward Snowden on reddit
安全圈有一句名言:
“绝对的安全是不存在的”。
只要付出足够高的成本,任何安全防线都可以突破
摘要
本文主要讲在现今的网络个人信息保护脆弱下而进行一系列的防止泄露和进一步保护的措施和思路也是
踏雪无痕系列的入门开篇介绍。系列文中借鉴了很多国内外的隐私保护文章进行一个系统的总结和扩展,不谈具体技术只讲思路。因为单就一个点就可以开展非常多的内容。所以希望通过这个系列可以给圈内信息安全工作者和普通人民敲一个警钟,提供系列的防范隐私泄露的措施!
正文
揭露数据和隐私的共同观点:“我没有什么可隐瞒的”。“谁在乎人们是否知道我早餐吃什么?”; “我只有百万分之一,谁能看到我?”等等。我们知道你会说的7件事!
1.我有什么见不得光的?
你是否有隐藏完全无关紧要。隐私不是关于隐藏——这是关于自治,权力和控制;隐私不是隐藏,而是关于自主、权力和控制,它是关于你决定如何向世界展示自己的能力。
考虑到收集到你的大量数据,大部分都是你看不到的,这对你的隐私的侵蚀现在很小几乎没什么影响,但对你的工作或将来的工作有影响。
2.我不在乎别人是否知道我早餐吃什么?
不是所有的数字痕迹都是重要的,不,也许你吃的早餐没有关系。但是当你仔细观察你创造的数字痕迹时,你会发现一个组合:有些可能是非常平庸的(你的早餐),但是其他的可能更个人化——你去哪里(也可以显示你在做什么,和谁一起),或者你的健康问题是什么。想想你和谷歌分享的仅仅是通过搜索——这些可能是你甚至没有和你的伴侣或者你最亲密的朋友分享的东西。
问题是,你真的能说出数字跟踪的区别吗?如果不能最好是保密,而那些无关紧要的。今天看起来平淡无奇的东西明天可能是重要的,或者对别人来说可能是有趣的,或者可能比你想象的提供更多关于你的信息。
3.这只是互联网?
找工作还是申请信用卡?公司可能会向您提供谷歌或从数据代理购买您的配置文件。预订航班?你确信在你以前的搜索的基础上没有价格歧视吗?或者更糟的是,一个Twitter的笑话被储存起来,影响你是否获得签证。
即使你把电脑和手机放在家里,当你进入地铁时,闭路电视摄像机记录下你的脸;你的交通卡被记录;当你到达目的地时,一个朋友拍了张照片,在你的标签上贴上标签,然后把它贴到Twitter上。
仍然认为它只是互联网吗?互联网就在你周围,你的数字痕迹成了你的名声。影响着你未来!
4.但我只是百万人中的一个……怎么会有人看到我?
你能想象有人坐在电脑后面,分析数以百万计、数十亿人所产生的数据痕迹吗?事实上,是机器在做这项工作——机器和算法,特别是用来分析大量的数据。
“百万分之一”并不意味着你可以躲在人群中;这意味着当机器将你的数据与所有其他数据进行比较时,更容易找到离群值。
5.但是我的保险有折扣。
当你去看医生时,你的交流受到保护。这是编码在普遍的概念,病人医生保密,以确保你可以说出你的想法,而不是担心可能的后果,如你的健康保险费上升。
但你很乐意与保险公司分享一个可穿戴式健身追踪器的数据,它能监测你的脚步、呼吸和心率,并能感知得慢性病和身体压力的可能性,以换取小的折扣。
6.但是我免费得到这项服务
你得到它并不是是免费的-你是用你的数据进行支付。免费的东西往往是最贵的!
7.我不是来自西方,这对我来说不是问题。
数据收集是一个全球性问题。非洲国家和美国的贷款机构已经开始使用社会媒体和手机记录来评估信用度,即决定他们是否会给你贷款。同样在中国现在也在使用这种方式来进行评估一个人的社会信用等等。
隐私概念
物理隐私:主要指个人有自己单独的物理空间,并有拒绝他人进入的自由。
信息隐私:个人控制、编辑、管理和删除关于自己的信息的能力;并有决定如何与他人沟通自己信息的自由。
个人信息
身份可以(或已被)识別的自然人(即“数据主体”)相关的信息。包括但不限于:
姓名,身份证件号码,地理位置,生理、精神、经济、文化、社会等特质因素;还包括电邮地址、电话号码、指纹、IP、社保号码、宗教、婚姻状态等信息。
敏感个人信息
族群、政治立场、宗教信仰、工会成员、基因/生物信息、健康/性状况、性取向。
国内一些厂商还把这些信息归入“个人信息”
银行帐号、身份证号、护照号码、密码、手机号码等。
个人信息的风险级別:
- 高影响性个人信息: (泄漏用户个人信息)会导致 违法,对公司的运营、财务和声誉产生严重影响。
- 中影响性个人信息: 对公司产生不利影响,对数据主体有较大不利影响(如通信地址、年龄等)。
- 低影响性个人信息: 对公司的影响可控(如帐号ID、性別等)。
匿名化和假名化
假名化(Pseudonymization,也称化名):个人信息中包含的身份信息 可以被假名替代。两个属性:
(1)和假名相关的其他属性不足以识別出这些属性关联的数据主体;
(2)除假名分配者外,隐私相关方(如 数据控制者)在有限努力下无法根据假名逆推出数据主体。
匿名化(Anonymization):对个人信息数据进行不可逆改变的过程。处理后将无法直接或间接识別出数据主体,或者识別需要不合理地耗费大量时间、成本和精力。
数据脱敏(匿名化/假名化)方案
匿名化
| 方法 | 描述 | 优势 | 劣势 | 建议 |
|---|---|---|---|---|
| 掩码 | 替换为 ** 等 | 长度不变 | 风险较高,信息持有者易识別 | 针对字符串 |
| 截断 | 丟属性值后几位 | 保留部分属性信息 | 同上 | 针对字符串 |
| 加噪 | 增加随机值 | 无法还原 | 数据失真,不能同时使用 | 允许失真的数值型 易重新识別 日期偏移取整 | 在偏移基础上取整, | 保护数据的时间分布密度 | 风险高,易推理 | 针对日期型字段 舍弃精度 置换/shuffling | 把表中某字段各记录随机打乱 | 无法还原 | 不能单独使用 | 需要保留求和/均值等的数据 |
假名化
| 方法 | 描述 | 优势 | 劣势 | 建议 |
|---|---|---|---|---|
| 偏移/variances | 加一个固定值 | 可以还原;支持计算处理 | 风险高,可推理 | 需计算处理的字段 |
| 置换/permutation | 将原始值映射为一个新值 | 如有转换表则可还原 | 转换表须放在安全区域 | 需数据还原的场景 |
| 枚举 | 映射为一个新值 且保留 | 支持排序处理 | 风险高 排序仍然暴露 | 需数据排序的场景 |
| 排序 加密 | 通过密钥加密 | 数据无损失 可解密还原 | 风险较高 不算匿名化 可解密 | 需数据还原的场景 |
| 哈希 | 使用加盐 密钥 Hash函数 | 数据长度固定 计算速度快 通常无法还原 | 风险较高 易被破解 | 数据不需还原的场景进行转换 |
| 标志化 | 用加密 索引 函数 随机数 | 无损失 可还原 | 风险较高 需建立ID与Token的转换关系 | 用于ID卡号转换生成算法替换ID号 |
三类技术
1、数据屏蔽(data masking)
静态数据屏蔽(static data masking, SDM)
主要用于非生产环境
- 中间库方式(in-place):把数据克隆到中间库 —-> 脱敏 —-> 导出到test库
- 原地脱敏(at-source):在原库脱敏后离开生产端 —-> 导出到test库
动态屏蔽(dynamic data masking, DDM):
用于生产环境;查询数据时基于其使用权限对相应数据进行实时脱敏(即重定向)。
- 基于视图view的模式:预先静态生成好已脱敏的版本(只支持关系型数据库);
- 基于代理的屏蔽:所有数据请求都须警告代理设备,被代理拦截并进行透明替换(支持非关系型数据库)
- 屏蔽算法(与之前介绍的如掩码、加噪等技术相同)
2、等价类匿名技术 (equivalence class)
- L-多样性原则:L-diversity
- T-关闭:T-closeness
3、差分隐私 (Differential Privacy) 技术
- Differential Privacy
- 随机化回应原理 Randomized Response
几种隐私保护技术的风险抵御 之比较
Y:可以抵御;N:不能;可以无:视怎么使用/使用程度
| 技术 | 直接识別风险 | 链接攻击风险 | 推理攻击风险 |
|---|---|---|---|
| 假名化 | Y | Y | Y |
| 加噪 | Y | 可以无 | 可以无 |
| 置换 | Y | Y | 可以无 |
| K-匿名 | N | Y,风险为 1/K | 可以无 |
| L-多样性 | N | Y | Y |
| 差分隐私 | 可以无 | 可以无 | 可以无 |
| 哈希/标志化 | Y | Y | 可以无 |
隐私保护七原则
合法、正当、透明
有限制的(收集/使用数据的)目的
最小化数据:尽可能匿名化和/化名
准确性:数据及时更新
存储期限最小化:没有再使用必要的数据,须及时删除
整体性和保密性
问责/信度(accountability):对用户负责,能对外展示遵从上述原则
网络隐私与网络安全的领域差异
网络隐私关注领域:
不可关联性 —透明性 — 可干预/可控性 — 保密性 — 整全性 — 可用性 。
网络安全关注领域:
不可关联性(unlinkability):不可从数据/系统的信息中关联到用户的个人信息。
后续的文章会对每个点深入的展开让大家可以更多的了解相关知识。写这篇文章的主要目的就是让大家注意自己的隐私,也不是让大家都这样的全方面的进行隐私保护注意因为这样就本末倒置也会让人心累。保持平常心淡然面对每一天做一个阳光开朗有思想的人即可。
转载优化自:https://mdrights.github.io/os-observe
- 原文作者:码中春秋
- 原文链接:https://blog.taielab.com/2018-10-24/getting-started-manual.html
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。