人工智能新技术:联邦学习的前世今生

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.
文章作者:彭南博、王虎
内容来源:JDD风控算法

导读 1

联邦学习(Federated Learning) 作为人工智能的一个新分支,为机器学习的新时代打开了大门。JDD风控算法团队将通过联邦学习白话三部曲,为大家揭秘联邦学习的前世今生。
本段为您解读:
1. 联邦学习为什幺这幺热?
2. 联邦学习能做什幺?
3. 三合一速成法则告诉你联邦学习是什幺?
4. “百万富翁”带你揭秘如何直观理解隐私保护技术?
5. 联邦学习会损害模型效果吗?

最热门的新技术

如果投票问人工智能和大数据应用领域有什幺好玩又好用的新技术,“联邦学习”一定是排在前列的。这项技术由谷歌在2016年首次提出,从2018年8月开始在国内快速发展和普及,截至2020年2月,有公开资料可查的联邦学习研究或应用单位已超过百家,阿里、微众、京东、腾讯、华为、平安等各领域的头部企业均在大力推进。身边做技术和业务的朋友都在说:忽如一夜春风来,联邦学习突然就在圈子里传播了,在聊天中不发表点联邦学习的看法都不好意思。

最实用的新技术

第一个问题是, 为什幺联邦学习会突然冒出来、如此受欢迎呢? 我们认为有以下几个重要的触发因素。
(1)在谷歌提出联邦学习之前,欧盟就在探讨移动互联网的隐私数据保护问题,于2016年4月通过了《通用数据保护条例》,并于2018年5月强制实施,严格约束了个人隐私数据的收集、传输、保留和处理。才过半年,谷歌即被罚款5000万欧元,因为其收集和使用用户数据触犯了该条例。在中国,数据保护的法规也在不断完善。例如,全国信息安全标准委员会先后于2017年12月和2020年3月发布了两版《信息安全技术个人信息安全规范》,对个人信息收集、储存、使用作出了明确规定。大家应该还记得,在2019年10月份,几乎每个APP都在更新用户授权协议,令人不胜其烦,这就是因为相关法规趋严导致的。国内外隐私保护法规的不断完善,使得移动互联网的企业决策者不得不重新规划未来的战略方向。这是因为移动互联网的生态价值在于其海量的用户数据,如果数据不能用于生产,整个行业将受到巨大损失和挫折。
(2) 中国特色的市场环境促进了基于移动互联网的数字经济爆发式的发展,通过改善人们生产生活体验,数字经济获得快速增长并达到世界领先。例如,电商服务让我们足不出户买到生活物资,让购物更便捷、更省时间,特别是解决了出门难人群的采购难题;互联网金融实现了线上快速的风险评估和金融服务,解决了广大民众日常急用的借款需求;移动医疗使得远程问诊技术普惠大众,让患者可便捷地得到专家的指点,同时也极大地缩短了挂号、缴费等“排长队”流程的时间;个性化资讯、短视频、直播等新媒体内容极大地丰富了娱乐生活和社交,使得欢声笑语越来越多了。2018年我国数字经济总量达31万亿,GDP占比达34.8%,数字经济已成为带动我国国民经济发展的核心组成。 数字经济的关键在于数据和大数据分析技术。数据作为原料,大数据分析技术蒸馏出有价值的信息,进而帮助用户更快地找到需要的商品和媒体服务、为优质用户提供低息贷款、更准确的诊断疾病。在此次应对疫情的防控保卫战中,大数据正发挥着越来越大的作用,在科技助力下,相关部门可以尽早发现疑似病患、密切接触者,有助于及时隔离、切断传染源。然而,由于上述国内外数据隐私保护法规的推出,互联网数据分散在不同企业或者终端形成“数据孤岛”,不能直接共享或者交换,因此我们急需破解数据孤岛的技术。
在数据隐私安全保护需求和破解数据孤岛需求的背景下,联邦学习应时而生。它能够实现在不泄露隐私数据的情况下实现企业间的数据融合建模, 成为解决上述问题的首选技术 。如此实用的技术发展之迅速,普及之广泛,不足为奇。

什幺是联邦学习【三合一】

上面介绍了联邦学习的现状和用途,下面回答 联邦学习是什幺?与其他技术的区别在哪里?
从技术角度看,联邦学习是一种隐私保护的分布式机器学习技术,包括机器学习、分布式、隐私保护三个技术关键词。对这三种技术的研究已有几十年历史,但直到近年来,它们在工业实践中才做到真正结合并蓬勃发展。
第一个关键词是机器学习,它是计算机从数据中寻找统计规律的过程,用于像人一样解决不确定性问题,比如在不同光照条件下判断出熟人及其名字(人脸识别)、依据对某人历史行为的评估决定是否借钱给他(风控准入建模)以及借多少(授信额度建模)等等。人的学习过程是从书本、老师以及实践探索中不断积攒经验,成为具有“智慧”的个体;机器学习与此略有不同,它的经验来源于大量的数据,接受某个领域的数据便可成训练成为该领域的“智能体”,例如,大量的人脸图像可以训练出人脸识别或身份认证系统。利用数据获得经验的过程称之为建模;利用经验对新数据做出估计或者预测的过程称之为推理。
机器学习可解决数字经济中的诸多问题,比如说克服因服务人员经历不足或情绪不佳影响产生的偏见和歧视。这是因为在大数据时代,机器学习可获得更加全面的数据和经验,据此提升社会服务的公正性。机器学习无需人工干预即可实现智能服务,因此还可以大幅提高生产效率。例如在618购物节中,京东智能客服7*24小时不间断地为数亿用户解答疑问,这是传统人工客服团队不可能做到的。
第二关键词是分布式,是指数据被分为若干份,各份数据的存储和计算都分布在不同位置。其中,不同位置包括不同的用户终端或者企业服务器。 像手机、平板电脑这样的用户终端已逐渐成为人们生活的必需品,被广泛用于社交、获取新闻资讯、记录备忘、消遣消费等,其用户日均使用时长达到5小时(2018年移动互联网报告)。随着使用时间的增加,用户终端存储了大量的隐私数据,包括朋友聊天记录、浏览记录、日程安排、照片视频等。不夸张地说,这些数据从不同侧面展示了一个“数字化的你”。
数字化的好处在于让计算机更“懂你”,进而提供贴心的服务,例如推荐最想买的商品、找回遗忘的资料等。数字化的坏处在于隐私泄露,2019年央视3-15晚会就介绍了个人隐私信息通过手机App泄露的案例。因此,法规一般要求这些数据在非授权情况下只能存储在用户终端,或者授权情况下存储在对应的企业服务器,禁止泄露给第三方。在不传输隐私数据的前提下,分布式的机器学习可以使用存储在不同终端或者企业的数据,例如谷歌的GBoard移动键盘团队使用分布在150万用户终端的6亿个句子提升了手机输入法预测下一词的准确性,这让用户可以快速输入脑海中的字词,也能联想到新出现的流行词、缩写词等。通过这种分布式的方法,我们可以让用户享受大数据带来的良好体验,同时又能避免隐私数据的传输 。
第三个关键词是隐私保护,它是防止恶意攻击的盾牌。 分布式的机器学习可以使用分布在不同终端或者企业的数据,虽然 不会直接传输用户隐私数据,但是黑客(恶意的联邦成员)可以使用一些特殊的破解技术,利用建模阶段所需的大量中间值,推算出对应的原始数据,进而窃取联邦内的用户隐私。
隐私保护技术的主要思想是对训练过程的中间结果进⾏某种变换,以掩盖原始数据或改变其数据特性,⽐如连续性、分布规律等,从⽽使得恶意联邦成员的破解技术失效,同时还能保证诚实的联邦成员依然可以从数据中学习到经验。就相当于数据提供方将数据放入保险箱中进行传输,其他联邦成员无法打开箱子看到真实数据,但却可以在不解锁的情况下,对保险箱中的数据完成训练所需的操作;当训练完成后,数据提供方再开箱取出计算结果即可。这种理想的功能需要我们使用特殊的技术进行实现,其中常⽤技术包括差分隐私、同态加密等。简单来说,差分隐私对数据加上一定程度的随机噪声,例如将年龄从50改为46(-4)或者51(+1),这可使得某些破解技术失效;同态加密是将数据变换到另一个数域的技术,新数域的大小顺序、分布都会发生变化,所以不可能被破解出原始数据。
因此,联邦学习是机器学习、分布式、隐私保护三合一的交叉技术。与现有的分布式机器学习不同,联邦学习主要受制于原始数据分布在不同位置的严格约束,不能有任何泄露原始数据的风险,隐私保护技术是防止泄露的关键。

如何直观理解隐私保护技术?

这里我们以“百万富翁”设想为例,简单直观地说明隐私保护技术的需求和解决方案。这是个非常经典有名的案例,是由计算机界最有名的姚期智院士于1982年提出的数学难题。有意思的是,这个问题引发了更多的相关研究,并逐渐发展成为密码学的一个重要分支。“百万富翁问题”是这样的: 两个争强好胜的富翁A和B在街头相遇,如何在不暴露各自财富的前提下比较出谁更富有?
这个问题的难点在于,两个富翁都不想暴露自己的财富数量,既不想直接告诉对方也不愿借助第三方机构的帮助。如何直观地解决这个问题?我们可以参考一种“变换”的方法。假设两个富翁(A和B)的财富都在 10 B$(100亿美元)以内,则我们可以简单地用十个盒子比较出A和B谁的财富更多。
首先,由A进行如下操作:给盒子贴上编号,并按照财富值放入水果,放置规则如下:如果编号等于财富值的盒子放入橙子,编号小于财富值的盒子放入苹果,编号大于财富值的盒子放入香蕉。假设A 的财富是3 B$,则放置结果如图所示。
然后,A给所有盒子上相同的锁(即要求开锁的钥匙是一样的,依靠钥匙不能辨别盒子的编号)。这里将财富值“变换”为锁在盒子里的水果,本质是一个加密过程。
接下来A下场、B上场,B知道A的操作是编号、放水果、上锁,但是不知道每个盒子装了什幺水果。B要做的是选择与自己财富对应的盒子去除编号,并销毁其他盒子。这里去除编号的目的在于让A不知道B选择了哪个盒子,从而避免泄露B的财富数量。
最后,A和B同时上场,由A开锁打开剩下的无编号的盒子,这个盒子里对应的水果就能推断出谁更富有。这里基于水果推测结果,本质是一种解密过程。假设B的资产是5 B$,则打开盒子获得香蕉,表明B更富有;假设B的资产是2 B$,则获得苹果表明A更富有;假设B的资产是3 B$,则获得橙子表明A和B的财富是差不多的。通过这几个步骤,A和B都没有向任何人泄露自己的财富数量,但成功实现比较,这就是一种隐私保护的比较计算技术。
也许有读者会问,在这个解决方案中,B可以通过顺次比较的方式,最多9次就能破解A的财富是多少了。确实如此,这主要是因为这里只用到10个盒子,而我们可以通过增加盒子数量的方式增加破解的难度。在实际操作过程中,一般采用基于数论的密码学技术,这种技术的破解难度非常大,即使用最先进的计算机可能也需要数百年才能破解。

联邦学习效果如何?

在与其他团队进行技术交流时,我们发现很多朋友对联邦学习存在主观偏见:联邦学习的主要作用是合规地共享数据能力而不泄露用户隐私,依据经验和“没有免费的午餐”定律,隐私保护会损害机器学习的模型效果(例如预测准确性或排序性)。事实正好相反, 联邦学习并不会损害模型效果, 反而能够从如下两个方面提高业务模型的效果 。
一方面,联邦学习理论上是可以获得最优解的, 通过梯度下降迭代过程,可以实现联邦间的特征组合和交叉建模 , 从而解决如“异或”这样的非线性问题 ,这等价于把数据拼到一起后进行机器学习的效果。异或问题如下表所示:
注:“Bad” 例如不守信用的老赖
传统的子模型法为了控制数据泄露的风险,往往只能带少量样本的标签(Label)到其他企业建模,然后融合双方子模型的输出分获得最终决策,这就如同盲人摸象每次只能看到一个侧面,效果难以达到最佳。对于上述异或问题,子模型发现无论特征(Feature)是“0”还是“1”,标签分别是“Bad”和“Good”的比例都是差不多的,因此子模型的判断准确率只有50%,这和扔硬币方式的猜测差不多。相比之下,联邦学习可以建立如下图所示的决策树模型,有效地解决异或问题的判断,准确率从50% 提高到100%。
图 联邦决策树判别“异或”问题
另一方面,联邦学习由于能够保护数据隐私安全,因此无需限制建模样本的数量。也就是说, 联邦学习可以使用更多的数据建模,因而能够基于大数据更有效地发现数据规律,提高模型效果 。
上述两个方面从理论上表明,联邦建模效果优于传统子模型法。在行业实践的一个包含2家企业的联邦POC验证中,联邦学习相比于单侧模型的效果提升了13%,相比于传统子模型法也有4%的提升。也许有人质疑4%的相对提升并不高, 但是,移动互联网市场环境表明,随着拓新增量市场见顶,流量红利耗尽,存量市场的竞争将变得异常激烈,对于存量市场的精细化运营成为企业赖以生存和发展的依靠,每一点提升都将具有重要意义。此外,这仅仅是2家企业联邦的效果,随着联邦成员数量增加,联邦模型具有更多、更互补的视角,效果将会获得更大的提升。
参考文献
[1] Andrew Hard et., al. Federated Learning for Mobile Keyboard Prediction, https://arxiv.org/abs/1811.03604
[2] Qiang Yang et., al. Federated Machine Learning: Concept and Applications. ACM TIST2019. https://arxiv.org/abs/1902.04885
[3] Federated Learning: Collaborative Machine Learning without Centralized Training. https://ai.googleblog.com/2017/04/federated-learning-collaborative.html
[4] Kewei Cheng, Qiang Yang et., al. SecureBoost: A Lossless Federated Learning Framework. https://arxiv.org/abs/1901.08755
[5] 刘洋, 范涛. 联邦学习的研究与应用. https://flashgene.com/wp-content/uploads/2020/07/6naYzyZ.png”>

结语

在移动互联网时代,基于大数据的智能技术让我们的生活更便捷、娱乐更丰富、生产更高效,唯一不足在于潜在的隐私泄露。在隐私数据保护相关法规推动下,联邦学习如雨后春笋般在各大企业快速成长,成为解决隐私数据保护和数据共享矛盾的关键技术。本篇从联邦学习的基本组成、直观认识和准确性详细剖析了联邦学习技术,后续我们将继续与大家探讨联邦学习的应用前景、当前难点、技术原理和实施方案。

未完待续,敬请关注。

导读 2

上段内容回顾:

在上段内容中,我们与大家一起揭开了联邦学习的神秘面纱,探索了联邦学习成为解决隐私数据保护和数据共享矛盾的关键技术背后的原因 。

本段为您解读:

1
. 联邦学习的应用前景
2. 联邦学习应用部署难点和趋势
3. 联邦学习的具体实施方法

联邦学习的应用前景

广播、电视、互联网的相继出现,时空距离骤然缩短,世界紧缩成一个“地球村”,“连接”促成了生产效率的提升和社会经济的发展。例如,古有丝绸之路 促进了中西方的经济文化交流 ,海上航线促进工业革命成果的传播和发展(19世纪前后),今有超过50亿用户的互联网推动着知识传播、技术进步和人机协作。联邦学习也是一种“连接”工具,用于连接联邦成员的大数据资产,具有非常广泛的应用价值。
医学研究需要这样的连接工具,这是因为医学研究往往需要大量的案例分析才能发现相关性和因果规律。 例如笔者曾经研究的药物副作用挖掘项目,旨在发现在临床试验中未暴露的药物的副作用。 一方面,该项目使用了一百万患者持续六年的就诊记录,但只能发现少量常用药物的副作用,对于那些不常用的药物,这个量级的数据还远远不够; 另一方面,就诊记录属于患者隐私,医疗机构之间无法实现数据共享,这种医疗机构的“数据孤岛”阻碍了药物副作用的发现,这在事实上损害了患者的权益。
联邦学习有望在不泄露患者隐私的前提下,利用各个医疗机构的数据,加快发现药物副作用,从而减少对患者的损害。此外,医学影像标记与诊断、罕见疾病治疗、过敏源分析等,均有可能通过联邦学习获得更多的数据、找到更多的相关性,从而提高医学研究水平和疾病治疗效果。
移动互联网也需要这样的连接工具,因为用户往往希望APP能够提供更便捷的服务。例如,在使用搜索引擎时,我们希望一次找到“最佳匹配”的网站,希望在购买商品时得到“最合适”的推荐,在网上聊天时快速输入“热门”词汇,在浏览信息时获得“最需要”的新闻和视频,希望在换工作时能找到“最默契”的团队和职位。 这种“懂你”的贴心服务往往需要利用多个方面的数据,包括社交、娱乐、消费、出行等,而这些数据属于用户隐私,存储于不同的用户终端或者企业。 联邦学习能够在不泄露用户隐私的前提下,连接不同企业的数据,为用户提供更贴心的服务。
金融是联邦学习实现产业落地的重要场景,因为金融对大数据技术和创新需求非常大,占大数据市场规模的10%以上。 由于基于信用卡的消费信贷模式单一,银行无法满足消费者和小微企业多样化的金融信贷需求。 为了接近和理解用户,大型银行可以通过自建并运营移动互联网APP,提供购物、缴费、理财等生活服务,然后根据用户数据的规律不断迭代,提高综合服务水平。
然而,移动互联网APP的建立和运营需要大量的投资和快速的迭代,这对中小银行来说是一个挑战。与传统银行机构依据收支流水授信的方式不同,联邦学习能够综合利用银行收支流水和互联网大数据更好地分析用户“还款意愿”和“还款能力”,有效识别信誉不佳的用户,从而降低信贷坏账造成的成本,从而为更多的优质用户提供低息贷款,促进民众消费升级和小微企业的发展,实践国家号召的普惠金融。
目前,多家大型金融企业正在展开联邦学习技术的战略布局和应用,推出了具有行业影响力的行业解决方案和项目。例如,已有联邦学习开源项目吸引了大量开发者和应用者,在保险科技、信贷风控等场景下得到初步验证。这进一步加速了联邦学习的技术迭代和落地。
此外,从业务形态的角度来看,联邦学习的基础在于组建联邦,只有联邦的数据足够互补和完整才能形成规模效应,赢得市场竞争。联邦的关键在于信任,一方面,这依托于联邦学习技术本身的安全性,隐私数据不可能被恶意联邦成员破解;另一方面, 这需要参与方有开放合作的态度,能够不断地宣传推广联邦学习技术以及业务价值,以便更多的人能理解和使用这项技术。 就像区块链一样,用的人越多,价值就越大。 如果这项技术能够得到参与者的积极宣传,“众人拾柴火焰高”将使得这项技术得以迅速推广。

应用部署难点和趋势

目前尚未出现大规模联邦学习商业化应用,原因在于以下几个方面的难点。
1)  网络带宽不足,用户终端或者企业之间的现有网络带宽难以满足联邦学习的需要。 这是因为联邦学习需要非常大量的中间结果交互,在某些场景下需要超过100Mb/s的网络带宽才能在有效的时间内完成建模。例如,我们在与客户沟通时发现,某些银行仅支持2Mb/s的网络带宽,在样本量较大的情况下,这可能导致建模时间长达数月,无法满足业务的需求。不过我们认为,随着5G技术的发展和信息高速公路的建设,网络带宽问题将会很快解决。
2)  政府和行业协会尚未发布正式的标准和法规,企业和金融机构对新技术存在顾虑。 正在立项过程中的联邦学习标准包括IEEE 3652.1, IEEE P2830,待其正式发布后将具有全球公认权威性。此外,京东等企业也在积极参与和推动中国的联邦学习相关的国家标准立项。随着技术标准的完善和实施,企业和金融机构不再有顾虑,联邦学习将如同RSA非对称加密等新技术的应用一样无处不在。
3) 技术门槛较高。虽然市面上已有联邦学习商业解决方案和开源项目,但其稳定性和准确性方面还存在不少异常问题和挑战,需要频繁的更新迭代。 常见的移动互联网服务是面向C端消费者的,以企业自身的快速迭代为特征,因此对错误的容忍性较高。然而联邦学习需涉及多个企业,对应的解决方案需面向B端企业,并且需要企业间生成集群和研发人员进行配合,这使得联邦学习合作对异常问题的容忍度非常低。此外 ,企业需要投入较多的人力资源对联邦学习进行安全性审核、部署、调试和优化,这导致中小企业不能快速使用联 邦学习。针对这个问题,包括京东在内的大型企业在投入大量资源研发简单易用的商业解决方案,技术门槛正在逐步降低。
4)  商业模式待探索。 联邦学习能够解决数据孤岛问题并提升服务质量,进而产生社会价值和业务利润。 然而,联邦学习仍处于探索中,还没有可供参考的大规模商业应用,如何评估各个成员对联邦的贡献、如何进行利润分配仍然是个开放的问题,需要联邦成员进行探索和协商。 这一点将在互联网大数据业务需求的驱动下逐渐明朗。
综上所述,联邦学习当前仍面临很多难点,但是在巨大的应用前景的驱动下,正在快速化解。 我们认为,联邦学习将利用互联网大数据浪潮,在不泄露用户隐私的前提下,为广大用户带来更优质的服务。

联邦学习技术实施方法

为了同时满足隐私保护和模型训练的需求,联邦学习具体是如何实施呢?
回顾联邦学习的概念,它是一种隐私保护的分布式机器学习。根据分布形式的不同,联邦学习可分为两种常见的应用类型:横向联邦学习和纵向联邦学习。横向联邦学习是指当样本分布在不同位置时,通过约束各个位置使用相同特征,分别建立同质模型并进行融合的建模方式;纵向联邦学习是指当特征分布在不同位置时,通过约束各个位置使用相同的样本,从而实现多个视角联合建模的方式。
例如,典型的纵向联邦学习技术的实施方法如下图所示。
图: 纵向联邦学习技术实施方法
这个联邦包括两个成员:企业A(左侧)和企业B(右侧)。从下往上看,对于每个共有用户,企业A提供某个视角的特征X1和标签Y,企业B提供补充视角的特征X2。为了利用双方特征建立模型,传统机器学习要求将双方将每个用户的特征拼接为(X1, X2, Y),但是这种方法能够见到对方用户的具体特征,从而造成用户隐私信息泄露。与传统机器学习不同,纵向联邦学习分别在企业A和企业B部署两个容器(此处简称为联邦模盒),双方分别将数据存放于联邦模盒之中,如上图中部所示。
在 训练阶段 ,由包含标签Y的一方发起模型训练请求,通过基于同态加密中间计算结果的梯度下降算法实现建模。 值得注意的是,这里传输的并非原始隐私信息,而是经过加权计算的中间结果,并使用同态加密技术进行双重保护,因此具有非常好的安全性。 建模产生的模型被分布式地存储在两个联邦模盒之中,其中与企业A的特征相关的部分模型存储于联邦模盒A中,与企业B的特征相关的部分模型存储于联邦模盒B中。
在 推理阶段 (上图的上部所示),由包含标签Y的一方发起打分请求,双方依据各自的特征和部分模型计算某种形式的中间状态,并在企业A汇总形成最终得分。 尽管模型分布式地存储在不同位置,但从结果上看,这与整合模型打分的准确性是一致的。 同时由于打分过程中看不到对方的原始隐私信息,因此推理阶段也是安全的。
参考文献
[1] Andrew Hard et., al. Federated Learning for Mobile Keyboard Prediction, https://arxiv.org/abs/1811.03604
[2] Qiang Yang et., al. Federated Machine Learning: Concept and Applications. ACM TIST2019. https://arxiv.org/abs/1902.04885
[3] Federated Learning: Collaborative Machine Learning without Centralized Training. https://ai.googleblog.com/2017/04/federated-learning-collaborative.html
[4] Kewei Cheng, Qiang Yang et., al. SecureBoost: A Lossless Federated Learning Framework. https://arxiv.org/abs/1901.08755
[5] 刘洋, 范涛. 联邦学习的研究与应用. https://flashgene.com/wp-content/uploads/2020/07/RvYRRvV.png”>

结语

如果说大数据是互联网时代的燃料,那幺联邦学习就是互联网时代的多缸发动机,促进互联网应用提供更优质的服务。本篇主要介绍了联邦学习前景、难点和实施方式。下篇将围绕隐私保护的算法原理进行更详细的介绍。关于联邦学习的应用场景,你又有什幺看法呢?欢迎在公众号里给小编留言。
未完待续,敬请关注。

导读 3

上段内容回顾:

刚刚 ,我们与大家一起揭开了联邦学习的神秘面纱,探索了联邦学习成为解决隐私数据保护和数据共享矛盾的关键技术背后的原因,以及联邦学习应用的 前景、难点和实施方式 。
本 段 为您解读:
1. 密码技术的那些事儿
2. 联邦学习的加密原理
如前文所述,联邦学习是一种隐私保护的分布式机器学习技术。其中,隐私保护是联邦学习的关键,这是因为传统的分布式机器学习虽然可以实现联邦成员之间的大数据建模,但是容易被黑客破解,导致⽤⼾隐私泄露。密码技术是最常见、最有效的隐私保护方法,可以兼顾数据的可用性和隐私安全性。
密码技术的那些事儿
密码(crypto)的概念由来已久,但与我们的手机解锁“密码”或者WiFi“密码”不同。这些由我们自己设置、用来验证身份的数字或者字母的组合,并非真正意义上的密码,而是“口令”(password)。与简单的口令相比,密码技术则是指通信过程中的一种混淆技术,将明文的消息转变为第三方不可识别的消息,在通信过程被窃听时,防止消息的机密性被泄露。准确地来说,密码技术将明文消息加密成密文,发送给通信的接收方,接收方在收到密文后使用密钥进行解密,从而恢复明文。
然而,看似复杂的密码其实并不神秘,反而与我们的生活息息相关。
我画蓝江水悠悠,
爱晚亭上枫叶愁。
秋月溶溶照佛寺,
香烟袅袅绕经楼。
电影《唐伯虎点秋香》中的一首”我爱秋香”便是一种安全性较弱的“密码”,将真实含义(明文)隐藏在每句诗的头部,这种隐藏的逻辑便可视为密码系统中的“密钥”,不知道这个逻辑的人看到的只是一首刻画风景的诗(密文),从而起到了隐藏“话外之音”的作用。
由此可见,密码对我们来说并不陌生。它源于人类生活中对隐私和机密性的需求,最终也发展成为了一门系统的科学,服务于人类的社会活动。纵观密码学的发展,可将其大致分为两个阶段:古典密码学和现代密码学。其中现代密码学又可分为两个分支:对称密码学和公钥密码学。
古典密码学的历史可以追溯到古罗马时期,凯撒大帝曾将简单的字母移位方法作为加密手段,用于军事活动中,保护战时通信的机密性。该方案被称为凯撒密码。由于凯撒密码中所有的字母移位的顺序和位数都是相同的,其破译难度较低,为了提高安全性,在凯撒密码的基础上演变出了维吉尼亚密码,在字母移位时,不同的字母进行不同数量的移位,从而降低了使用密文统计特性进行破译的风险。
图:凯撒密码轮盘
以凯撒密码和维吉尼亚密码为代表的移位密码体制,其构造都十分简单,但人工计算时难免容易出错,且效率较低。20世纪20年代,人们开始使用机械设备自动处理加密。比如二战时期德军使用的Enigma密码机,给盟军的密码破译工作带来了很大的难度。
图: Enigma密码机
随着人们对密码方法的研究逐渐深入,密码攻击手段也越来越多,另外由于计算机的出现以及人类计算能力的大幅提升,古典密码方法的安全性已经不能满足现代人类的需求。但是,古典密码学的不断发展,为密码学的进一步研究提供了思路。
1949年Shannon发表了《保密系统的信息理论》一文,这标志着密码学的研究进入了现代密码学阶段。从此,密码学不再是一门艺术,而成为了一门系统的科学进入了人们的视野。如上文所说,现代密码学又可以分为两个分支:对称密码学和公钥密码学。而1976年则是现代密码学发展过程中一个重要的时间节点。
1976年之前,现代密码学的研究主要集中在对称密码学方向。所谓“对称”,是指加密方和解密方使用的是同一个密钥。在对称密码学后续的研究中,出现了两个较为着名的对称密码方案,分别为DES密码体制和AES密码体制。由于计算能力的提升,目前暴力破解DES成为了可能,因此AES代替了DES成为了新的加密标准并沿用至今。
尽管以AES为代表的对称密码方案有着足够高的安全性,但由于加解密的双方使用共同的密钥,如何让双方在不安全的信道上共享这一密钥,是对称密码学面临的一个问题。1976年Diffie-Hellman密钥交换协议的提出,为这一问题提供了解决思路,同时标志着密码学的新方向——公钥密码学的诞生,将现代密码学的研究带入了一个全新的发展阶段。
公钥密码学又称为非对称密码学,顾名思义,加解密的双方不再使用同一个密钥。其中加密方使用公开的公钥对明文消息进行加密,在解密方收到密文后,使用私钥进行解密。由于私钥只有解密方持有,因此即使存在恶意敌手窃听到了密文,也无法获得明文的信息。典型的公钥密码方案包括RSA、Paillier等经典的方案,以及目前在学术界广受关注的基于格的后量子密码方案等等。
图: 对称加密和公钥加密对比
对称密码方案和公钥密码方案的区别不仅仅在于加解密的密钥是否相同。由于两类方案使用不同的加密体制,其应用场景也有着明显的区别。一般来说,由于对称密码方案加解密效率较高,经常应用于文件和数据的批量加密,而公钥密码方案通常有着密钥冗长和效率较低等特点,多应用于密钥分发和数字签名等功能性设计中。
另外,在公钥密码学的发展过程中,也出现了两个重要的分支,即全同态加密和安全多方计算。这两个密码学的分支不仅为传统的机器学习提供了新的发展方向,也为很多复杂业务场景的实现提供了思路。

联邦学习的加密原理

我们知道,机器学习一般使用梯度下降算法实现模型的最优化,联邦学习也是如此。梯度可表示(或者近似)为加法和乘法的混合运算,因此联邦学习的本质需求是加法和乘法运算进行保护。
如前所述,同态加密技术可满足该需求。具体来说,对数据进行同态加密所获得密文可进行加法和乘法操作,结果解密后与数据直接进行加法和乘法的结果是一致的。其中,同时满足加法和乘法的方法称为全同态加密,只能满足其中一种(加法或者乘法)的称为半同态加密。由于全同态加密计算复杂度特别高,联邦学习一般使用半同态加密,比较常见的是Paillier半同态加密,满足如下性质的加法同态:
其中:[·]表示Paillier加密操作,前者称为加法同态,后者称为数乘同态,数乘事实上是多个相同数值的加法。
有了这两个性质,就可以解决分布式学习所需的各种隐私保护计算了,例如基于梯度下降的迭代优化。以包含两个成员(A和B)的联邦线性回归场景为例, A方的梯度计算式核心部分如下:
上式包含加法和乘法两种运算,可使用加法同态和数乘同态实现。值得注意的是,这里的加密还具有非对称加密的性质,密码包括,使用公钥加密的数据只能通过对应的私钥解密。表示用A的公钥加密,这个公钥会共享给联邦成员,联邦成员可以使用这个公钥对数据进行加密,得到的密文只能由A通过自己的私钥加密;同理,使用B的公钥加密得到的密文只能由B解密。
式子(3)可分级为如下步骤进行计算。
针对线性回归模型,联邦学习梯度下降算法的交互过程(A方)如下图所示。
B方的梯度下降迭代与此类似,感兴趣的读者可以此作为参考进行推导。从上面的例子可以看出,联邦学习仅需在联邦之间传输经过半同态加密的中间计算结果,确保了原始数据不出库;同时由于半同态加密破坏了数据的连续性和分布特性,这使得黑客破解成为不可能。
参考文献
[1] Andrew Hard et., al. Federated Learning for Mobile Keyboard Prediction, https://arxiv.org/abs/1811.03604
[2] Qiang Yang et., al. Federated Machine Learning: Concept and Applications. ACM TIST2019. https://arxiv.org/abs/1902.04885
[3] Federated Learning: Collaborative Machine Learning without Centralized Training. https://ai.googleblog.com/2017/04/federated-learning-collaborative.html
[4] Kewei Cheng, Qiang Yang et., al.. SecureBoost: A Lossless Federated Learning Framework. https://arxiv.org/abs/1901.08755
[5] 刘洋, 范涛. 联邦学习的研究与应用. http://cdns.flashgene.com/fqAryeY.jpg”>