LWN:机器学习模型的偏见和伦理问题

点击上方蓝色“ Linux News搬运工 ”关注我们~

Bias and ethical issues in machine-learning models

September 2, 2019

This article was contributed by Andy Oram

基于人工智能的技术在数据分析领域有越来越多的成功例子,因此这类技术也在更多领域开始得到应用。不过新技术也引入了更多风险。有更多新手来承担数据分析的任务,同时机器学习模型也开始在更多敏感领域进行应用(包括招聘,贷款,甚至判处刑罚),都意味着如果用错了模型会带来非常严重的问题,这一点也在公众中得到越来越多的重视。最近的MinneBOS 2019 conference就有两个session来讨论如何在机器学习的推广中确保符合伦理,以及排除偏见。

现代的数据分析越来越多在使用机器学习(machine learning),目前这个领域最流行的形式被称为人工智能(AI)。在机器学习领域,会重复执行某个算法对大量数据进行推算来创建出一个模型,然后会使用这个模型对新的数据进行验证。

MinneBOS由Twin Cities organization Minne Analytics赞助,其中有两个session,分别是Bill Franks的The Ethics of Analytics和Jackie Anderson的Minding the Gap: Understanding and Mitigating Bias in AI。两个会议指出机器学习过程中有多个地方可能引入偏见,也指出了一些减轻问题的方案。Frank的演讲针对各个阶段,Anderson的则是针对bias(偏见)的来源。

我们提到”bias”的时候,都是指日常生活中针对种族性别收入等社会属性的偏见、歧视。公众媒体的文章都着重这一方面。但是在数学和科学领域,bias是一个中性词,特指数据处理不合理,或者选错数据来源。AI里面这个风险更大,bias可能会导致错误结果。大家需要注意bias不要真的演化成社会歧视,或者导致损失一些商业机会和金钱。

Franks认为所谓的伦理其实很多是直觉性的,可变的。举例来说,大家都赞同不应该杀人,但是还是有少数人会提出在某些情况下可能会违背这个规则。另一个例子就是注明的“right to be forgotten”(被遗忘权),目前在欧盟的GDPR数字隐私法案里面强制要求。有些情况下需要因为合法性或者法律强制要求就和被遗忘权有冲突。其他情况下,其实这一点根本做不到,你怎么可能跟医疗机构或者保险公司要求遗忘你的信息,而又希望跟它们签合同?

Franks提出了机器学习的五个阶段来识别以及纠正bias。下面会描述细节,并穿插Anderson的3个bias来源。

Modeling targets and business problems

Franks举了个例子,此前Target超市给一个17岁女孩发送了一个孕期女性的购物单,而她其实不希望让父亲知道自己怀孕了。这个例子就是一个公共关系灾难,说明了法律,伦理以及商业目标之间的区别。法律桑来说,Target确实有权发送这些。尽管有人认为推荐薯条还是推荐个人医疗信息相关的产品是有区别的,不过也并不能说Target在伦理道德方面越界了。它顶多算是没有考虑客户或者公众是否能接受这个行为。

Franks说的这个阶段刚好对应上了Anderson的第一个bias来源:“如何定义问题”。Anderson举得例子是大学里针对该给哪些学生发送推广材料进行数据分析(每个学生的招募成本至少需要2300美元,甚至超过6000美元)。如果人们都认为拿到推广材料的学生更有可能申请进而从这个学校成功毕业,甚至今后能对学校带来好处,那么无论从商业角度还是社会效应上,都需要避免偏见。Anderson认为在进行数据分析之前,学校需要先问问自己到底在找什么样的候选人:谁更加可能接受offer,谁更加可能成功毕业,谁会在今后给学校更多捐赠,谁会有助于帮助学校满足人群多样化要求,等等。

Modeling input data

这里的核心问题是基本上所有的算法都会根据现有的数据来推测未来的指标。所以过去的数据里面如果有bias,那么一定会在未来也出现。Anderson称之为循环因果形式,会把一些重要的新候选人排除在外,对学校、商业公司,或者法律判决场景带来问题。

Franks认为任何模型都可能会在环境或者目标改变之后彻底失效。他也举了个类似Anderson的学校申请的例子。如果你的模型训练的时候80%的学生都是文科专业,但是你改变了学校运营策略,现在80%的学生都是商科专业了,那么你之前的模型肯定会出错。另一个例子是关于法律判决的。美国社会对惩罚犯罪的观念也发生了改变,因此旧版本的审判软件现在也不再适用。

Anderson提到的3个来源里面其中有2个都适用于这个阶段:“Selecting data”和“Cleaning/preparing the data”。Anderson描述了一个在准备数据过程中的问题。一个零售商希望能确认那些客户会带来更多利润。在进行数据清晰的时候,他把所有小额交易都剔除了(因为他希望寻找一些进行大额采购的客户)。今后他会发现他错过了大量忠实客户,因为这些客户可能会少量多次进行购买。

Anderson说,通常我们都是在看结果的时候发现了一些bias的来源。Amazon的人力资源部门设计了一个算法来在申请者中跳出最好的编程人员。起初没有检查bias,然后得出的模型就会更加偏好男性,因为这个领域里面男性更常见。而查看结果发现这个模型的bias对女性不利之后,HR部门把一些明显的能看出性别的指标(例如人称代词, 人名等)修改掉,得到了一个新的模型。不过这个模型还是有bias,看起来投递的简历中所使用的字眼也能表现出是男性还是女性。

Modeling transparency and monitoring

Franks很赞同把模型变得更加透明化,也就是通常说的“可解释”:模型用户需要能知道为什么会得出最后结论。例如一个图像识别软件训练用于分辨哈士奇和狼。看起来表现非常好,不过最后研究者翻查判断错误的图片的时候,才发现原来这个软件根本没有分析动物本身。如果看到图片上有雪,软件就认为是只狼。这是因为样本照片里面通常狼都在野外而哈士奇都在室内。

研究者用来确认最终结论的来源特征的方法被称为LIME(Local Interpretable Model-Agnostic Explanations)。图像处理中,通常的LIME方法就是针对图像中几处不同的地方来进行模型运算,看一下到底图片中哪一处是真的导致判断结果的。这个过程中无法了解模型本身。

有一些领域非常要求透明度。例如银行在拒绝贷款的时候,就需要列出具体什么原因。在医疗健康领域没有这种规定,不过也仍然需要透明性。大多数大夫都不愿意根据一个黑盒模型来做出诊断。

Franks建议管理者要把LIME作为批准某个模型的考虑因素。如果有一个可靠的LIME流程证明了算法是根据相关特性来得出的结论,那么这个模型就应该优先得到批准。Franks也提到了算法需要有紧急刹车。曾经有一个交易算法把某个公司的股票在短时间内打压到极低。开发者本应在代码里要检查这种异常行为,然后能让程序自己关闭,就像是一个工厂通常有一个任何工人都能按下的按钮用来停下组装产线。

Modeling usage

在这个阶段,Franks认为必须要理解你使用这个模型的环境,也就是上下文,使用模型是否能让它更加公平。通常研究者花10%的时间来创造一个合理的散发,然后90%的时间来对它试错。

他抱怨说公众对数据分析中出现的异常结果惊吓过度。每次有自动驾驶汽车出现事故,都会有禁售,或者呼吁停止这种研究。对Franks来说,这里真正要关注的问题是,在给定的驾驶距离(例如每100,000英里)内,人类驾驶员比起自动驾驶汽车来说,分别会导致多少事故?

Defining policies

Franks认为各个公司需要定义清楚使用机器学习的一些原则,并发布给公众。例如Apple曾经拒绝解锁罪犯的手机,然后Apple就公开了它对于个人隐私的看法。Apple在这个过程中在客户群方面可能个有的是,不过至少大家能根据公司的策略偏好来选择了。

Recommendations

Franks最终结论和建议,就是需要建立伦理审查委员会,能包含不同的关联人士。就像研究机构的Institutional Review Boards (IRBs),然后把policy写下来,严格处理违背policy的事件。他希望数据分析社区整体都要对bias进行负责。

Anderson的主要建议就是确保团队要有多样性。你需要体验各种生活,才能理解不同生活的人的行为,以及他们如何被算法排除在外了。她也建议公司要互相合作,不要过于担心商业秘密而建立隔阂。很多公司甚至都不会在公司内部公布信息。大家应该加入各种论坛以及合作组织,共同识别bias以及改善多样性。有一些组织就是针对这一方面的,例如Algorithmic Justic League (AJL)。也有一些工具,例如IBM的AI Fairness 360有助于这一方面。

Franks和Anderson的演讲证明在机器学习开展10年之后,研究者和实践者都已经意识到bias偏见,并且在想办法能克服bias偏见。一个遗留的问题是,整个社会能在多大程度上相信并依赖使用模型的商业组织的能力以及意愿?如何能利用监管?设计模型的研究者需要承担多大责任?应用这个模型的人呢?或者批准使用这个模型的人?希望在我们设计实践这些bias的过程中,我们也能找到答案关于怎样确保这些措施都到位了。