异常检测问题的实际挑战？从自动化颜艺挑选说起

2013 年 12 月 27 日

知乎专栏：挖掘知乎里有趣的东西

来源：https://zhuanlan.zhihu.com/p/75752110

已获作者授权，请勿二次转载。

最近入了日常（一部动漫）的坑，里面蓝毛的颜艺实在太搞笑了，让人看的时候忍不住截图。但在截了半部番以后我终于崩溃了。。

于是就开始想，有没有可能自动化地来找到比较搞笑的颜艺呢。其实自从有了头像检测模型，我们在数据上就没什么担心了，在整部番上跑一把就拿到了3万多个头。但自动化颜艺挑选这个问题应该怎么做呢？

作为炼丹侠，这个图像分类问题从模型的角度来看就是finetune一把完事。但如果深入思考一下，从整个机器学习系统的角度来说这其实是个相当困难的问题：

首先数据非常不平衡，正例极少。所以如果就正常随机标注的话，可能看了100张图只有一张颜艺。
然后颜艺本身的类内变化极大。比如下面几个图。漏标一个了以后很难通过模型本身的泛化性(generality) 通过其他正例补回来。而因为正例非常难碰到，所以漏标的概率其实蛮大的。

所以从机器学习的角度来说，这其实不是一个典型的图像分类问题，而是一个异常检测问题。异常检测是个成熟的领域，有不少精巧的算法。但我是非常懒的，希望尽可能快地出结果（比如两三个小时以内），所以不太可能去试各种模型。因而选定的根本思路是标注+训练有机结合 (hybrid approach)。具体地说，我们用了这样的原则/技巧：

正因为数据不平衡，所以标注是比较轻松的。我们不需要一张张图看过去画勾画叉，而只要一直往下翻，看到正例点一下就好了。所以我们需要做一个简单的标注工具来让标注尽可能轻松。这里选用的就是HTML，用img tag把图显示出来，然后每个img加个onclick()事件，被点的时候就在一个文本框里面把它的src追加上去。可以说是非常简单粗暴了。这个工具做出来以后，一分钟标个100张还是比较轻松的。

标注工具的界面，就是ipython notebook生成的一个静态HTML

但就算标注轻松，100张里面看一个正例也是非常痛苦了。所以我们需要一种方式用非监督的方法来粗筛。这里有个基本的观察是，一部番大多数表情都是正常的。如果对所有脸训练一个生成式模型 (generative model) 的话，颜艺更可能出现在低概率密度的区域。所以我们用一个简单的GMM+ImageNet ResNet18 feature滤了一把之后，发现颜艺的密度的确高了不少。

第三个技巧是active learning迭代。GMM毕竟只是一个bootstrap的手段，它一方面不能反映我们训练的模型拿不准，需要人类干预的地方，一方面也不能随着我们模型的更新而有效更新。比如当我们用了5分钟标了500张图，扔到DenseNet121里面训练以后，用这个feature重新做GMM，低概率密度的部分类似这样：

可以看到并没有什么新的例子引入。所以一个更有效的方法是active learning，把目前的神经网络拿不准的例子挑出来标。此时正例负例都比较集中，标注效率也非常高了。比如下面是某次迭代中拿不准的例子：

这样的迭代非常快，因为我们标注工具得当，数据量小训练起来也快。基本上10分钟就能过一轮。比如在标注了上面所示的例子之后，模型的质量在decision boundary附近就有明显改善：

在经过4轮迭代以后，我们可以得到这样的结果：

可以说是 非常沙雕了 。但其实即使是这样的颜艺表情里面也是有自己的结构的。如果我们再在正例上面训练一个GMM，把其中低密度的部分取出来，会发现这简直是 颜艺中的极品，沙雕中的沙雕 ：

至此我们的目的基本上就达到了。把里面的蓝毛挑出来相对trivial，在DenseNet feature基础上搞个SVM就好。

总结一下，面临这样一个机器学习的实际问题的时候，我们做的事情有：

其实最首先应该干的步骤应该是确定数据集和定量评价标准。但因为这个问题的定义明确，结果开放，我们要做的事情就是找数据集本身，所以这一步就跳过了。
然后是初步可视化数据，确认问题为什么困难：正例少，正例漏标后果严重。
接下来是用非监督的方法bootstrap，一定程度上解决了正例少的问题。
得到标注数据以后用监督方法训练，然后用active learning进一步提升标注的效率，迭代数轮。这样就可以得到一个相对靠谱的模型了。
在得到模型以后还要进一步可视化，比如tSNE，Affinity Propagation, GMM等非监督模型都可以揭示数据的内部结构。这往往会给人新的启发。

总之，训练模型的过程本身并不关键——就是调参炼丹嘛。问题的关键往往是 理解数据的特征和挑战，并据此选择合适的方法。

好了可以做冰箱贴了。

-完-

About The Author

maynard

懒散，不想无聊

M	T	W	T	F	S	S
« Jan
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Related Posts

About The Author

maynard