菜单导航

另一种深度学习(下):自我监督学习的生成方法

作者: 酷学中国网 发布时间: 2021年02月19日 12:59:55

另一种深度学习(下):自我监督学习的生成方法

在上一篇文章中,我们讨论了一些自我监督学习:利用几乎无限数量的无注释图像,并随意推广到其他任务中。有希望的是,能够更接近目前尚未达到的ImageNet预训练基准。

我们从Yan Lecun那里得到了一些额外的帮助,他把几分钟的NeurIPS演讲“迈向人工智能的下一步”用于自我监督学习。他将自我监督学习描述为蛋糕的主体,当顶部是监督学习时,樱桃相当于强化学习(因为RL中奖励的稀疏性)。

另一种深度学习(下):自我监督学习的生成方法

此外,在处理视频方面,也存在着突出的自我监督主体,这是显而易见的。然而,视频将在以后讨论,现在我们有另一个主题,即生成模型。

什么生成模型与自我监督有关

在关于自我监督的讨论中,Efros经常讨论为自我监督任务找到正确的损失函数很困难。

在上一篇文章中,我们研究了用于着色任务的特殊分类损失,并强调了为它们找到正确的损失函数的难度。

在演讲中,Efros描述了一种找到这种损失函数的方法。他称之为“graduate student descent”。换句话说,在为这些模型找到良好的损失函数方面存在大量的试错。所以我们能用更好的,更普遍的方法来找到它们吗?

另一种深度学习(下):自我监督学习的生成方法

着色,超分辨率等:是否存在通用的自监督损失函数?

此外,关于着色图灵测试:为了评估结果,研究人员使用mechanical Turks来辨别真假照片。所以,我们希望在这两种类型的图像之间建立某种机制。

如果你回顾2014年的深度学习,你可能还记得Ian Goodfellow第一次展示他开创性的GAN工作时,社区对这一代有前途的能力感到非常兴奋,但许多研究人员对这项工作的目的表示怀疑。对他们来说,至少在取得重大进展之前,这只是一个玩具。

自我监督的研究人员有一些不同的想法,在他们看来,GAN可能是自我监督任务的自定义损失函数。

另一种深度学习(下):自我监督学习的生成方法

生成对抗网络的工作原理

让我们考虑一下,在着色工作中,我们使用标准深度学习范例来预测每个像素的颜色。我们可以使用GAN鉴别器的功能作为自定义损失吗?如果可以,就需要用另一种方式来组织问题。

我们知道GAN本质上是从完全随机的分布中生成图像。如果我们能够在给定黑白图像的情况下生成彩色图像,使用鉴别器评估结果呢?

这需要对范式进行一些改变,从不同的东西生成图像然后通过条件GAN完成随机分布:向生成器添加特征,使其生成目标空间的一些子集。例如,来自Mnist数据集的特定数字。但是如果我们可以使用标量(数字)作为“条件”,我们也可以使用向量。而如果我们可以使用向量,我们也可以使用张量。一个图像只是张量。

所以在这里的想法是:训练一个类似条件的GAN网络,条件(以及生成器的输入)是一个黑白图像,输出限制为彩色图像。

Pix2pix

Efros的学生Phillip Isola也参与了之前讨论过的着色工作,他在研究(richzhang.github.io/colorization/)中使用Pix2pix完成了这项任务。这需要对GAN架构进行严格的调整:首先为生成器使用编解码器体系结构。其次,鉴别器不能只从数据集和生成器中随机获取成对的图像。它应该有严格的图像对,一个是原始的RGB,另一个是黑白生成的。鉴别器体系结构和训练计划也与标准不同。

另一种深度学习(下):自我监督学习的生成方法

pix2pix的配对策略。这里有边=>照片而不是黑白=>RGB

但是Isola又向前迈了一步,如果成功地建立了一个从成对图像中学习的着色GAN,为什么不能将它应用于不同的图像对呢?比如说:

谷歌地图和谷歌地球图像对

建立成绩单和实际建筑立面

边缘和物体

另一种深度学习(下):自我监督学习的生成方法

而这一切都成功了。这成为去年最有趣的深度学习工作之一,它引发了Efros称之为“推特驱动的研究”。由于该论文的代码在GitHub上很容易获得,很多人对它进行各种图像配对的训练,并取得了一些非常有创意的结果。

另一种深度学习(下):自我监督学习的生成方法