Deep Decompositional Network

三层结构

Imgur

  • 遮挡估算层
    Imgur
    Imgur
    输出为0,1的map,
    $$
    x^o \in [0,1]^n
    $$
  • 完成层
    分为4小层,矩阵和偏移如下
    Imgur
    其中c1,c2为编码层,数据压缩,降噪,从高维映射到低维。
    c1’,c2’为解码层,再映射回来。如下:
    Imgur
    z是编码,xc是解码。
  • 分解层
    就是标注,把特征映射到标签的过程。
    一共两小层。如图a右边,Wt1和t2. 也是使用类似于扩张的方法中对每个标签单独进行。如下图和下面那句话。
    Imgur

    训练

    看来这论文是把整个人体区域当输入干的。从代码表现来看,先压缩到固定尺寸,然后输出固定尺寸。所以在此一开始说的以下这些话。
    Imgur
  • 遮罩估计层的预训练
    使用字典学习的方法,大约就是稀疏编码里训练的字典样子。公式一样,如下。
    Imgur
    其中上面有横线的是遮挡的groundtruth。
    常量b给省了。分解开来就是下面这个样子:
    Imgur
  • 完成层预训练
    这层就是干了个数据重构,图像压了再扩,这样细节就没了。说是降噪了。
    插RBM。RBM网络结构如下
    Imgur
    能量函数如下。
    Imgur
    出自这里
    目标就是让能量函数最小。
    插完。
    这论文中的完成层参数预训练就是用的RBM网络。他的能量函数如下:
    Imgur
  • 分解层预训练
    这块没啥说的,就是两层矩阵。

    整体修整fine-tuning

    目标函数
    Imgur
    随机梯度下降
    Imgur