三层结构
- 遮挡估算层
输出为0,1的map,
$$
x^o \in [0,1]^n
$$ - 完成层
分为4小层,矩阵和偏移如下
其中c1,c2为编码层,数据压缩,降噪,从高维映射到低维。
c1’,c2’为解码层,再映射回来。如下:
z是编码,xc是解码。 - 分解层
就是标注,把特征映射到标签的过程。
一共两小层。如图a右边,Wt1和t2. 也是使用类似于扩张的方法中对每个标签单独进行。如下图和下面那句话。
训练
看来这论文是把整个人体区域当输入干的。从代码表现来看,先压缩到固定尺寸,然后输出固定尺寸。所以在此一开始说的以下这些话。 - 遮罩估计层的预训练
使用字典学习的方法,大约就是稀疏编码里训练的字典样子。公式一样,如下。
其中上面有横线的是遮挡的groundtruth。
常量b给省了。分解开来就是下面这个样子: - 完成层预训练
这层就是干了个数据重构,图像压了再扩,这样细节就没了。说是降噪了。
插RBM。RBM网络结构如下
能量函数如下。
出自这里
目标就是让能量函数最小。
插完。
这论文中的完成层参数预训练就是用的RBM网络。他的能量函数如下: - 分解层预训练
这块没啥说的,就是两层矩阵。整体修整fine-tuning
目标函数
随机梯度下降