PARE: Part Attention Regressor for 3D Human Body Estimation ECCV2012 阅读理解

2024-02-05 21:15:52

ICCV2021 德国马普所出品，侧重遮挡分析，本文介绍了一种用于遮挡敏感性分析的可视化技术。强调对于采用采用直接回归的方法时，如何有效解决遮挡问题。

读后感：

1 HRNet-W32比Renet50强

2 数据集：hm36 + eft + mpi 足以

3 对于多人数据集coco，取根节点最近的即可。有利于解决遮挡问题

4 采用分类网络进行初始化，收敛慢。先完成2d估计任务，然后进行3d。好像romp也是这么干的。

5 mask标签怎么获得问题

6 当某一个关节点被遮挡的时候，可以通过其他部位去推理。

7 每一个关节点特征单独去回归各自的pose

8 mask到底有多大作用：COCO-EFT 上训练的。单看数值，提升不明显

摘要：

目前最先进的3D人体姿势和形状估计方法仍然对部分遮挡敏感，即使身体的大部分是可观测的，也可能产生严重错误的预测。为了解决这个问题，我们引入了一种软注意机制，称为部分注意回归器(PARE)，它学习预测身体部分引导的注意面具。我们观察到，最先进的方法依赖于全局特征表示，这使得它们对即使是很小的遮挡也很敏感。相比之下，PARE的部分引导注意机制通过利用个体身体部位的可见性信息，同时利用邻近身体部位的信息来预测被遮挡的部位，从而克服了这些问题。我们定性地证明了PARE学习敏感注意掩模，定量评估证实了PARE在特定遮挡和标准基准上都比现有方法获得了更准确和更稳健的重建结果。

简介：

遮挡：自遮挡，多人接触导致遮挡，物体遮挡等。遮挡下的位姿估计已经在很多文献中进行了处理。[8, 9, 14, 19, 43, 44, 55, 56, 61], 我们强调这个问题在直接回归方法的背景下特别重要。这种方法使用输入中的所有像素来预测一组姿态和形状参数。因此，他们的姿势估计是特别敏感的，即使是微小的每一个扰动的观察身体和它的部分。这表明，对于最先进的(SOTA)方法，相对较小的手术切除，即使只有一个关节，也可能导致完全不可信的姿势预测。为了解决这一问题，我们提出了一种基于新颖的部分引导注意机制的方法，使直接回归方法对遮挡更具鲁棒性。因此PARE是一个多任务学习，它有两个任务:首要任务是学习以端到端方式回归三维身体参数，辅助任务是学习每个身体部位的注意力权重。每个任务都有自己的像素对齐特征提取分支。在训练的早期阶段，我们使用部分分割标签来引导注意力分支，并在后期继续使用这些标签，因此我们称之为身体部分驱动的注意力。我们的主要观点是，为了对遮挡保持健壮性，该网络应该利用可见部分的像素对齐图像特征来推断遮挡部分。

鉴于基于注意力的方法在其他任务上的成功[11,18,34,57]，我们利用从闭塞敏感性分析中获得的见解，将注意力集中在身体部位。因此，我们使用部分分割来监督注意掩模，但随后仅使用姿态监督训练端到端，允许注意机制利用来自身体和周围像素的所有有用信息。这使得网络可以*地以不受监督的方式关注它发现的信息区域。因此，PARE学习依赖于身体的可见部分，以提高对遮挡部分的鲁棒性和在3D姿态估计上的整体性能。

为了定量评价PARE的性能，我们在3DPW[54]、3DOH[61]和3DPW- occ[54]数据集上进行了实验。结果表明，与最先进的咬合和非咬合情况相比，PARE的误差始终较低。

总之，我们的主要贡献是:(1)我们引入了一种新的遮挡敏感性分析和可视化技术，揭示了局部部分遮挡如何影响全局位姿。(2)灵敏度分析激发了一种新的身体部位驱动的注意力框架用于三维HPS回归，该框架利用像素对齐的局部特征来回归身体姿态和形状。(3)该网络利用部分可见性线索，通过聚集参与区域的特征来推断被遮挡的关节，从而实现对不同类型遮挡的鲁棒性:场景遮挡、自遮挡和帧遮挡。(4)在具有遮挡特征的三维姿态估计基准上获得了SOTA结果

相关工作：

我们专注于从RGB图像的三维人体形状和姿态估计，并讨论了以前的方法如何处理各种场景中的遮挡，例如自遮挡、相机帧遮挡和场景对象遮挡。

3D pose and shape from a single image. ：SMPLify[7]是第一个将SMPL模型拟合到2D关键点检测器输出的自动化方法。Lassner等人的[31]在拟合过程中使用了轮廓和关键点。请注意，[31,39,59]中使用的部分分割与我们的方法非常不同，在我们的方法中，部分分割用于促进软注意。

遮挡问题解决：直接输入全图，然后回归smpl系数，缺乏像素对齐的结构使得网络很难明确地推断身体部位的位置和可见性。在这些框架中，实现遮挡的健壮性的常用方法是通过数据增强。例如，帧遮挡通常通过裁剪来模拟[6,23,44]，而物体遮挡则通过在图像上叠加目标斑块来近似。虽然有帮助，但这些合成遮挡并没有完全捕获真实图像中遮挡的复杂性，也没有提供如何改进网络结构以内在地更健壮地遮挡的见解。（扯）

Explicit occlusion handling：加了一个热图分析来说明自己是明确的遮挡分析……。

例如，Cheng等人[9]避免在计算训练损失时包含遮挡关节。这种可见性信息（增加是否可见标签）是通过将人体近似为一组圆柱体来获得的，这是不现实的，只处理自遮挡。多人场景遮挡，人与人之间的闭塞是一个特别常见和具有挑战性的情况。对于多人回归，Jiang等人[21]使用互穿损失来避免碰撞，使用序数损失来解决深度模糊。Sun等人的[58]明确地估计了物体的中心及其参数，每个图像像素都可能有一个以它为中心的物体。[58]在多人场景中有效地将注意力集中在整个人身上，而PARE则将注意力集中在身体的个别部位。牛逼

Zhang等[61]利用显著性掩模作为可见性信息来获得对场景/对象遮挡的鲁棒性。人体网格通过UV贴图参数化，其中每个像素存储顶点的3D位置，遮挡被投射为一个图像嵌入问题。精确显著性映射的要求限制了野外图像的性能。此外，uv坐标会导致网格伪影，如Sup. Mat所示。

3 遮挡敏感性分析：

我们在图像上滑动一个灰色遮挡补丁，并使用SPIN[29]回归身体姿态。我们不像[60]那样计算分类评分，而是测量地面真实值和预测关节之间的每个关节的欧氏距离。我们创建一个错误热图，其中每个像素表示模型为关节j创建了多少错误，当遮挡器以这个像素为中心时(当前点的遮挡对某一个关节点的影响，遮挡背景也有影响？)。除了每个关节的热图外，我们还计算了一个聚集的遮挡敏感性图，它显示了平均关节误差是如何受到遮挡影响的;这在图1(d,g)中可见，在Sup. Mat中更详细。

看图说话：

error heatmap：针对每一个关节点的

aggregate occlusion sensitivity map: 这显示了平均关节误差是如何受到遮挡的影响的

每个子图像对应于一个特定的关节，热点区域是遮挡导致该关节高误差的位置。

这种可视化使我们能够进行一些观察:

1 错误在背景上是低的，在主体上是高的。这表明SPIN已经学会了关注有意义的区域。

(方块中心在背景上，背景难道不应该就没有？还是保持预测的本来的误差，50左右起步……)

2 原始图像中可见的关节在被正方形遮挡时误差很大，正如预期的那样。

3 对于自然遮挡的关节，网络依赖于其他区域来推断闭塞的姿态。：例如F2第一行的左右脚踝，明显受到大腿的影响，说明脚踝区域主要来自大腿区域的推测。

4 这种依赖性推理不仅发生在相邻部分之间;遮挡可以有长期的影响。例如脸部？

关于猜想4：作者在完整的3DPW数据集上运行此分析，并将每个顶点的结果汇集在一起，在SMPL体模型上可视化它们，为每个关节提供一个遮挡敏感性网格。例如图3a，严重影响左手肘的的区域包含脸部，左胸部区域。右脚踝则依赖正面的大腿和背部的屁股和小腿区域。

4 方法：

SOTA能够区域主体人区域和背景区域，但是为了更好地理解身体部位是否可见，并知道它们的位置是否被遮挡，PARE利用像素对齐结构，其中每个像素对应于图像中的一个区域，并存储像素级表示，即特征体积。其次，由于估计注意力权重和学习三维姿态的端到端可训练特征是两个不同的任务，PARE配备了两个特征体。一个来自估计注意力权重的2D部分分支，另一个来自执行SMPL参数回归的3D体分支。最后，为了对上述观察到的身体部位依赖性进行建模，PARE在训练过程中利用部位分割作为软注意掩模来调整每个关节的每个特征在三维身体分支中的贡献。

4.1 模型结构和损失函数：

2D分支：输出P： HWJ J 表示身体分割区域块数。里面的数值表示属于当前j的概率。

3D分支：输出F：HWC

P和F的空间分辨率一样，但是通道数不一样。

P_j 表示第j个通道，F_c 表示第c个通道

F’= J * C 表示最终的特征向量。其中P会经过归一化。

因此可以看着P相当于一个注意力mask，

表明：如果某一个关节点的注意力权重大，则其对特征F’贡献也大。

为啥不一致使用mask 分支：即想让网络专注每一个关节点属于那些区域，又想让在遮挡的时候，被遮挡的关节点能够通过其他区域推理。吃着碗里瞧着锅里……

当存在遮挡的时候：会导致当前点只受到属于他的区域的像素影响，这是不可取的，因为闭塞的关节对所有像素的注意力权重为0。因此，我们只在初始阶段对带有ground-truth segmentation标签的2D部分分支进行监督，并在没有任何监督的情况下继续训练，让一个被遮挡的关节参加其他像素。

对于F’= J *C 我们直接将其整体输入到全连接中，回归出SMPL的betal和弱透视投影的[s,x,y]。与此同时，每一个J 单独输入到一个多层卷积中去输出每一个关节点的旋转角度（6D）。

4.2 实现细节：

PARE的目标是重建三维人体，因此，部分分割只是一种中间表示-表示，以引导Eq中的掩模注意机制。后期训练会将注意机制变为无监督的纯软注意。将λP设置为零可以让注意力机制也考虑到像素在身体本身之外。在后阶段训练的时候，我们没有必要要求注意力权重map严格类似人体分割图，例如图7，因为对于遮挡的关节点，其注意力map可能就很大了，例如被自遮挡的右手。

ResNet-50 [17] and HRNet-W32 作为backbone

5 实验

训练集：coco，mpii，LSPET，MPI-INF-3DHP，Human3.6M。

SMPL标签来自EFT。

分割标签通过绘制分割后的SMPL网格，得到零件分割标签。我们使用Pytorch reimple- mentation [28] of Neural Mesh Renderer[26]来渲染部件。对于没有部分分割标签的样品，我们不监督2D分支

灼烧实验：

1 数据增强： SynthOcc + RandCrop

2 SOTA 水平

除了对遮挡数据集的性能，我们还对遮挡敏感性分析的结果进行了量化。

on occlusion datasets

6 总结：

在这项工作中，我们提出了一种新的部分注意回归(Part Attention regression - or PARE)，它通过利用个体身体部位的可见性信息来回归三维人体姿态和形状和姿态，从而获得遮挡的鲁棒性。PARE是基于我们从新的遮挡敏感性分析中收集到的见解。特别是，我们观察到身体部位之间的依赖关系，并认为网络应该依赖可见部位来改善对遮挡部位的预测，从而提高三维姿态估计的整体性能。我们提出了一种新的身体部位驱动的注意机制来捕捉这种依赖性，其中软注意由回归的身体部位分割面具引导。该网络学习使用部分分割作为可见性线索，通过聚集来自参与区域的特征来推断被遮挡的关节，并通过这样做，实现对不同类型遮挡的鲁棒性:场景遮挡、自遮挡和帧遮挡。我们仔细评估了我们在消融研究中

@****：ZHANG2021LIANG

码农公寓

相关文章