论文题目: Dynamic Graph CNN for Learning on Point Clouds (用于点云学习的动态图卷积神经网络)

论文作者: YUE WANG, 麻省理工学院; YONGBIN SUN, 麻省理工学院; ZIWEI LIU, 加州大学伯克利分校/ICSI; SANJAY E. SARMA, 麻省理工学院; MICHAEL M. BRONSTEIN, 伦敦帝国理工学院/USI Lugano; JUSTIN M. SOLOMON, 麻省理工学院

论文出处: ACM Transactions on Graphics 2019

代码仓库: https://github.com/WangYueFt/dgcnn

论文摘要: 点云提供了一种灵活的几何表示, 也包括大多数三维数据采集设备的原始输出. 点云天生缺乏拓扑信息, 因此设计一个模型去恢复拓扑就能丰富点云的表示能力. 为此, 本文提出一个新的神经网络模块EdgeConv, 适用于基于CNN的点云上的高级任务, 包括分类和分割. EdgeConv作用于在网络每层动态计算的图上. EdgeConv是可微分的, 可被插入到现有架构中. 相较于运行在外部空间或独立处理每个点的现有模块, EdgeConv: 1、结合了局部邻域信息; 2、可以堆叠应用于学习全局形状属性; 3、在多层系统中, 特征空间的邻近度在原始嵌入中跨越可能很长的距离捕捉语义特征. 在ModelNet40, ShapeNetPart, S3DIS上展示模型结果.

用于点云分割. 在网络不同层产生的特征空间结构(可视化为红点到所有其它点的距离), 观察更深层中的特征空间结构捕捉语义相似结构, 尽管它们在原始输入空间的距离很远

介绍

现有方法通常直接处理点云, 出于效率的考虑或这些技术在有噪声时的不稳定性而绕过昂贵的网格重建或去噪. 像室内导航、自动驾驶、机器人技术、形状合成和建模等, 这些现代应用需要对点云进行高级处理. 最近的算法不是去识别显著的几何特征(如角和边缘), 而是搜索语义线索和可供性. 这些特征通常需要基于学习的方法获得.

深度学习用于点云数据的问题: 标准的深度神经网络模型要求输入数据有规则结构, 而点云并不规则(点的位置在空间中连续分布, 它们的任何排列顺序都不会改变空间分布). 常见方法: 先将原始点云数据转换为三维网格, 但会引入量化伪影、过多内存占用, 难以捕捉高分辨率细粒度特征.

最先进的网络专门设计来处理点云的不规则性, 直接操作原始点云数据(不再传递给中间的规则表示): PointNet通过对每个点独立操作随后应用对称函数来累积特征来实现点的排列不变性; PointNet的各种扩展不再独立作用于每个点而是考虑点的邻域, 使得网络利用局部特征, 提升基本模型的性能. 这些技术主要在局部范围内独立处理点来保持排列不变性, 但这种不变性忽略了点之间的几何关系, 限制捕捉局部特征.

本文提出EdgeConv在保持排列不变性的同时捕捉局部几何结构. EdgeConv生成描述一个点和其相邻点之间关系的边缘特征, 保持相邻点的顺序不变(排列不变性). EdgeConv显式构造了一个局部图并学习边缘的嵌入, 该模型能在欧氏空间和语义空间对点分组.

本文实验: 将EdgeConv集成到基础版本的PointNet, 未使用任何特征转换.

主要贡献

1、提出点云学习的新操作EdgeConv来在保持排列不变性的同时更好捕捉点云局部几何特征

2、该模型能通过从层到层动态更新关系图来学习对点进行语义分组

3、EdgeConv能被整合到多个现有点云处理流程中

4、EdgeConv能在基准数据集上达到最先进性能

本文方法

遵循图神经网络的思想, 通过构建局部邻域图并在连接相邻点对的边上应用类似卷积的操作来开发局部几何结构, 该操作称为边缘卷积EdgeConv, 具有介于平移不变性和非局部性之间的属性. 这个图在网络每一层之后动态更新(一个点的k个最近邻集合在层之间变化, 是从嵌入序列计算出的). 特征空间的邻近性不同于输入空间的邻近性, 导致信息在整个点云中的非局部扩散.

边缘卷积

左: 从点对xi和xj计算边缘特征eij, h()用全连接层实例化;
右: EdgeConv的输出是通过聚合与每个连接顶点发出的所有边相关联的边缘特征计算得到的.

动态图更新

利用每层得到的特征空间中的最近邻来重新计算图, 感受野和点云的直径一样大, 而且是稀疏的. 本文架构学习如何去构建用在每一层的图, 在计算特征空间中一个成对的距离矩阵, 然后对每个单独的点取k个最近邻的点.

性质

排列不变性(置换不变性): 输入顺序的改变不会影响输出

“部分”平移不变性

与现有方法的比较

本文形状分类神经网络架构不同阶段产生的特征空间结构. 左: 输入三维空间中的欧式距离; 中: 经点云变换阶段后的距离(相当于形状的全局变换); 右: 最后一层的特征空间中的距离

评估

分类任务

数据

ModelNet40(40个类别的12311个网格CAD模型, 9843个模型用来训练, 2468个模型用来测试), 对于每个模型, 从网格表面均匀采样1024个点, 点云被重新缩放以适应单位球. 只需要采样点的(x,y,z)坐标, 丢弃原始网格. 训练阶段通过随机缩放物体和扰动物体和点的位置来扩充数据.

结构

4个EdgeConv层来提取几何特征, 这4个使用3个共享全连接层(64,64,128,256). 根据每个EdgeConv层的特征重新计算图并将新的图用于下一层. 所有EdgeConv层的最近邻个数k=20. Shortcut来提取多尺度特征和一个共享全连接层(1024)来聚合多尺度特征, 将之前层的特征连接起来得到一个64+64+128+256=512维的点云. 使用一个全局最大/求和池化来得到点云全局特征, 使用两个全连接层(512,256)(0.5概率的dropout)来变换全局特征. 所有层包含LeakyReLU和批归一化. 将训练数据分80%去训练、20%来验证, 用验证集来选择k. 选好k后在整个训练数据上重新训练模型, 在测试集上评估模型. 其它超参数的选择方法与之相似.