基于点云语义分割算法的下颌角截骨面设计

图1 下颌角截骨术前规划的总体流程

Fig.1 Overall process of preoperative planning for mandibular angle osteotomy

在下颌角整形手术术前规划中,截骨平面的设计是最为关键且耗时的环节.本文利用深度神经网络自动预测截骨平面,截骨平面的智能规划流程如图1(蓝色部分)所示.首先,本文利用表面点采样获取下颌骨和下牙槽神经的点云数据;然后,利用点云语义分割网络预测下颌骨点云中的截骨区域,并计算截骨平面;最后,以下牙槽神经点云作为参考,对截骨平面进行调整,以确保截骨平面不会切到神经,从而保证手术的安全性.

1.1 数据预处理

在获取患者下颌骨和下牙槽神经的三维模型后,首先利用表面点采样将其转换为固定点数的点云数据,然后对下颌骨点云进行归一化处理:将点云重心平移至坐标原点,并对其进行缩放,使点云中x、y和z方向上的最值在[-1,1]之间.点云分割网络的输入为归一化后的下颌骨点云,在得到预测结果后将点云缩放至原比例,用于后续截骨平面的调整.

1.2 下颌骨点云语义分割网络

1.2.1 网络结构

下颌骨点云语义分割算法的总体框架如图2所示.该网络旨在将输入点云(点的数量为N)转换为新的高维特征向量,以获取语义丰富、互相关联的逐点特征,并基于此进行点云语义分割任务.首先,通过局部特征提取模块对各个点的局部几何结构信息进行编码;其次,将这些特征输入到Transformer层中,学习不同点特征之间的依赖关系,丰富点特征的语义信息,并通过共享MLP将点特征转换为1 024维;再次,将最大池化与平均池化分别应用于逐点特征,并将两个池化操作的输出结果连接在一起,以得到一个有效表示输入点云的全局特征;最后,对全局特征进行复制后,将其与逐点特征连接,并通过共享MLP(512,256, 3)(数值表示各层神经元个数)和Softmax激活函数得到各个点的预测类别.

图2

图2 下颌骨点云语义分割网络

Fig.2 Semantic segmentation network for mandibular point clouds

1.2.2 局部特征提取模块

给定点云P={P_i|i=1, 2, …,N},各个点P_i的属性为其三维坐标p_i∈ R^1×3(文中R的上标为矢量和张量的维度),也可以包含一些额外属性(例如颜色和法向量,本文试验中只输入点的坐标),记为q_i∈R^1×^d.

局部特征提取模块作用于点云P中的每个点如图3所示,该模块将逐点特征升维至d_e.对于点P_i,首先通过K最近邻(KNN)算法获取该点的邻域A(i)=P_j, j=1, 2, …, k;然后对点P_i及其邻近点进行空间关系编码.文献[9]的研究表明,将中心点与邻近点的关系编码为如下形式,其对于分类和分割等任务的效果最好.

(1)e_i_,_j=concat(p_i, p_j, p_i-p_j, d_i_,_j)

式中:p_j为点的坐标;d_i_,_j为点P_i和点P_j的欧氏距离;concat为向量的连接.

图3

图3 局部特征提取模块

Fig.3 Module of local feature aggregation

编码邻域的空间关系后得到十维的向量e_i_,_j,将其与点P_j的额外信息q_j连接,然后通过映射函数ρ对其进行特征提取,最后聚集该邻域的特征,得到指定维度的特征向量.局部特征提取函数表示为

(2)F_i=R{f_i_,1, f_i_,2, …, f_i_,_k}=R{ρ(concat(e_i_,_j, q_j)) | P_j∈A(i)}

式中:F_i∈ $R^{1 \times d_{e}}$ 为聚合后的局部特征;ρ由共享MLP、批标准化和ReLU激活函数组成;R{·}为特征的聚合函数,用于汇总邻近点的特征;f_i_,_k∈ $R^{1 \times d_{e}}$ 为边特征.

以往研究多用最大池化^[7]或平均池化^[14]聚合相邻特征,但这样会丢失许多信息.因此,有研究尝试将注意力机制应用于相邻特征的聚合,自动学习邻域中各个点对于当前点的重要程度^[10^-^11].

边缘点是不同类别点云之间的过渡区域.在下颌骨语义分割任务中,边缘点预测标签是否正确比较重要,原因为下颌骨分割面是利用边缘点得到的.然而边界上的特征提取通常不明确,原因为其混合了不同类别点的特征,不同类别的特征跨边界传播将会导致边缘点的分割结果不佳.语义分割算法的本质是利用深度神经网络将原始数据映射到一个高维的特征空间.在这个特征空间中,同类别点的特征向量应尽可能接近,不同类别点的特征向量应尽可能远离.因此,可以利用注意力池化来聚合邻域A(i) 的特征集合{f_i_,1, f_i_,2, …, f_i_,_k}, 如图4所示.

图4

图4 过渡区域的特征聚

Fig.4 Feature aggregation in transition area

利用注意力池化可以学习邻域中各个点对于中心点的注意力得分,从而减缓特征的跨区域传播,使过渡区域的分割结果更好.注意力池化分为计算注意力得分和加权求和两个步骤.

在点P_i的邻域A(i)中,任意邻近点特征f_i_,_j的注意力权重α_i_,_j是通过MLP学习到的逐通道注意力得分,表示为

(3)α_i_,_j=μ(concat(f_i_,_j, p_i-p_j)), P_j∈A(i)

式中:μ由共享MLP、批标准化和激活函数组成;α_i_,_j与f_i_,_j的维度相同.

在获得各个邻近点特征的注意力权重后,通过加权求和汇总邻近点特征为

(4)F_i=

\sum_{P_{j} \in A (i)}

α_i_,_jf_i_,_j

1.2.3 Transformer层

在下颌骨点云语义分割任务中,为了完成细粒度的分割,需要提取各个点的本地特征和非本地特征.本地特征能够提供局部区域的几何形状信息和位置信息;非本地特征能够提供点的全局信息,建立点云中任意点与当前点的依赖关系,使同类别的点在特征空间中尽可能接近.

Transformer具有全局信息建模能力,且对输入数据或特征具有顺序无关性,因此被广泛应用于自然语言处理和时序数据处理等任务^[15⇓-17].点云作为三维空间中的一组无序点集可用Transformer处理.使用局部特征提取模块提取各个点的本地特征后,通过Transformer层提取点的非本地特征,具体如下所述.

Transformer由自注意力机制、前馈层和残差连接组成,如图5所示.通过局部特征提取模块提取的点特征记为F_e∈ $R^{N \times d_{e}}$ .Transformer层的输入为点云P中各个点的坐标和特征.

图5

图5 Transformer层

Fig.5 Transformer layer

自注意力机制是注意力机制的一种形式,用于计算输入数据内部的语义关联.自注意力机制主要由查询向量Q、键向量K和值向量V组成,计算方式如下:

(5)(Q, K, V)=F_e(θ_q, θ_k, θ_v)
Q, K∈

R^{N \times d_{a}}

, V∈

R^{N \times d_{e}}

式中:θ_q, θ_k和θ_v是共享MLP的可学习参数,为提高计算效率,在试验中设置d_a=d_e/4.

注意力机制不会保留输入数据的位置信息,因此需要通过位置编码使注意力层适应输入数据的空间位置关系.在自然语言处理和图像领域中,常用的位置编码方式为绝对位置编码^[15]和相对位置编码^[18].在三维点云的处理任务中,点的坐标本身包含空间位置信息,但是单独一个点的坐标并不能体现该点在整个点云中的位置,因此本文把点云P的重心p_c作为参考点,建立各个点与整个点云的相对位置关系,即

(6)p_c=

\frac{1}{N} \sum_{p_{i} \in P}

p_i

(7)β=δ(p_i-p_c), ∀p_i∈P

式中:β为位置编码;δ为一个R^1×3→ $R^{1 \times d_{a}}$ 的共享MLP.经过试验发现位置编码对于注意力得分的生成比较重要,因此本文将位置编码β分别与矩阵Q和K相加,即

(8)Q'=Q+β

(9)K'=K+β

得到查询向量Q'和键向量K',通过矩阵相乘计算注意力得分A,然后对注意力得分A进行归一化处理,计算归一化后的注意力权重 $\tilde{A}$ 对值向量V的加权和,得到的向量记为F_a.为了提高网络的学习能力,本文采用Point Cloud Transformer (PCT,是使用具有顺序无关性的Transformer来进行点云特征学习的框架)中偏移注意力的思想^[12],通过共享MLP进一步处理F_a与输入特征F_e的差值,并将该结果与F_e相加,得到注意力层的输出,即

(10)F_out=ρ(F_e-F_a)+F_e

1.3 截骨平面调整

下颌神经管位于术区附近,神经管内有下牙槽神经和伴行血管.下牙槽神经损伤是严重的术后并发症之一,若截骨过程中不慎伤及神经,将导致下颌、下唇部位,甚至牙龈感觉的丧失.因此,一个合格的术前设计方案,其截骨面与神经的最近距离必须控制在安全范围内.

利用深度学习算法预测的结果可能不符合截骨手术规划要求,尤其是截骨方案的安全性问题.因此,利用所述算法预测截骨区域后,本文以下颌骨神经点云为参考,判断截骨平面是否需要进行调整.左右两边的计算方式相同,因此以左截骨平面为例.对于截骨区中的每个点,计算其到非截骨区的最小距离,若该距离小于安全距离阈值d_s,则将该点视为截骨平面附近的点.在得到截骨平面附近的点集P_B后,利用平面拟合得到截骨平面L.最后计算L到神经管的距离d_min,若该距离大于d_s,则平移L.算法的具体描述如下.

输入:左截骨区点云P_α∈ $R^{N_{1} \times 3}$ ,非截骨区点云P_ε∈ $R^{N_{2} \times 3}$ ,左神经点云P_e,截骨面到神经的安全距离阈值d_s.

输出:截骨平面L.

1. 计算P_α和P_ε的逐点距离,得到距离矩阵D∈ $R^{N_{1} \times N_{2}}$ .

2. 建立空集P_B=⌀,来保存截骨平面附近的点.

3. for i←1 to N₁ do

4. d_i=100

5. for j←1 to N₂ do

6. if D_i_,_j<d_i then

7. d_i=D_i_,_j

8. if d_i<0.1 then

9. 将点P_α_,_i加入到集合P_B中.

10. 对点集P_B进行平面拟合,得到截骨平面L={ax+by+cz+m=0}.

11. 计算点集P_e到L的最小距离d_min.

12. if d_min<d_s then

13. 调整截骨平面参数m'=m+(d_s-d_min)× $\sqrt{a^{2} + b^{2} + c^{2}}$ .

2 试验验证

2.1 数据集构建

本文数据集为上海交通大学医学院附属第九人民医院整复外科提供的240个病例,每个病例的数据包含术前下颌骨、左右两侧的截骨区域和下牙槽神经,其数据格式为立体光刻(STL)模型.制作带标签数据集的过程为:① 对输入数据进行表面点采样;② 对截骨区点云进行平面拟合,以获取两侧的截骨平面;③ 利用截骨平面将术前下颌骨点云分为3个部分,并对各个区域的点赋予不同的标签,术前下颌骨区域标记为0,左、右截骨区域分别标记为1和2;④ 对点云进行归一化处理.

当点数较多时,训练时占用的显存和训练时间都会急剧增加;当点数较少时,会给截骨平面的拟合带来误差.因此,本文将下颌骨点云的点数设为 4 096,下牙槽神经的点数设为500,处理后的点云如图6所示.下牙槽神经点云是训练时的安全性参考指标,不作为点云语义分割网络的输入.按照比例4∶1∶1将原始数据分为训练集、验证集以及测试集.

图6

图6 带标签的下颌骨点云

Fig.6 Mandible point cloud with labels

2.2 试验环境设置

本文试验在Ubuntu16.04操作系统、Tesla V100显卡(32 GB显存)的服务器上进行.采用 Pytorch 实现所述框架,使用交叉熵损失函数.训练批次设为8,迭代次数为200次,采用Adam优化器,初始学习率为0.001,学习率衰减方式为余弦退火,权重衰减为0.000 1.

2.3 网络性能评估指标

试验中对分割网络的评价指标为准确率、精确率、召回率和F1值.本文将截骨区点云作为正类,非截骨区点云作为负类,在下颌骨点云数据中,正负类样本比例约为1∶10,因此相比于精确率,F1值对于预测结果的评价更为准确.选取PointNet++、DGCNN和PCT等点云语义分割网络与本文算法进行对比.在进行算法的对比试验时,试验环境保持一致.

2.4 临床验证评估指标

下颌角截骨方案的主要评价指标为截骨对称性、安全性和美观性^[19].测量过程中涉及的几个解剖标志点如图7所示,各评价指标的定义和测量方式如下.

图7

图7 下颌骨的解剖标志点

Fig.7 Anatomical landmarks of mandible

截骨对称性:下颌角点是评价面部轮廓外观的关键点,在评价截骨对称性时,可以在下颌骨双侧测量点C与点G的距离,两侧d_CG的差值为Δd_CG,若Δd_CG<3 mm, 则左右两边对称,否则不对称.

截骨安全性:在截骨手术时要保证截骨区域离下颌角神经有一定距离,避免手术过程中对神经造成损伤.在评价截骨安全性时,可以测量截骨平面到神经的最小距离d_s,若d_s>4 mm,则视为安全,否则不安全.

截骨美观性:下颌角美观性的评价依据是下颌角角度θ(髁顶点、下颌角点和颏下点的夹角),θ在115° 左右为正常,下颌角肥大患者的θ 在110° 左右,θ在120° 左右为美观.因此,当θ∈(115°, 125°)时,视为美观.

3 试验结果与分析

3.1 网络性能分析

不同算法的各项评估指标在表1中列出.试验结果表明,所提方法的各项评估指标均达到最佳性能,在下颌骨语义分割试验中,本文所述方法优于先前的网络框架.

表1 不同方法在下颌骨语义分割测试集上的评估结果

Tab.1 Evaluation results of different methods on mandibular semantic segmentation test set%

模型	准确率	精确率	召回率	F₁值
PointNet++	97.17	80.16	85.09	82.31
DGCNN	98.79	93.17	91.36	92.03
PCT	99.08	94.29	94.01	94.11
本文	99.80	98.78	98.72	98.75

3.2 临床验证结果分析

本文根据测试集中40个病例的截骨方案预测结果,在医学影像控制系统中对下颌角模型进行虚拟截骨后, 对相关数据进行测量,结果如表2所示.

表2 预测截骨方案的评价指标

Tab.2 Evaluation index of predicted osteotomy plan

评价指标	最小值	最大值	平均值	达标率/%
Δd_CG/mm	0.14	3.16	1.39	97.5
d_s/mm	3.37	8.86	5.79	97.5
θ/(°)	112.23	126.55	120.08	95.0

在40个病例的预测结果中,只有2个不符合要求,试验结果表明本文算法的截骨手术规划效果良好.

3.3 预测结果可视化

在测试集中选取1个病例,不同方法对该病例的预测结果如图8所示(未做截骨平面微调),图中红点为预测错误的点.可知,在DGCNN和PCT算法的预测结果中,预测标签错误的点大多集中在截骨区与下颌骨主体的过渡区域,原因是这些点在局部特征聚合时混合了不同类别点的特征,而本文算法通过注意力池化减缓了特征的跨区域传播.此外,加入相对位置编码的Transformer层也能更好地建立点与点之间的依赖关系,使得同类点在特征空间中尽可能接近,提高其语义一致性,从而提高下颌骨点云的分割精度.试验结果表明,与其他两种模型相比,本文算法的语义分割精度最高,非截骨区与下颌骨主体的过渡区域也最平整.

图8

图8 不同点云语义分割算法的预测结果可视化

Fig.8 Visualization of prediction results of different point cloud semantic segmentation algorithms

3.4 消融研究

(1) 邻近点的数量.邻近点的数量k用于确定提取局部特征时局部区域中点的数量,结果如表3所示.当k=16时,模型性能最佳.当邻域较小(k=4)时,模型可能没有足够的上下文信息以准确预测各个点的标签;当邻域较大(k=64)时,每个点特征中包含较多邻近点的信息,可能会引入过多的噪声,导致模型的准确性下降.因此,k选取16最为合适.

表3 不同邻近点数量的比较

Tab.3 Comparison of different number of neighboring points %

k	精确率	准确率	召回率	F₁值
4	99.13	94.42	94.15	94.18
16	99.80	98.78	98.72	98.75
64	97.24	84.62	79.95	81.93

(2) 特征聚合函数.特征聚合函数用于聚合局部区域中邻近点的特征.本文将注意力池化与平均池化和最大池化进行比较,试验结果如表4所示.试验结果表明,注意力池化能够提高点云语义分割的性能.

表4 不同特征聚合函数的比较

Tab.4 Comparison of different feature aggregation functions %

特征聚合函数	精确率	准确率	召回率	F₁值
平均池化	99.35	95.12	97.03	96.01
最大池化	99.62	97.31	97.66	97.41
注意力池化	99.80	98.78	98.72	98.75

(3) 位置编码.进行3组对比试验,即没有位置编码、使用绝对位置编码和使用相对位置编码.相对位置编码如前文所述,绝对位置编码是将式(7)中的δ(p_i-p_c)改为δ(p_i),结果如表5所示.试验结果表明,如果没有位置编码,性能将大大下降;使用绝对位置编码,精度比不使用绝对位置编码高;相对位置编码产生最佳结果.

表5 不同位置编码方式的比较

Tab.5 Comparison of different position encoding methods %

位置编码	精确率	准确率	召回率	F₁值
没有位置编码	99.37	95.89	96.01	95.90
绝对位置编码	99.56	96.33	98.16	97.23
相对位置编码	99.80	98.78	98.72	98.75

DOI:10.1016/j.jcms.2018.07.026 URL [本文引用: 1]

4 结语

提出一个结合本地特征提取模块和非本地特征提取模块的下颌骨点云语义分割网络,并基于下颌角整形手术的诊断病例,构造了下颌骨语义分割数据集,训练出一个能有效预测截骨区域的语义分割模型.引入注意力机制的局部特征提取模块能够获取精细的局部特征,减缓特征的跨区域传播,使得截骨区与非截骨区的过渡区域更为平滑.加入相对位置编码的Transformer层能够获取下颌骨点云的全局上下文信息,自动学习点特征间的依赖关系,进一步提高分割精度.试验结果表明,本文算法预测的截骨区域十分接近医师手动标记的截骨区域,可以作为医师进行截骨手术规划的参考.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

ZHANG

, MA

M W

, XU

J J

, et al.

Application of the 3D digital ostectomy template (DOT) in mandibular angle ostectomy (MAO)

[J]. Journal of Cranio-Maxillofacial Surgery, 2018, 46(10): 1821-1827.

[2]

MENG

H Y

, GAO

, LAI

Y K

, et al.

VV-net: Voxel VAE net with group convolutions for point cloud segmentation

[C]∥2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea: IEEE, 2019: 8499-8507.

DOI:10.1109/TVCG.2019.2896310 URL [本文引用: 1]

[3]

WANG

Z J

, LU

VoxSegNet: Volumetric CNNs for semantic part segmentation of 3D shapes

[J]. IEEE Transactions on Visualization and Computer Graphics, 2020, 26(9): 2919-2930.

[4]

, BUI

, DUAN

A multi-view recurrent neural network for 3D mesh segmentation

[J]. Computers & Graphics, 2017, 66: 103-112.

DOI:10.1016/j.cag.2017.05.011 URL [本文引用: 1]

[5]

KUNDU

, YIN

X Q

, FATHI

, et al.

Virtual multi-view fusion for 3D semantic segmentation

[C]∥Computer Vision-ECCV 2020. Glasgow, UK: Springer, 2020: 518-535.

[6]

CHARLES

R Q

, HAO

, MO

K C

, et al.

PointNet: Deep learning on point sets for 3D classification and segmentation

[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 77-85.

[7]

CHARLES

R Q

, LI

, HAO

, et al.

PointNet++: Deep hierarchical feature learning on point sets in a metric space

[C]∥Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, California, USA: NIPS, 2017: 5099-5108.

[本文引用: 3]

[8]

WANG

, SUN

Y B

, LIU

Z W

, et al.

Dynamic graph CNN for learning on point clouds

[J]. ACM Transactions on Graphics, 2019, 38(5): 1-12.

[9]

LIU

Y C

, FAN

, XIANG

S M

, et al.

Relation-shape convolutional neural network for point cloud analysis

[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA: IEEE, 2019: 8887-8896.

[本文引用: 3]

[10]

WANG

, HUANG

Y C

, HOU

Y L

, et al.

Graph attention convolution for point cloud semantic segmentation

[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA: IEEE, 2019: 10288-10297.

[11]

Q Y

, YANG

, XIE

L H

, et al.

RandLA-net: Efficient semantic segmentation of large-scale point clouds

[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, USA: IEEE, 2020: 11105-11114.

DOI:10.1007/s41095-021-0229-5 URL [本文引用: 2]

[12]

GUO

M H

, CAI

J X

, LIU

Z N

, et al.

PCT: Point cloud transformer

[J]. Computational Visual Media, 2021, 7(2): 187-199.

[13]

赵沁园, 刘磊, 章一新, 等.

手术导板应用于下颌骨精确截骨的前瞻性随机对照研究

[J]. 中国美容整形外科杂志, 2018, 29(9): 524-526.

ZHAO

Qinyuan

, LIU

Lei

, ZHANG

Yixin

, et al.

The accuracy of a surgical template for mandibular angle osteotomy: A prospective randomized controlled trial

[J]. Chinese Journal of Aesthetic and Plastic Surgery, 2018, 29(9): 524-526.

[14]

J X

, CHEN

B M

, LEE

G H

SO-net: Self-organizing network for point cloud analysis

[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 9397-9406.

[15]

VASWANI

, SHAZEER

, PARMAR

, et al.

Attention is all you need

[J]. Advances in Neural Information Processing Systems, 2017, 30: 5998-6008.

[16]

LEE

, YOON

, KIM

, et al.

BioBERT: A pre-trained biomedical language representation model for biomedical text mining

[J]. Bioinformatics, 2019, 36(4): 1234-1240.

[17]

DONG

L H

, XU

Speech-transformer: A no-recurrence sequence-to-sequence model for speech recognition

[C]∥2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, AB, Canada: IEEE, 2018: 5884-5888.

[18]

SHAW

, USZKOREIT

, VASWANI

Self-attention with relative position representations

[C]∥Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2018: 464-468.