ROAD CRACK SEGMENTATION LOCATION AND QUANTIFICATION METHOD BASED ON UAV MONOCULAR VIDEO
-
摘要:
基于图像的道路裂缝识别仅能获得局部的裂缝分割检测结果,难以获得该裂缝的实际位置信息,且难以自动量化整体结构中所有裂缝的实际尺寸。为了解决这些问题,该文提出一种基于无人机单目视频的道路裂缝定位与量化方法。在所提出框架中,利用ORB-SLAM3中的关键帧选取原则优化用于道路重建的影像数据,以更少的图像数量实现同等质量的重建;使用改进的SegFormer语义分割模型进行预测,将裂缝、伸缩缝等语义信息进行拼接,组成整个道路的裂缝图;利用Alpha-shape算法补全道路轮廓,并进行裂缝骨架提取,根据规范自动计算每个单元的损坏状况指数。在长沙某道路开展了试验以验证所提出方法的有效性,结果表明:该方法能够以少量的图像标注获得可以接受的精度,高度自动化地完成整个道路裂缝识别与定位,显著提高道路裂缝检测的效率。
Abstract:Current image-based road crack recognition can only obtain local crack segmentation detection results, it is difficult to obtain the actual location information of this crack, and it is difficult to automatically quantify the actual size of all cracks in the overall structure. To solve these problems, a road crack localisation and quantification method is proposed based on UAV monocular video. In the framework proposed, the image data used for road reconstruction is firstly optimized using the key frame selection principle in ORB-SLAM3 to achieve the same quality reconstruction with less number of images; then an improved SegFormer semantic segmentation model is used for prediction, and the semantic information such as cracks and construction joints are spliced together to form a crack map of the whole road; The Alpha-shape algorithm is used to complement the road profile, and crack skeleton extraction, according to the specification to automatically calculate the pavement surface condition index of each unit. Tests are carried out on a road in Changsha to verify the effectiveness of the method proposed, and the study results show that, this method can obtain acceptable accuracy with a small amount of image annotation, complete the whole road crack identification and localization with a high degree of automation, and significantly improve the efficiency of road crack detection.
-
Keywords:
- crack identification /
- deep learning /
- semantic segmentation /
- neural network /
- image processing
-
截至2023年末,全国公路里程543.68万km[1],因此定期对道路进行损坏检测与健康评估、采取损坏修补措施以延长道路使用寿命具有重要意义。传统道路检测方法以人工巡检为主,检测人员进入检测区域对道路裂缝、坑洞等病害进行手动量测记录,这种方式主观性强、工作量大、效率低下,难以满足当前道路运维需求。如何高效、可靠地进行裂缝检测,已成为备受关注的问题。
深度学习方法为解决这一问题提供了新思路,该方法利用神经网络从图像或传感数据中检测路面损坏,具有良好的抗噪性与准确性。其中最广泛使用的是卷积神经网络(convolutional neural network, CNN),主要用于图像分类与目标检测等任务。CHA等[2]应用Faster R-CNN网络实现了包括混凝土裂缝、钢材腐蚀、螺栓腐蚀和钢材分层病害的检测。ZHANG等[3]提出了CrackNet II,参数更少、隐藏层更多,可以达到像素级的识别精度。为实现更为精细化的像素级病害检测,通常利用全卷积网络(fully convolutional network, FCN)进行语义分割等任务。FCN通常包括编码器(encoder)和解码器(decoder)部分:编码器用于图像的特征提取;解码器将编码器提取的特征图恢复到原始输入图像的大小,并生成像素级别的预测。杨娜等[4]使用改进的U-Net对藏式古建筑石砌体壁画进行了监测,提高了监测系统对壁画色彩、光照和阴影干扰的鲁棒性。
LI等[5]结合了残差网络和FCN的特点,提出了FCS-Net,该网络还引入了批量归一化(batch norm, BN)和多孔空间金字塔池(atrous spatial pyramid pooling, ASPP)等技术,实现了对裂纹的精细分割。DENG等[6]基于U-Net引入了DAC(dense attention context)块与注意力门跳跃连接(attention-gated skip connection),利用密集连接和注意力机制加强了特征传递和感知能力,使得网络能够更好地捕获图像的局部和全局信息。近年来,基于自注意力架构的Transformer[7],已成为自然语言处理(NLP)的首选模型。DOSOVITSKIY等[8]提出ViT(vision transformer),将标准的Transformer直接应用于图片,在尽可能不做任何针对视觉任务的特定改变的条件下,证明了纯基于自注意力的Transformer也能够在图像分类任务上表现良好,当对大量数据进行预训练并转移到多个中型或小型图像识别基准时,ViT在多个图像识别基准上接近或超过了CNNs。除了图像分类,Transformer逐渐被用于解决目标检测、语义分割等问题。LIU等[9]提出了Swin Transformer,利用基于移动窗口的自注意力与类似卷积神经网络的分层Transformer架构有效的降低了计算复杂度。GUO等[10]采用Swin Transformer的架构,将解码器改为多层感知机(multilayer perceptron, MLP),对三个裂缝数据集进行了训练试验,最终模型性能超越了目前常用于裂缝分割的卷积神经网络。WU等[11]考虑了裂缝图像采集时相机的分辨率的特点,提出了一种基于DATB(dual attention transformer block)双重注意力机制的网络,在鲁棒性与泛化性方面优于目前常用的分割网络。随着ViT系列的神经网络在计算机视觉领域的不断应用,基于自注意力的神经网络有望替代或结合CNN进一步推进高精度智能化检测的发展。虽然网络结构在不断发展与优化,由于自注意力与深度卷积存在参数量大、推理速度较慢的固有特点,实际应用中应当考虑具体任务的特点与需求,兼顾计算资源合理选择模型,以获得高效处理实际任务的方法。
上述研究主要关注裂缝的识别与分割,忽略了位置信息,在实际检测中应用效果不佳。而随着三维重建技术的迅猛发展,计算机视觉下游任务(如图像分类、目标检测、语义分割、实例分割等)与三维重建技术结合越来越紧密,给病害检测带来了新的解决方案,病害检测的需求逐渐从对病害的识别分割向定位与分割量化转变。其中,病害定位的方法主要可分为2类:一种是通过图像之间的特征匹配关系,将图像拼接为全景图像来实现病害的定位,此方法通常认为所采集图像在同一平面;另一种是利用三维重建的相关算法对场景进行重建,然后对采集的二维图像进行检测分割,最终通过相机的位姿将检测结果投影在重建场景中以实现病害的定位,此方法的应用场景多为相对复杂的空间结构。
吴智深等[12]建立了一种移动式精准检测技术,不仅通过全景图像与语义分割模型对结构进行表观裂缝的外部识别与定位,还利用变频敲击声波理论实现对结构内部损伤的识别。KANG等[13]利用自主无人机的超声波信标定位数据,结合卷积神经网络,实现了室内混凝土裂缝的定位。JIANG等[14]使用爬壁机器人采集结构图像,利用图像平行的特点,将手机上裂缝检测模型检测后的图像拼接为全景图,实现裂缝定位。LIU等[15]利用无人机图像与SfM(structure from motion)-MVS(multi-view stereo)算法生成的网格模型,将图像的裂缝投射至三维模型中,以此实现裂缝的定位。DENG等 [6]通过视觉SLAM(simultaneous localization and mapping)生成的稀疏点云与位姿,使用MVS算法生成稠密点云,将图像中分割出的裂缝投射在点云上,最终通过骨架提取以此量化裂缝的长度信息。WON等[16]提了一种基于深度匹配的拼接方法,提高了图像之间的匹配关系,用于拼接生成桥墩全景图像以实现裂缝的定位。
在上述研究中,搭载相机的无人机由于其高机动性与低成本,能够通过图像或视频方式高效采集多尺度数据而备受青睐。在实际道路检测项目中,通常为环境信息的单次采集,使用无人机视频数据将上述病害定位方法应用仍存在以下关键问题:① 无人机速度与执行效率受操作人员影响,会采集到空间分布不均匀的影像帧数据,不利于重建定位;② 视频分帧不含位置与尺度信息,还会伴随运动模糊,不利于病害识别与量化;③ 目前病害量化是通过手动测量计算完成的,效率低下。
针对这些关键问题,本文提出一种基于无人机单目视频的裂缝分割、定位与量化方法,旨在为路面损坏评估提供形状、长度与位置信息。首先,提出了一种视频帧的优化方法,能够提高重建效率;其次,使用改进的SegFormer语义分割模型以实现视频帧的精确裂缝分割;最后,开发了一种基于2D裂缝图像的量化方法,用于计算单个单元的裂缝骨架信息并计算路面损坏状况指数。在长沙某道路进行了现场试验,结合现场试验结果,验证了该方法的可行性与准确性。
1 基于无人机单目视频的道路裂缝定位与量化方法
所提出方法如图1所示。首先,该方法利用ORB-SLAM3中的关键帧选取原则优化用于道路检测重建的无人机视频序列,以更少的图像数量实现同等质量的重建;再利用SfM-MVS重建生成正射影像,通过滑动窗口法进行均匀拆分;同时,使用部分裂缝关键帧进行模型训练,将训练好的SegFormer-CD语义分割模型进行预测,将裂缝、伸缩缝等语义信息进行拼接,组成整个道路裂缝图;最终,利用Alpha-shape算法补全道路轮廓,并进行裂缝骨架的量化提取,根据《公路技术状况评定标准》[17]的PCI公式自动计算每个单元的路面损坏状况指数,获得整个道路的指标得分。
1.1 基于ORB-SLAM3的视频序列关键帧提取
对于视频序列的三维重建,一般通过视频分帧获得图像,然后再通过SfM-MVS算法流程进行三维重建。而在项目现场临时拍摄视频这种条件下,无人机在采集过程中严重依赖于操作人员对环境的探索与感知,即使是受过专业训练的无人机飞手,也会出现速度不均匀、采集过程有明显停顿的情况,此时急需解决的问题即是视频分帧策略。
常见的视频分帧处理,如FFmpeg(https://github.com/FFmpeg/FFmpeg),都是均匀间隔采样,对上述情况可采取短帧间隔的密集分帧策略以保证图像序列输入的完整性。由于SfM-MVS算法效率对影像的输入数量敏感,过多的影像输入会导致空中三角测量的处理时间大幅增加;而长帧间隔的稀疏分帧策略会导致空中三角测量计算失败。
为解决上述问题,本文采用基于ORB-SLAM3[18]的视频优化分帧策略,利用其关键帧选取策略,过滤空间位置密集的重复视频帧而保留空间位置稀疏的视频帧。ORB-SLAM3是一个能够使用单目、双目、RGBD相机、针孔和鱼眼相机执行视觉、视觉惯性的多地图SLAM系统。该系统与此前版本ORB-SLAM2相比,精度与鲁棒性更高,地图初始化更快,同时采用了多地图系统,能够在关键帧丢失的情况下启动新地图,最终将所有子地图合并为整张地图。
关键帧是视频序列中最有代表性的一帧图像。SLAM中采用关键帧的主要目的是,降低信息冗余度,减少计算的资源消耗,以此保证系统的平稳运行。图2展示了ORB-SLAM3中单目建图模式下关键帧的选取策略,可知关键帧的选取指标主要考虑两帧之间是否相差合适的时间、距离以及两帧之间的场景变化,经过此标准选取的关键帧具有场景代表性,最后再对这些关键帧进行冗余检查以获得最具有代表性的场景图像。
1.2 基于改进SegFormer的道路裂缝识别分割
本部分提出改进Segformer的道路裂缝的轻量级识别分割方法:SegFormer-CD,其网络结构图如图3所示。采用SegFormer[19]主要有如下原因:
1) 该网络采用了一种新颖的分层式Transformer编码器,使得能够分别获取原始图像分辨率1/4、1/8、1/16、1/32的多尺度特征,能够包含高分辨率的精细特征与低分辨率的粗略特征。在编码器中,每个Transformer块通过高效自注意力和混合前馈层获得当前分辨率的特征图,然后通过重叠块嵌入对特征图进行下采样。该编码器没有使用位置编码,避免了位置编码插值导致可能出现的低精度问题,通过在混合前馈层的3×3卷积来考虑位置信息。
2) 解码器为结构简单的MLP,其输入为编码器传入的多级特征,结合高分辨率的局部特征与低分辨率的全局特征,具有多尺度的表示能力。此网络能够在保证较低计算量的情况下,发挥自注意力长距离建模的优势,从而提高道路裂缝的分割性能。为了使得算法能够部署在边缘设备上,本文选取MiT-B0作为算法的编码器。
在原始版本的SegFormer中引入通道优先卷积注意力模块[20](channel prior convolutional attention, CPCA),进一步将编码器中的高低级特征进行增强表示;同时,将特征图上采样的双线性插值模块替换为动态上采样模块[21](DySample),使得上采样特征图表示更加精确。在不显著增大计算消耗的前提下,实现一种更有效的长距离建模方法,提高道路裂缝的分割性能。
1.2.1 通道优先卷积注意力模块
编码器MiT能够按顺序输出高低级特征的多尺度特征,低级特征主要包含纹理、边缘等空间几何信息;高级特征主要包含物体的语义边界、上下文等更加抽象语义化的信息。解码器将上述多尺度特征通过连接的方式进行简单融合,但由于低级特征往往含有噪声,可能会导致分割效果不佳。为了进一步增强特征信息的融合,本文引入了通道优先卷积注意力模块,该模块的结构如图4所示。
在CPCA模块中,首先进行通道注意力的计算:通过最大池化与平均池化调整特征图值,然后通过一个MLP进行非线性激活。然后Sigmoid调整特征权重,最后将最大池化与平均池化的结果相加,得到特征图的通道注意力权重,最终将通道特征权重与原始特征相乘。然后进行空间注意力的计算:首先使用5×5的卷积进行信息融合,然后分别使用7×7、11×11、21×21的卷积核进行深度可分离卷积以获得不同程度的信息融合,将不同卷积的特征图相加以增强整体的空间注意力,最终使用1×1卷积进行通道混合进一步增强特征表示。通过这种注意力机制,可以实现对编码器每层特征的有效提取,从而提高裂缝分割的识别检测精度。
1.2.2 动态上采样模块
常用的特征上采样器如最近邻或双线性插值,一般使用固定规则来插入低分辨率特征,会破坏部分平滑区域的语义一致性,从而弱化特征图中的语义信息。为了改善双线性插值带来的语义信息损失,本文引入了动态上采样模块,该模块的结构如图5所示。
在动态上采样模块中,首先,根据超参数(分组卷积数g,缩放因子s)创建对应的偏移采样与动态范围线性层。其中,偏移采样层能够根据输入图像的局部特征通过网络动态的调整偏移采样的位置分布,实现更加灵活的动态上采样;而动态范围层负责学习偏移的强度,通过自适应调节偏移幅度,帮助网络融合来自不同尺度的信息。然后,将调整后的采样网格与原始网格相加,与初始特征输入进PyTorch中的网格采样函数实现对初始特征的动态上采样。在此结构中,偏移采样层考虑空间位置,动态范围层结合上下文信息,能够增强对裂缝细节的建模能力。
1.3 基于Alpha-shape与骨架提取算法的裂缝量化
本文计算混凝土路面损坏状况指数的步骤如下:基于Alpha-shape算法,进行道路的凹包提取,再对提取出的凹多边形进行像素插值,以此获得道路的外轮廓;然后根据道路裂缝掩膜的RGB通道特点,采用Canny边缘提取算法,获得整个道路的伸缩缝特征,再通过所有的线特征将混凝土道路划分为单个小的计算单元;最后对裂缝进行骨架提取,同时计算对应损坏的计量值(长度或面积),进行损坏状况指数的计算,实现对道路单元的快速评分。
1.3.1 Alpha-shape算法提取道路轮廓
Alpha-shape[22]被认为是凸包形状的推广,对于一组二维点集P,Alpha-shape是由点、边、三角形组成的集合,该集合满足:对于边(pi,pj),存在一个半径为alpha的圆经过pi和pj,且该圆不包括任何其他点。图6展示了使用该算法对于本文轮廓提取所可能出现的情况。通常Alpha-shape是基于点云的处理算法,本文所获得的道路裂缝图为图像,需要先将其转化为平面点云,提取轮廓后再通过两轮廓点之间的线性插值获得完整的轮廓点集合,然后将其逆变换为图像,最终得到带有道路轮廓的图像,过程如图7所示。
1.3.2 Canny边缘检测与裂缝骨架曲线提取
Canny边缘检测[23]的主要过程为:
1) 使用高斯滤波器对图像进行降噪;
2) 使用Sobel算子计算图像的梯度与方向,对原始图像的x、y方向进行卷积操作,以获得水平方向与垂直方向的一阶导数(Gx,Gy),然后计算图像的梯度值G与方向θ,Sobel卷积核(3×3)与梯度计算如式(1)~式(2):
Sobelx=(−101−202−101),Sobely=(121000−1−2−1) (1) G=√G2x+G2y,θ=arctan(Gy/Gx) (2) 3) 使用非极大值抑制(non-maximum suppression, NMS)确保边缘细致清晰;
4) 利用滞后阈值(hysteresis thresholding)法判断边缘的真实性。
使用骨架提取算法为Zhang-Suen法[24],其主要原理为:遍历二值图像中的所有前景像素点,每次迭代步骤分为2次子迭代,对满足式(3)~式(4)的所有像素点进行删除,直到无法删除像素为止。
2⩽ (3) \left\{\begin{aligned} & P_2\times P_4\times P_6=0,P_4\times P_6\times P_8=0(子迭代1)\\& P_2\times P_4\times P_8=0,P_2\times P_6\times P_8=0(子迭代2) \end{aligned}\right. (4) 式中:N(P1)为像素点8临域中前景像素点的个数;S(P1)为以顺时针为序的相邻像素出现0~1的累积次数,如图8所示。子迭代1主要负责删除图像的右下角部分像素,子迭代2主要负责删除图像的左上角部分像素。
如图9(a)所示,本文在语义分割掩膜的RGB设置顺序为背景[255, 255, 255]、裂缝[255, 0, 0]、伸缩缝[0, 0, 0]、芯样孔洞[0, 0, 255],故可取图像RGB通道中的R通道,以该通道像素值生成灰度图像,此时裂缝为背景,只有伸缩缝与芯样孔洞会被算法检测提取,如图9(b)所示。使用Canny边缘检测算法提取边缘,再结合形态学闭运算(先膨胀再腐蚀)以获取内部独立的封闭单元,如图9(c)所示。然后获取整个图像的轮廓集合,对于满足面积要求的单个轮廓,通过图像的布尔运算获取该单元,如图9(d)所示。最后,计算该单元中裂缝的骨架曲线,同时计算每条裂缝的累积像素长度,如图9(e)所示。
2 道路裂缝图提取试验
2.1 试验概况
为验证所提出方法的可行性与有效性,对长沙象鼻窝省级森林公园入口的道路进行了试验验证,如图10所示。该公园入口至石塘水库底部的路面主要为双向两车道混凝土路面,长度约840 m。采用DJI Mavic2 Pro无人机对现场道路进行了视频拍摄采集,视频分辨率为1920 \times 1080,帧率为30 fps。人工操作无人机总共采集了2段影像数据,视频时长分别为6 min 19 s和2 min 29 s。
2.2 关键帧筛选与正射影像生成
将所采集的两段视频使用视频分帧软件FFmpeg进行分帧,每0.2 s提取一张照片,最终分别提取了1895张、746张图像。随后按照对应数据集格式将图像数据依次运行ORB-SLAM3,最终总共生成了818张、336张关键帧,将其导入Metashape(https://www.agisoft.com/)中进行空中三角测量,最后进行正射影像的重建,相关时间消耗见表1。可知,改进分帧策略能够有效降低图像输入的信息冗余度,减少重建的计算消耗,提高生产效率。
表 1 改进分帧策略与常规分帧策略计算效率对比Table 1. Comparison of computational efficiency between improved framing strategy and conventional framing strategy计算指标 改进分帧策略 常规分帧策略 图像输入数/张 1154 2641 影像成功匹配数/张 1154 1973 空中三角测量计算时间/min 25 81 正射影像生产耗时/min 60 82 2.3 分割模型训练过程
2.3.1 道路裂缝病害数据集
由于目前公开的道路裂缝病害数据集,如CRACK500[25]与CrackTree[26],其拍摄距离较近,分辨率较高,针对像素级别的图像分割,且多为沥青路面;混凝土路面的相关数据集较少。本文主要的研究目的是,利用能够部署在边缘设备的轻量级网络模型,进行裂缝分割,并将其定位在正射影像上,同时对裂缝进行量化。本文检测目标有以下3类:① 道路裂缝:用于定损,确定维修加固的区域;② 道路伸缩缝:用于提供绝对尺度信息;③ 芯样孔洞:用于统计芯样数量。
针对此需求,从关键帧序列中均匀选取了121张图像数据,依据重点将其裁剪为640 \times 640的图像尺寸,采用在线标注方式,并根据任务特点依次采用了直方图均衡化、翻转、旋转、图像灰度化等图像增广方式,以增强模型的检测分割性能,如图11所示。经过图像预处理后,数据集总共包含419张图片,最终按照9∶1的比例划分为训练集和验证集。与其他公共数据集相比,此数据集旨在训练无人机采集图像的裂缝、伸缩缝和芯样孔洞的分割算法,包括不同的裂纹尺度、复杂的背景和运动模糊。
2.3.2 试验参数设定
试验基于深度学习框架PyTorch,在配有NVIDIA GeForce RTX 4070 Ti SUPER显卡的Ubuntu20.04操作系统上进行模型训练,模型具体实现基于1.22版本的mmsegmentation(https://github.com/open-mmlab/mmsegmentation)代码库,训练过程中使用在线的数据增广来提高训练后的分割模型的范化能力,主要包括50%~200%的随机缩放、75%的随机裁剪。采用初始学习率为6 \times 10−5的AdamW优化器实现模型的收敛,动量参数为[0.9, 0.999],权重衰减为0.01,迭代训练次数为40 000次。选定损失函数为Dice损失[27],如式(5)。其中,yi为经过Sigmoid或Softmax的网络预测值,取值为(0, 1);ti目标值取值为0或1。
L_{\mathrm{D}}=\frac{\displaystyle\sum\limits_1^Nt_iy_i}{\displaystyle\sum\limits_1^Nt_i+\displaystyle\sum\limits_1^Ny_i} (5) 使用并交比(IoU)和F1得分(F1-Score)以及其平均值来评估分割网络的性能,计算如式(2)~式(6)。交并比表示指预测结果与真实标签之间交集与并集之间的比例,用于衡量模型的分割能力,F1得分表示查准率和查全率的调和平均数,用于衡量模型的综合性能。
{\mathrm{IoU = \frac{{TP}}{{TP + FP + FN}}}} (6) {\mathrm{Precision = \frac{{TP}}{{TP + FP}}}} (7) {\mathrm{ {Re} call = \frac{{TP}}{{TP + FN}}}} (8) \mathrm{F1-Score=\frac{2\times\Pr ecision\times Recall}{\Pr ecision+Recall}} (9) 式中:TP(true positive)为模型正确地将正类别样本预测为正类别;FP(false positive)为模型错误地将负类别样本预测为正类别;TN(true negative)为模型正确地将负类别样本预测为负类别;FN(false negative)为模型错误地将正类别样本预测为负类别;精确率(Precision)表示模型预测为正例的样本中预测正确的比例;召回率(Recall)表示模型正确预测的正例样本占总正例样本的比例。
2.3.3 消融试验结果分析
将SegFormer-B0定义为基线模型,为了验证CPCA模块与DySample模块的有效性,进行了消融试验。在消融实验中,每400次训练在验证集上计算1次指标,如图12所示。在前2000次迭代过程中,模型的mIoU(平均交并比)迅速增长,这是由于学习率策略中0次~1500次为从0~6 \times 10−5的线性增长,然后开始学习率衰减。而mF1(平均F1得分)在此阶段由高到低,这是由于,在训练初期,模型仅对数据集中的背景成功识别,在后续的训练中,逐步识别到其他类别。在12000次~16000次迭代期间,模型逐步对数据集中的所有类别进行识别与预测,因此mIoU在此阶段迅速增长,而mF1产生震荡。这是由于改进模型为随机初始化参数,所以,在训练初期,改进模块的提升效果并不明显,在训练的中后期,模型参数逐渐稳定,CPCA模块与DySample模块已经学习到了足够的特征知识,此时能够明显观察到改进模块对模型性能的提升作用。
各项评价指标见表2,相较于基线模型,加入CPCA模块后模型在各个评价指标上均有提升,其中mIoU提升了1.21%,mF1提升了1.00%。说明引入的注意力机制能够增强特征表示。而加入CPCA模块与DySample模块后,mIoU提升了2.70%,mF1提升了2.15%,说明引入的动态上采样模块能够改善原模型双线性插值法所带来的特征损失,使得模型性能进一步提升。
表 2 消融试验各项指标统计Table 2. Statistics on various indicators of ablation experiment算法 裂缝 伸缩缝 芯样孔洞 平均 IoU/
(%)F1/
(%)IoU/
(%)F1/
(%)IoU/
(%)F1/
(%)mIoU/
(%)mF1/
(%)基线 45.59 62.63 51.92 68.35 76.82 86.89 68.10 79.22 基线+CPCA 47.06 64.00 54.13 70.24 77.91 87.58 69.31 80.22 基线+CPCA+
DySample47.93 71.74 55.42 71.32 79.02 88.28 70.80 81.37 注:mIoU为平均交并比;mF1为平均F1得分。 2.3.4 对比试验结果分析
为了验证基于改进SegFormer的道路识别分割方法的有效性,将其命名为SegFormer-CD,与主流的语义分割算法DeepLabV3+、Swin Transformer、Vision Transformer、MobileNetV3进行对比。在对比试验中,所有的网络都为随机初始化参数,每400次训练在验证集上计算一次指标,如图13所示,训练结束时计算指标见表3。
表 3 对比试验评价指标统计Table 3. Comparative experimental training process validation set evaluation index change curve算法 编码器 平均交并比/
(%)平均F1得分/
(%)Flops/
G参数量/
MSegformer-CD MiT-B0 70.80 81.37 12.89 4.40 Segformer-CD MiT-B1 73.59 83.74 20.41 14.36 DeepLabV3+ ResNet-50 72.1 82.43 180.22 41.22 MobileNetV3 MobileNetV3 65.46 77.46 8.70 3.28 Swin Transformer Swin-T 70.22 81.10 241.66 58.94 Vision Transformer ViT-B 70.88 81.41 453.63 145.41 由于所有网络都是随机初始化参数,且学习率调整策略一致,所有网络的训练趋势都与消融实验相仿,只在终止训练时有指标上的差异。在表3中,Flops代表模型在一次前向传播(推理)过程中所需的浮点运算次数,用于衡量模型的计算复杂度和推理速度。参数量是指模型中所有可学习的参数的数量,被用来衡量模型的大小和其存储需求。从表可知,SegFormer-CD(B0)的mIoU与mF1值低于DeepLabV3+,高于Swin Transformer、Vision Transformer与MobileNetV3,但网络的Flops与参数量较低,仅高于MobileNetV3。在使用MiT-B1作为编码器后,模型在获得性能提升的同时不会显著增大Flops与参数量。这表明,该网络能够以中等规模的参数量对裂缝等复杂语义信息进行建模,同时能够获得较快的推理速度,适合用于边缘设备。对比试验效果可视化如图14所示,可以看出,SegFormer-CD(B1)与对比方法相比,在对道路裂缝进行检测识别时,整体的分割精度更高、误识别情况少,对不同类别的分割边界也更加的清晰。
3 道路裂缝定位与量化
3.1 裂缝骨架提取与量化
将训练好的模型用于裂缝图的生成,由于正射影像的像素尺寸过大,采取滑动窗口法,将正射影像先拆分为640×640的图像,然后分别用模型预测,最终将切分的1235张预测影像按照原顺序拼接,形成裂缝拼接影像,最终道路裂缝图像素尺寸为12 160×41 600。本文的全局比例尺依据现场手动量取的伸缩缝长度与芯样孔洞半径,以及正射影像的导出像素分辨率,综合考虑计算后取全局尺度缩放因子为10.5 mm/px。
由于裂缝图过长,将拼接后的道路裂缝图又进行了均匀的纵向拆分,从上到下的方向为水库到公园入口,如图15(a)~图15(e)所示。其中,黑色线条代表混凝土路面的伸缩缝,红色线条代表道路裂缝,蓝色像素代表芯样孔洞。由图可知,拼接后的道路裂缝图直观的显示了裂缝的整体分布,该模型可以完整地将伸缩缝、裂缝与芯样孔洞分割开,但也存在一定程度的漏检与误检现象。典型的误检情况是,将部分裂缝区域为直线形状的部分被误判为伸缩缝,从肉眼观察角度,混凝土路面的伸缩缝在图像中呈现为直线型特征,所以当裂缝部分为直裂缝时会产生误判,但此部分可被人工二次判断纠正。芯样孔洞在混凝土路面的识别较好,有助于帮助检测人员计数。对于过于复杂的连续裂缝与坑槽病害,分割模型提取的完整程度相对较低。总体而言,道路裂缝图可以辅助检测从业人员进行路面损坏状况判断。
为了评估所提出的方法测量裂缝长度的准确性,从检查区域中选择了6块区域,在图15中标注了每个区域的细节与对应提取的骨架曲线。取骨架曲线图中的像素长度乘以全局尺度缩放因子即获得该区域的总裂缝长度,同时,使用卷尺对每个区域中的裂缝进行手动测量。表4显示了手动测量与所提出方法计算裂缝长度的对比结果。其中,绝对误差为所提出方法减去手动测量长度,相对误差为绝对误差的绝对值除以手动测量长度。
表 4 裂缝长度测量对比结果Table 4. Comparison of crack length measurement results编号 所提出方法/mm 手动测量/mm 绝对误差/mm 相对误差/(%) 1 6888 6346 +542 8.54 2 3402 3726 −324 8.70 3 7161 7570 −409 5.40 4 13 555 13 137 +418 3.18 5 37 180 37 954 −774 2.04 6 4819 5111 −292 5.71 平均 − − − 5.60 与现场手工测量结果相比,本文方法计算的裂缝长度平均相对误差为5.60%。表面该方法在裂缝长度量化方面具有较高的准确性。本文方法能够快速计算如裂缝4、裂缝5的复杂裂缝。从绝对误差分析可知,本文方法裂缝测量普遍小于手动测量,主要原因为网络模型对过于复杂或纹理特征不明显的区域不能成功识别,造成了一部分裂缝区域的漏检,因此在骨架提取的过程中跳过了一部分裂缝区域,导致了误差的累积。
3.2 路面损坏状况指数计算
现行公路评定规范《公路技术状况评定标准》[17]使用路面技术状况指数PQI评定,按式(10)计算。其中,路面损坏状况指数PCI对混凝土路面使用的影响占比达到60%,而裂缝参与PCI的计算。在《公路技术状况评定标准》中,规定路面损坏状况指数PCI {\geqslant} 90为优,90 {\geqslant} PCI {\geqslant} 80为良,80 {\geqslant} PCI {\geqslant} 70为中,70 {\geqslant} PCI {\geqslant} 60为次,60 {\geqslant} PC为差。在自动化检测时,路面损坏状况指数PCI与对应检测指标路面破损率DR由式(11)计算:
\begin{split} {\mathrm{PQI}} = &{\mathrm{{w_{PCI}}PCI + {w_{RQI}}RQI + {w_{RDI}}RDI}} + \\ & {\mathrm{{w_{PBI}}PBI + {w_{PWI}}PWI + {w_{PSSI}}PSSI}} \end{split} (10) \begin{split} & {\rm PCI} = 100 - {a_0}{{\rm DR}^{a1}} \;,\; {\rm DR} = 100 \times \frac{{\displaystyle\sum\limits_{i = 1}^{{i_0}} {{w_i}{A_i}} }}{A} \;, \\& {A_i} = 0.01 \times {{\rm GN}_i} \end{split} (11) 式中:系数 {w}_{i} 为对应计算指数的权重;a0在水泥混凝土路面采用10.66;a1在水泥混凝土路面采用0.461;Ai/m2为第i类路面损坏的累积面积;A/m2为路面检测或调查面积;i0为损坏类型总数,水泥混凝土路面取20;wi为第i类路面损坏的权重或换算系数,对于自动化检测,破碎板、裂缝、板角断裂、接缝料损坏分别取1.0、10.0、1.0、6.0;GNi为含有第i类路面损坏的网格数,一个网格的标准尺寸为0.1 m \times 0.1 m。
自动化检测的wi不以裂缝的损坏程度分别取值,针对破碎板与板角断裂,按照实际面积计算;裂缝采用长度乘以影响宽度(水泥混凝土路面为1.0 m)换算成损坏面积。
根据《公路技术状况评定标准》中对水泥混凝土路面损坏类型重新划分损坏类别,裂缝、边角脱落等为骨架曲线的累积长度,而板角断裂、接缝料损坏等则是计算式(11)中GNi个数。最终对每个单元的PCI分数进行了计算,将单元的PCI分数反映到实际路面上,如图16所示。
4 结论
本文提出了一种基于无人机单目视频的道路裂缝定位与量化方法,可用于混凝土道路的全局裂缝提取与路面损坏状况指数计算。结合长沙象鼻窝省级森林公园道路对该方法定位识别的有效性与自动化程度进行了验证。得到以下结论:
(1) 该方法可以解决手动操控无人机采集时速度不均对重建效率的影响,能够以更少的图像输入获得同等质量的三维模型,提高效率。
(2) 开发了一种裂缝分割网络SegFormer-CD,该网络在SegFormer的基础上引入了通道优先卷积注意力模块与动态上采样模块,在本文所使用数据集上获得了2.70%的mIoU提升与2.15%的mF1提升。同时,与多种先进的语义分割网络对比,能够以较低的Flops与参数量获得更好的裂缝分割性能,适合将模型部署在边缘设备上。
(3)针对检测需求,对全长约840 m的道路重建后,设定图像分辨率为10.5 mm/px,所提出方法为道路提供了毫米级的裂缝测量与定位信息。将获得的裂缝长度与手动测量结果相比,具有5.60%的相对误差,表明该方法在模型重建和裂缝量化方面具有良好的准确性。
(4)基于模型预测的道路裂缝图像,开发了一种基于Alpha-shape与骨架曲线的路面损坏状况指数计算方法,该方法通过获取单个混凝土路面单元,进行裂缝的骨架提取,最终通过计算PCI分数来反映该路面单元的整体损坏状况。
所提出的自动化框架可以为检测人员提供准确的表面裂缝信息,包括裂纹的形状、位置与长度信息,从而有效评估结构的安全性。
-
表 1 改进分帧策略与常规分帧策略计算效率对比
Table 1 Comparison of computational efficiency between improved framing strategy and conventional framing strategy
计算指标 改进分帧策略 常规分帧策略 图像输入数/张 1154 2641 影像成功匹配数/张 1154 1973 空中三角测量计算时间/min 25 81 正射影像生产耗时/min 60 82 表 2 消融试验各项指标统计
Table 2 Statistics on various indicators of ablation experiment
算法 裂缝 伸缩缝 芯样孔洞 平均 IoU/
(%)F1/
(%)IoU/
(%)F1/
(%)IoU/
(%)F1/
(%)mIoU/
(%)mF1/
(%)基线 45.59 62.63 51.92 68.35 76.82 86.89 68.10 79.22 基线+CPCA 47.06 64.00 54.13 70.24 77.91 87.58 69.31 80.22 基线+CPCA+
DySample47.93 71.74 55.42 71.32 79.02 88.28 70.80 81.37 注:mIoU为平均交并比;mF1为平均F1得分。 表 3 对比试验评价指标统计
Table 3 Comparative experimental training process validation set evaluation index change curve
算法 编码器 平均交并比/
(%)平均F1得分/
(%)Flops/
G参数量/
MSegformer-CD MiT-B0 70.80 81.37 12.89 4.40 Segformer-CD MiT-B1 73.59 83.74 20.41 14.36 DeepLabV3+ ResNet-50 72.1 82.43 180.22 41.22 MobileNetV3 MobileNetV3 65.46 77.46 8.70 3.28 Swin Transformer Swin-T 70.22 81.10 241.66 58.94 Vision Transformer ViT-B 70.88 81.41 453.63 145.41 表 4 裂缝长度测量对比结果
Table 4 Comparison of crack length measurement results
编号 所提出方法/mm 手动测量/mm 绝对误差/mm 相对误差/(%) 1 6888 6346 +542 8.54 2 3402 3726 −324 8.70 3 7161 7570 −409 5.40 4 13 555 13 137 +418 3.18 5 37 180 37 954 −774 2.04 6 4819 5111 −292 5.71 平均 − − − 5.60 -
[1] 中华人民共和国交通运输部. 2023年交通运输行业发展统计公报 [N]. 中国交通报, 2024-06-18(02). Ministry of Transport of the People's Republic of China. Ministry of transport statistical bulletin on the development of the transportation industry in 2023 [N]. China Transportation News, 2024-06-18(02). (in Chinese)
[2] CHA Y J, CHOI W, SUH G, et al. Autonomous structural visual inspection using region-based deep learning for detecting multiple damage types [J]. Computer-Aided Civil and Infrastructure Engineering, 2018, 33(9): 731 − 747. doi: 10.1111/mice.12334
[3] ZHANG A, WANG K C P, FEI Y, et al. Deep learning-based fully automated pavement crack detection on 3D asphalt surfaces with an improved CrackNet [J]. Journal of Computing in Civil Engineering, 2018, 32(5): 04018041. doi: 10.1061/(ASCE)CP.1943-5487.0000775
[4] 杨娜, 王烁, 汪德佳. 基于计算机视觉的藏式古建筑石砌体壁画墙裂缝生长变形监测 [J]. 工程力学, doi: 10.6052/j.issn.1000-4750.2022.10.0898. YANG Na, WANG Shuo, WANG Dejia. Deformation monitoring during the growth of cracks in mural walls with stone masonry material of Tibetan ancient buildings based on computer vision [J]. Engineering Mechanics, doi: 10.6052/j.issn.1000-4750.2022.10.0898. (in Chinese)
[5] LI Z H, ZHU H M, HUANG M Q. A deep learning-based fine crack segmentation network on full-scale steel bridge images with complicated backgrounds [J]. IEEE Access, 2021, 9: 114989 − 114997. doi: 10.1109/ACCESS.2021.3105279
[6] DENG L, SUN T, YANG L, et al. Binocular video-based 3D reconstruction and length quantification of cracks in concrete structures [J]. Automation in Construction, 2023, 148: 104743. doi: 10.1016/j.autcon.2023.104743
[7] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc., 2017: 6000 − 6010.
[8] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An Image is Worth 16x16 Words: Transformers for image recognition at scale [C]// International Conference on Learning Representations. 2020.
[9] LIU Z, LIN Y T, CAO Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows [C]// Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 9992 − 10002.
[10] GUO F, QIAN Y, LIU J, et al. Pavement crack detection based on transformer network [J]. Automation in Construction, 2023, 145: 104646. doi: 10.1016/j.autcon.2022.104646
[11] WU Y J, LI S Q, ZHANG J G, et al. Dual attention transformer network for pixel-level concrete crack segmentation considering camera placement [J]. Automation in Construction, 2024, 157: 105166. doi: 10.1016/j.autcon.2023.105166
[12] 吴智深, 侯士通, 黄玺, 等. 钢筋混凝土结构移动式精准检测技术开发 [J]. 工程力学, 2024, 41(1): 1 − 16. doi: 10.6052/j.issn.1000-4750.2023.07.ST02 WU Zhishen, HOU Shitong, HUANG Xi, et al. Development of mobile precision detection technology for reinforced concrete structures [J]. Engineering Mechanics, 2024, 41(1): 1 − 16. (in Chinese) doi: 10.6052/j.issn.1000-4750.2023.07.ST02
[13] KANG D, CHA Y J. Autonomous UAVs for structural health monitoring using deep learning and an ultrasonic beacon system with geo-tagging [J]. Computer-Aided Civil and Infrastructure Engineering, 2018, 33(10): 885 − 902. doi: 10.1111/mice.12375
[14] JIANG S, ZHANG J. Real-time crack assessment using deep neural networks with wall-climbing unmanned aerial system [J]. Computer-Aided Civil and Infrastructure Engineering, 2020, 35(6): 549 − 564. doi: 10.1111/mice.12519
[15] LIU Y F, NIE X, FAN J S, et al. Image-based crack assessment of bridge piers using unmanned aerial vehicles and three-dimensional scene reconstruction [J]. Computer-Aided Civil and Infrastructure Engineering, 2020, 35(5): 511 − 529. doi: 10.1111/mice.12501
[16] WON J, PARK J W, SHIM C, et al. Bridge-surface panoramic-image generation for automated bridge-inspection using deepmatching [J]. Structural Health Monitoring, 2021, 20(4): 1689 − 1703. doi: 10.1177/1475921720930380
[17] JTG 5210−2018, 公路技术状况评定标准 [S]. 北京. 人民交通出版社, 2018. JTG 5210−2018, Highway performance assessment standards [S]. Beijing: China Communication Press, 2018. (in Chinese)
[18] CAMPOS C, ELVIRA R, RODRÍGUEZ J J G, et al. ORB-SLAM3: An accurate open-source library for visual, visual–inertial, and multimap SLAM [J]. IEEE Transactions on Robotics, 2021, 37(6): 1874 − 1890. doi: 10.1109/TRO.2021.3075644
[19] XIE E, WANG W, YU Z, et al. SegFormer: Simple and efficient design for semantic segmentation with transformers [J]. Advances in neural information processing systems, 2021, 34: 12077 − 12090.
[20] HUANG H J, CHEN Z G, ZOU Y, et al. Channel prior convolutional attention for medical image segmentation [J]. Computers in Biology and Medicine, 2024, 178: 108784. doi: 10.1016/j.compbiomed.2024.108784
[21] LIU W Z, LU H, FU H T, et al. Learning to upsample by learning to sample [C]// Proceedings of the 2023 IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 6004 − 6014.
[22] EDELSBRUNNER H, KIRKPATRICK D, SEIDEL R. On the shape of a set of points in the plane [J]. IEEE Transactions on Information Theory, 1983, 29(4): 551 − 559. doi: 10.1109/TIT.1983.1056714
[23] CANNY J. A computational approach to edge detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1986, PAMI-8(6): 679 − 698. doi: 10.1109/TPAMI.1986.4767851
[24] ZHANG T Y, SUEN C Y. A fast parallel algorithm for thinning digital patterns [J]. Communications of the ACM, 1984, 27(3): 236 − 239. doi: 10.1145/357994.358023
[25] ZHANG L, YANG F, ZHANG Y D, et al. Road crack detection using deep convolutional neural network [C]// 2016 IEEE International Conference on Image Processing (ICIP) Phoenix: IEEE, 2016: 3708 − 3712.
[26] ZOU Q, CAO Y, LI Q Q, et al. CrackTree: Automatic crack detection from pavement images [J]. Pattern Recognition Letters, 2012, 33(3): 227 − 238. doi: 10.1016/j.patrec.2011.11.004
[27] MILLETARI F, NAVAB N, AHMADI S A. V-Net: Fully convolutional neural networks for volumetric medical image segmentation [C]// 2016 Fourth International Conference on 3D Vision (3DV) Stanford: IEEE, 2016: 565 − 571.
-
期刊类型引用(14)
1. 郑宇欣,余传锦,刘多特. 山区大跨度窄梁悬索桥静风稳定及抖振性能研究. 世界桥梁. 2024(02): 81-87 . 百度学术
2. 何旭辉,段泉成,严磊,卢同庆. 基于HGWOP的自由振动响应下桥梁断面颤振导数识别. 工程力学. 2024(10): 33-42 . 本站查看
3. 周涛,邓宇,陈晓虎,王文熙,周明星,华旭刚,陈政清. 大跨度钢箱桁组合连续梁桥涡振性能研究. 工程力学. 2023(02): 213-221 . 本站查看
4. 卞其翀. 基于改进ABC算法的电梯群控调控系统在智能化建筑中的应用. 佳木斯大学学报(自然科学版). 2023(01): 63-67 . 百度学术
5. 沈学港,江守燕,储冬冬. 基于动力XFEM的结构内多缺陷三步反演法. 力学与实践. 2023(02): 379-388 . 百度学术
6. 王俊,李加武,王峰,张久鹏,黄晓明. 简化U形峡谷风速分布及其对悬索桥抖振响应的影响. 吉林大学学报(工学版). 2023(06): 1658-1668 . 百度学术
7. 何能,王学勇,殷平,张旭东. 辨识主梁颤振导数的三种时域方法对比研究. 建筑结构. 2023(S1): 889-894 . 百度学术
8. 封周权,林阳,华旭刚,陈政清. 桥梁颤振导数识别及颤振分析的不确定性研究. 中国公路学报. 2023(08): 14-21 . 百度学术
9. 周敦凯,周金松. 基于vmvare虚拟化架构的网络功能调度方法仿真. 计算机仿真. 2023(11): 393-397 . 百度学术
10. 刘祖军,贾明晓,杨詠昕. 箱梁表面的压力分布对颤振稳定性的影响. 工程力学. 2022(12): 98-107+129 . 本站查看
11. 傅立磊. 基于随机激励响应的参数识别相关函数法. 重庆交通大学学报(自然科学版). 2021(04): 70-75 . 百度学术
12. 唐煜,岳杰,华旭刚. 基于人工蜂群算法的桥梁有限元模型局部刚度修正. 铁道科学与工程学报. 2021(09): 2333-2343 . 百度学术
13. 赵天祺,勾红叶,陈萱颖,李文昊,梁浩,陈子豪,周思清. 桥梁信息化及智能桥梁2020年度研究进展. 土木与环境工程学报(中英文). 2021(S1): 268-279 . 百度学术
14. 王凌波,王秋玲,朱钊,赵煜. 桥梁健康监测技术研究现状及展望. 中国公路学报. 2021(12): 25-45 . 百度学术
其他类型引用(7)