摘要
传统先进陶瓷零件检测与分类的主流方法为纯机械尺寸过滤和人工判断,为解决其成本高、失误率高和损坏率高等问题,提出了基于深度学习的多目标实时检测分类模型(Multi⁃object real⁃time detection and classification model, MRDC)。该模型以YOLOv3为基础,使用SKNet作为注意力机制进行特征重构提高精确度,配合灰度图快速转化算法与跳帧检测方法提高检测速度,可实现实时缺陷检测。对实际生产中的先进陶瓷零件进行采集训练,多批次采集图像数据,每批数据含多个陶瓷零件的1 000张图像,平均精确率均值达到99.19%,用先进陶瓷零件生产线视频检验,识别分类的正确率达到100%,可以保证每分钟检测450~550个零件。多目标实时检测分类模型拥有识别速度更快、识别准确率更高和零件不易损坏等优点,可极大地节约生产原料与人力成本,减少废品产出。
先进陶瓷采用新型制备工艺制成,含有先进陶瓷的整体产品具有安全性、绝缘性、隔热性和稳定性的优异性能,被广泛应用于航天、机械、电子和化工等高精度领域。根据市场研究机构Research and Markets的预
随着人工智能技术的发展,零件检测已经逐渐从依靠纯机械方式发展为利用计算机图像自动识
先进陶瓷零件外形有很多种,有内圆外六边形的螺母状、存在多凹槽的不规则条状以及中心至底面以长方体挖空的棱柱状等。本文选择的先进陶瓷样本外形是由上下两个空心圆柱组成,其中上半部分空心圆柱内径比下半部分空心圆柱外径稍小,下半部分内、外径差为上半部分内、外径差的2~3倍。
在实际生产中,先进陶瓷零件的筛选对边框标注的精度要求不高,但是对识别速度和准确性有很高的要求。本文提出了一种多目标实时检测分类模型(Multi⁃object real⁃time defect detection and classification model, MRDC),利用优化后的灰度图转换算法对图像先期处理,采用SKNet模块进行特征重构,并使用了基于Darknet⁃53网络的YOLOv
本文率先使用基于深度学习的人工智能技术识别分类先进陶瓷零件,在极大地提高了速度与准确率的同时实现了无接触分类,避免了目标检测与分类过程中可能对先进陶瓷零件造成的损伤。
准确度和速度直接决定了目标检测模型的优
(1) |
式中:表示对象存在的概率;表示Bounding box与真实Bounding box的交并比,即两者的近似程度。
损失实为经过神经网络训练后的输出值与实际的标签值之间的偏差。YOLO的损失函数一般使用以上两者误差的平方和作为样本的整体误差,包括边框中心点误差、边框高度与宽度误差、边框内有无对象时的置信度误差以及各个对象的分类误
(2) |
式中、、、、为网络预测值;、、、、为标注值;仅可取值或,表示第个网格的第个anchor box是否对此object负责。
YOLOv1简单地将图片划分为49个网格,但是这样会导致每个网格生成的Bounding box较少,从而使其在邻近目标和小目标的检测中表现较差。此外YOLOv1还会有更多的定位误差,往往最后目标框选的精度并不
YOLOv3在YOLOv1的基础上基于残差网络Resne

图1 残差网络结构图
Fig.1 Structural diagram of residual network
则残差网络函数可表示为
(3) |
YOLOv3将输入图像映射到3个尺度的输出张量,如果输入为、RGB三通道图像,一般3种尺度分别为、、,那么总共具有个预测。在每个预测中,对象存储在其中的80维,边框坐标与置信度分别存储在其中的4维和1维,共维,如

图2 YOLOv3目标检测流程
Fig.2 YOLOv3 object detection process
不同尺度的感受野大小不同,每个尺度通过K⁃means聚类得到3个先验框,以COCO数据集为例,9个先验框的具体尺寸如
YOLOv3同样用ReLU作为激活函数,输入图像经过5次步长为2的卷积层进行下采样,提升了平均精确率均值(Mean average precision, mAP),并且一定程度上解决了YOLOv1在小物体检测中表现较差的问题。
在边界框的预测上,YOLOv3采用Adam优化器,预测对象类别采用单独的Logistic分类器取代传统的Softmax分类
如

图3 预测框示意图
Fig.3 Prediction boxes indicate
(4) |
(5) |
(6) |
(7) |
每个预测框使用非极大值抑制(Non⁃maximum suppression, NMS)算法,即选取得分最高的输出并将与其重叠的去掉,存在于第个Bounding box的可能性如式所示,其中Score为各边界框置信度下的条件概率。最后根据特征图与原图的映射关系在原图上输出预测框,从而实现对先进陶瓷零件的定位。
(8) |
本文提出一种效率与准确性较高的多目标实时检测分类模型MRDC。该模型在上述YOLOv3算法的基础上添加了SKNet(Selective kernel network)注意力机制,并结合灰度图转化算法的思想,采用跳帧追踪检测。因此,MRDC模型在继承YOLOv3高速准确特点的同时可在视频目标检测与分类中进一步提升效率。
一般使用的样本均为sRGB空间图像,将图像转为灰度图有多种算法,例如:直接将RGB求和取均值(
(9) |
(10) |
(11) |
式中:R,G,B取值为0~255之间的整数,分别代表红色、绿色和蓝色的颜色成分;Grey为灰度值。
本文在式算法的基础上进行优化。在实际训练和识别中,因式需要进行大量的浮点数运算导致其效率大幅度降低。因此,本文将其放大100倍并使用移位代替除法,然后采用去尾法近似。由式(
(12) |
(13) |
(14) |
(15) |
为进一步提高效率,MRDC模型采用式对图像进行先期快速灰度图转化。
SKNet为轻量的网络结
SKNet先进行Split操作,采用分组卷积的方法对于不同大小的卷积核进行完整卷积得到和。随后进行Fuse操作融合信息,根据式得到,有
(16) |
然后输出和两个矩阵,以实现对权重的选择。最后进行Select操作,按照式融合不同尺寸的Feature map,有
(17) |
大量使用残差网络的YOLOv3未使用Darknet⁃53的全连接层,如

图4 SKNet特征重构图
Fig.4 SKNet feature reconstruction
结合对灰度图转化算法的优化,基于SKNet的特征重构与跳帧追踪检测算法,MRDC模型可在YOLOv3的基础上进一步提高准确率。模型步骤如下:
(1)采用优化后的灰度图转化算法对原始样本数据进行维数约减。
(2)自动判断是否需要进行归一化处理。为了适配更多的数据集,使MRDC模型有更好的扩展性,当数据集尺寸不一致时对其进行归一化处理。
(3)采用加入注意力机制后的YOLOv3算法对处理后的数据进行训练,利用SKNet进行特征重构,在实验中调整各项参数以得到最小损失的模型并进行预测,在经过非极大值抑制后得到预测结果,整体流程如

图5 模型训练与预测流程图
Fig.5 Model training and prediction process
(4)对视频进行预测时,每5帧取其中的第1帧,在对取到的第1帧预测前,将其从BGR格式转为灰度图,然后使用训练得到的模型进行预测。
(5)为保持预测结果并实现追踪目标,对其中第1帧预测得到的预测框坐标、与先进陶瓷零件在两帧之间平移的像素进行计算,如式(
(18) |
(19) |
将每一帧视频重新拼接得到输出视频,预测视频具体流程如

图6 视频预测流程图
Fig.6 Video forecasting process
基于YOLOv3与SKNet注意力机制的MRDC模型使用Python语言,并利用Keras框架搭建了Darknet⁃53网络;硬件为处理器i7⁃9700K、内存16 GB和显卡NVIDIA RTX 2070 Super;操作系统为Ubuntu 16.04 LTS。
受齐齐哈尔市某特种陶瓷厂委托,采用MRDC模型解决实际先进陶瓷零件生产中的无接触筛选问题。但在其目标检测分类的研究中,未发现公开数据集。
多批次运用数码设备采集数据,每次得到1 000张像素的数量在1~9之间不等、位置散乱的先进陶瓷零件图,并将其制作为数据集,图例如

图7 数据集示例图
Fig.7 Sample data set diagram
使用开源工具labelImg将图片中的每个零件位置进行标注并设定分类,在全部标注后可得到包含了对象的位置和分类的1 000个XML格式的标注文件,最终得到先进陶瓷零件目标检测分类数据集。
采集得到数段宽高比为、格式为mp4的视频,用于实时测试模型效果。为逐列展示视频中的零件,每隔25~35帧对视频进行截图,如

图8 视频示例图
Fig.8 Video examples
使用Cisco公司发布的开源H.264编码器Openh264对视频进行编码与解码。从视频截取的图像均为BRG格式,而训练所使用的样本为灰度图,使用在灰度图样本下训练得到的模型对视频进行目标检测与分类将直接导致准确率大幅下降。因此需要将每1帧图像从BRG格式快速转化为灰度图进行目标检测和分类。
将每个数据标注文件中存放的多个先进陶瓷零件的位置信息与图像中的先进陶瓷零件一一对应,使用十次交叉验证方法将数据集分为10份,并将其中的1份作为测试集,剩下的9份作为训练集。同时对数据使用随机旋转角度、随机水平翻转以及随机裁剪等增强策略,读取的bbox生成对应的3种尺寸的存储类别和真实框的中心宽高置信度的Label,Feed之前将图片Resize为416像素×416像素,最后将其转化为灰度图输入。
在Darknet⁃53的主干网络后加入3个SK注意力机制模块后得到使用SKNet进行特征重构后的模型。分别对原始YOLOV3模型和特征重构后的模型进行实验,检视两次实验的Loss,比对实验所得mAP,判定进行特征重构对多目标实时检测分类模型的价值。
在训练前修改YOLOv3的相关配置与参数,设置学习率为0.000 1,当Epoch达到100时结束训练,设置Batch_size为4,使用10%的数据作为测试集。调整SKNet的各项参数,设置额外路径数量SKNet_M为2,每个路径的基数SKNet_G为32,Fuse操作参数数量SKNet_r为16,参数含义与数值如
学习率Learning rate直接影响模型训练结果,若学习率过高会导致无法优化,而学习率过小易导致优化过慢,出现掉入局部最优的情

图9 损失函数曲线对比
Fig.9 Loss function comparison
在训练100次后选择损失较低的第88次训练得到的模型,由于先进陶瓷零件对框选的精度要求不高,但是对分类判断的准确性要求较高,所以精确率Precision相比于召回率Recall更有参考意义,但由于最后精确性较高,故以平均精确率均值mAP值作为判断标准。多批次采集图像数据,每次采集含多个陶瓷零件的图像1 000张作为数据集,经过验证后得出原模型的mAP值为97.57%,加入SKNet特征重构后模型的mAP值为99.19%,这说明本文模型很好地实现了对目标的检测与分类,两种模型的平均精确率AP值如

图10 平均精确率
Fig.10 Average precision
使用数据集外的多个图片样本对模型进行验证。测试后的结果表明,本文提出的MRDC模型时间效率较高,可以准确地对图片样本进行目标检测与分类。随机选择1个图片样本进行可视化测试,保持硬件配置不变,经过32 ms左右得到如

图11 图片样本可视化结果图
Fig.11 Visualization results of sample images
使用视频样本对模型进行验证。经测试可知,MRDC模型可以高效准确地对视频中出现的每一个先进陶瓷零件进行框选、分类和追踪,可以保证每分钟检测450~550个零件。每25~35帧截取图片,如

图12 视频样本可视化结果图
Fig.12 Visualization results of sample video
本文针对先进陶瓷零件无接触检测分类问题,基于YOLOv3算法与SKNet注意力机制提出了多目标实时检测分类模型MRDC,可对先进陶瓷零件图像进行快速灰度图转化,实时追踪视频中所有零件的位置并加以分类,克服了靠机械先期过滤加人工筛选方式成本高、准确性低和零件损伤率高的问题,可高效准确地对大批量的先进陶瓷零件进行目标检测与成品判断并可视化输出。在测试中,平均精确率可达到99.19%;批量测试中,由生成的图片样本可视化结果图和视频样本可视化结果图可知零件标注框位置准确、追踪及时,因此MRDC模型可以很好地投入生产实践。下一步将继续研究如何提高先进陶瓷零件的平均精确率,以及在更复杂的视频背景下检测分类更多样本的同时保证精确率,使得先进陶瓷零件无接触检测分类可以更好地适用于更加复杂的大批量生产实践中。同时,也将基于现有的多目标实时检测分类模型进一步优化生产流水线,配置自动分拣装置,实现不合格零件的自动剔除,改变实际生产现状,达到在每条生产线上减少6名分拣员的同时实现全天候24 h自动化生产的目的,这有助于更高效准确地对次品零件进行二次回收,节约成本,减少废品产出,提高了经济效益的同时保护了环境,有助于先进陶瓷产业的发展。
参考文献
张脉官,姚素媛. 谈高性能陶瓷辊棒的发展趋势[J]. 佛山陶瓷,2020,30(5):5-8,20. [百度学术]
Zhang Maiguan, Yao Suyuan. Development trend of high performances ceramic rollers[J]. Foshan Ceramics, 2020, 30(5): 5-8,20. [百度学术]
李若尘,朱悠翔,孙卫民,等. 基于深度学习的木材缺陷图像的识别与定位[J]. 数据采集与处理,2020,35(3):494-505. [百度学术]
Li Ruochen, Zhu Youxiang, Sun Weimin, et al. Recognition and localization of wood defect image based on deep learning[J]. Journal of Data Acquisition and Processing, 2020, 35(3): 494-505. [百度学术]
柳云鹤,李苏. 基于遗传算法的2D机械零件分类识别[J]. 传感器与微系统,2020,39(8):148-151. [百度学术]
Liu Yunhe, Li Su. Classification and recognition of 2D mechanical parts based on GA[J]. Transducer and Microsystem Technologies, 2020, 39(8): 148-151. [百度学术]
匡逊君,赵文倩,李明富. 基于图像不变矩和SVM的机械零件分类识别[J]. 制造业自动化,2012,34(15):65-68,72. [百度学术]
Kuang Xunjun, Zhao Wenqian, Li Mingfu. Classifying and recognizing of mechanical parts based on the image invariant moment and SVM[J]. Manufacturing Automation, 2012, 34(15): 65-68,72. [百度学术]
岳晓峰,刘天. 基于粒子群算法的RBF神经网络零件表面缺陷分类[J]. 电子技术与软件工程,2019(4):18-20. [百度学术]
Yue Xiaofeng, Liu Tian. Particle swarm algorithm based RBF neural network for part surface defect classification[J]. Electronic Technology & Software Engineering, 2019(4): 18-20. [百度学术]
Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J].Science, 2006, 313(5786):504-507. [百度学术]
Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE Computer Society, 2014: 580-587. [百度学术]
Girshick R. Fast R-CNN[C]//Proceedings of International Conference on Computer Vision.Santiago: IEEE Press, 2015: 1440-1448. [百度学术]
Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Proceedings of Advances in Neural Information Processing Systems. Montreal: MIT Press, 2015: 91-99. [百度学术]
Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE Computer Society,2016:779-788. [百度学术]
Redmon J, Farhadi A. YOLOv3: An incremental improvement[EB/OL]. (2018-04-08)[2020-05-28]. https://arxiv.org/abs/1804.02767. [百度学术]
阮激扬. 基于YOLO的目标检测算法设计与实现[D]. 北京:北京邮电大学,2019. [百度学术]
Ruan Jiyang. Design and implementation of object detection algorithm based on YOLO[D]. Beijing: Beijing University of Posts and Telecommunications, 2019. [百度学术]
曹香滢,孙卫民,朱悠翔,等. 基于科优先策略的植物图像识别[J]. 计算机应用,2018,38(11):3241-3245. [百度学术]
Cao Xiangying, Sun Weimin, Zhu Youxiang, et al. Plant image recoginiton based on family priority strategy[J]. Journal of Computer Applications, 2018, 38(11): 3241-3245. [百度学术]
张婷婷,章坚武,郭春生,等. 基于深度学习的图像目标检测算法综述[J]. 电信科学,2020,36(7):92-106. [百度学术]
Zhang Tingting, Zhang Jianwu, Guo Chunsheng, et al. A survey of image object detection algorithm based on deep learning[J]. Telecommunication Science, 2020, 36(7): 92-106. [百度学术]
杨建伟,涂兴子,梅峰漳,等. 基于深度学习优化YOLOv3算法的芳纶带检测算法研究[J]. 中国矿业,2020,29(4):67-72. [百度学术]
Yang Jianwei, Tu Xingzi, Mei Fengzhang, et al. Research on aramid band detection algorithm based on deep learning optimization YOLOv3 algorithm[J]. China Mining Magazine, 2020, 29(4): 67-72. [百度学术]
黄健,张钢. 深度卷积神经网络的目标检测算法综述[J]. 计算机工程与应用, 2020, 56(17): 12-23. [百度学术]
Huang Jian, Zhang Gang. Survey of object detection algorithms for deep convolutional neural networks[J]. Computer Engineering and Applications, 2020, 56(17): 12-23. [百度学术]
HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE Computer Society, 2016: 770-778. [百度学术]
徐守坤,倪楚涵,吉晨晨,等. 基于YOLOv3的施工场景安全帽佩戴的图像描述[J]. 计算机科学, 2020, 47(8): 233-240. [百度学术]
Xu Shoukun, Ni Chuhan, Ji Chenchen, et al. Image caption of safety helmets wearing in construction scene based on YOLOv3[J]. Computer Science, 2020, 47(8): 233-240. [百度学术]
冯加明,储茂祥,杨永辉,等. 改进YOLOv3算法的车辆信息检测[J]. 重庆大学学报, 2020, 61(6): 1-12. [百度学术]
Feng Jiaming, Chu Maoxiang, Yang Yonghui, et al. Vehicle information detection based on improved YOLOv3 algorithm[J]. Journal of Chongqing University, 2020, 61(6): 1-12. [百度学术]
唐标,程志万,李博,等. 基于改进的YOLOv3在电力场景中的人群识别[J]. 电子器件,2020,43(3):563-568. [百度学术]
Tang Biao, Cheng Zhiwan, Li Bo, et al. Crowd behavior recognition based on improved YOLOv3 in electric power surveillance[J]. Journal of Electron Devices, 2020, 43(3): 563-568. [百度学术]
刘美. 彩色图像灰度化算法的研究与实现[D]. 长春:长春理工大学,2019. [百度学术]
Liu Mei. Research and implementation of color-to-gray algorithm[D]. Changchun: Changchun University of Science and Technology, 2019. [百度学术]