Research on Mine Target Detection Method Based on Improved YOLOv8 ()
1. 引言
矿井开采作为能源供应链的上游环节,其安全生产直接关系到工作人员生命与国家能源安全。近年来,随着矿山智能化建设进程加速,矿井下无人驾驶矿车作为智慧矿山建设的重要一环,同时也是矿井下生产运输的主力设备,对提高矿山生产安全与工作效率具有重大意义[1]。然而,矿井下作业环境极其复杂多变,普遍存在光照不均、目标尺度差异较大等特点。在此环境中,无人驾驶车辆需要实时、精准地感知周围的人员、设备车辆等,以避免碰撞事故。因此,开发适用于复杂环境的高精度、实时目标检测算法,对于保障工作人员安全和实现矿山高效作业至关重要。
随着人工智能技术的迅速发展,基于深度学习的目标检测算法与传统工业的联系愈发紧密。YOLO系列算法[2]-[5]凭借其卓越的性能和实时性成为了工业应用的典型代表。周李兵等[6]针对井下复杂光照条件下行人检测的漏检问题通过引入弱光图像增强技术和CBAM注意力模块,提出了一种基于YOLOv3的改进算法用于矿用无人驾驶车辆的行人检测。寇发荣等人[7]针对井下图像细节模糊、缺乏色彩特征等问题,对YOLOv5进行改进,通过优化主干网络和Anchor设计,提升了检测速度,然而其在复杂场景下的实时检测精度仍存在不足。张传伟等人[8]针对煤矿井下辅助运输巷道中复杂环境工作人员的检测精度低、实时性差的问题,对YOLOv8进行改进,通过引入GhostConv和DicPSA模块在一定程度上提高了检测的精度和速度,但该方法仅针对工作人员检测,并未考虑井下其他车辆设备等需要检测的对象。董芳凯等人[9]引入Dynamic Head模块以提升井下暗光条件下的检测精度,有效解决了对工作人员漏检、错检问题。狄靖尧等人[10]引入基于注意力机制的Swin Transformer作为骨干网络进行图像的特征提取,虽然增强了特征融合能力,但其模型计算量较大,无法实时性的需求。
基于此,本文提出一种基于YOLOv8的改进算法,用于检测井下无人驾驶矿车视角的工作人员和工程设备车辆。通过引入高效且简化的网络模块替代原算法中的低效模块,使得模型能够有效学习多尺度特征信息,实现在光照不均的场景中对远距离、小目标的准确识别。
2. 网络模型改进
2.1. YOLOv8网络结构
YOLOv8作为先进的深度学习的目标检测算法,凭借其出色的速度与精度平衡受到了工业界的广泛关注。它借鉴了YOLOv5、v6等多个模型的设计有点,基于YOLOv5的架构进行全面的改进优化,同时保持了工程化简洁易用的优势。首先在Backbone部分YOLOv8使用C2f替换C3模块,通过并行更多的梯度流分支,在保证轻量化的同时获得了丰富的梯度信息。在检测头部分,使用解耦检测头代替原来的耦合头,实现分类任务和检测任务的独立处理。相较于YOLOv5,YOLOv8在众多领域检测精度上有着显著的提升,但较高的计算复杂度使得它在实际工作应用中仍面临着一定的挑战。YOLOv8模型根据计算量可以划分为几个不同版本。通常情况下,随着网络模型层数加深、计算量也会随之增大,带来的结果是感知精度的不断提高,但推理速度会因为网络逐渐复杂而有所下降。本文综合考虑矿井下无人驾驶矿车对推理速度和检测精度的要求,选择YOLOv8-n作为基准模型并对其进行改进和优化。如图1所示为YOLOv8的网络结构示意图。
图1. YOLOv8网络结构示意图
2.2. 鲁棒特征下采样模块
卷积计算是神经网络模型中提取特征的重要操作,针对矿井下复杂环境中目标尺度多变、小目标特征容易丢失的问题,本文采用鲁棒特征下采样(RFD)模块代替YOLOv8原始的跨步卷积下采样层。传统的跨步卷积在降低特征图分辨率时,因其固定步长和单一感受野导致的空间细节缺失,尤其是对头盔、碎石等小目标的特征响应衰减显著。RFD模块通过多路径下采样策略的协同工作,实现特征信息的最大化保留,并提高下采样特征的鲁棒性[11]。
如图2所示为RFD模块的结构图,该模块以双分支同时对输入特征进行处理实现特征信息的互补式提取。在主分支中,输入特征先经过分组卷积(GConv)进行特征的初步提取,然后并行进行深度可分离卷积(DWConv)和最大池化操作,继续提取深层特征并调整特征图尺寸,实现高效的特征压缩。在辅助分支中RFD采用空间到深度卷积(SPDConv)构建无损特征传输通道,并利用像素重组技术将空间信息完整迁移到通道维度,保留原始特征信息,确保特征表达能力。最后对经过两个分支处理后的特征图进行通道维度上的堆叠操作,并利用卷积的操作实现通道间特征信息的融合与压缩。整个过程保证了特征信息完整性的同时降低了模型的计算量。
SPDConv模块的网络结构如图3所示,其核心设计是将传统下采样操作解耦拆解成两个独立阶段:首先跨像素点提取像素,组成沿空间维度堆叠的新特征图,然后经过一个卷积操作完成通道维度的压缩。
图2. RFD模块结构图
图3. SPDConv网络结构图
2.3. BiFPN模块
在矿洞井下场景中,由于光照条件差、粉尘和烟雾的干扰,以及复杂的巷道结构,目标物体在相机视野中尺寸变化剧烈,尤其是远距离的小目标,仅占据图像中极少的像素区域,容易导致传统检测模型出现漏检或错检现象。YOLOv8模型通过引入PAN-FPN (Path Aggregation Network-Feature Pyramid Network)结构实现多尺度特征融合,在一定程度上增强了网络的多尺度检测能力。然而,PAN-FPN的大规模卷积计算以及频繁的采样操作增大了模型的计算复杂度和推理时间,限制了实时监测的效率。此外,在多次特征融合过程中,大量的卷积与特征拼接操作引入了冗余信息,导致模型无法充分利用每一层特征表达能力。这不仅增加了计算资源消耗,还削弱了模型在复杂场景中的检测表现。如图4所示,为FPN和PANet的网络结构示意图。
图4. FPN、PANet网络结构图
为了解决现有模型在多尺度特征融合中的不足,并增强模型对不同尺度目标特征的提取能力,本文引入了加权双向特征金字塔网络(BiFPN)代替YOLOv8模型中的原颈部网络PANet。
BiFPN [12]通过双向尺度连接和动态加权融合机制实现多尺度特征的高效融合:首先构建双向特征金字塔,通过1 × 1卷积调整通道一致性以确保不同层级特征的语义对齐;在特征融合过程引入通道注意力机制,通过可学习参数动态分配特征权重。具体而言,输入特征为
,则第
个特征的加权权重
可通过以下公式计算:
式中,
为通过卷积生成的原始权重值,经过softmax归一化后实现跨尺度权重分配。加权后的特征图逐元素相加,并通过3 × 3卷积进一步融合空间信息,最终输出增强后的多尺度特征。
BiFPN通过简化双向网络结构,剔除对特征提取贡献有限的输入边节点,从而减少网络冗余。BiFPN的主要优点在于它不仅保留了PANet中自上而下和自下而上的特征融合路径,还引入了加权特征融合策略。不同于传统的简单求和或特征拼接的操作,BiFPN在融合不同尺度特征时,根据各个特征的重要性动态分配权重。这种机制使得模型能够更多关注对检测任务有显著贡献的特征区域,提升了模型的表达能力和检测性能。BiFPN的结构设计为可重复堆叠,将每条通路视为一层特征网络,通过多次重复相同的层结构,实现更高层次的特征融合,其网络结构如图5所示。相较于传统的求和或拼接的融合特征方式,BiFPN更有助于模型聚焦于矿井下目标检测任务中的关键尺度特征,提升整体检测精度与鲁棒性。
图5. BiFPN结构图
基于以上策略改进后的算法网络结构如图6所示。
图6. 改进YOLOv8网络结构示意图
3. 实验结果与分析
3.1. 实验环境与数据集
本文算法实验基于Ubuntu22.04系统进行,硬件配置包括Intel i7-14650 HX处理器、GeForce RTX4060显卡(8G显存)并采用CUDA11.3版本以支持GPU加速训练。实验参数方面将batch_size设置为8,迭代轮次设定300轮,初始学习率设置为0.01,同时选择随机梯度下降(SGD)优化器进行模型训练。
用于训练本文算法的数据集来源于某矿井下巷道内的实际拍摄场景,共1600张图像,其分辨率均为640 × 640。随后在开源工具labelimg上对图像进行标注,标签类别分为工作人员和工程设备车辆两大类,其数量分别为1137例和800例。为了满足在不同光照条件的感知性能,数据集被分为正常光照、低光照以及高光照三种场景,其数量分别为400,600,600。随后本文通过旋转、水平翻转等操作对数据集扩充至4800张图像,并被按照8:2的比例划分为训练集和测试集。如图7所示,为部分数据集示例展示。
图7. 井下场景数据集示例
3.2. 对比实验
为了验证本文算法的性能,本节将其与其他优秀算法进行对比实验,所有实验均在矿下数据集进行,实验结果如表1所示,本文方法在所有对比模型中表现出最佳的综合性能。
表1. 不同模型的对比试验结果
算法 |
mAP |
F1-score |
Params |
GFLOPs |
Faster-RCNN |
0.594 |
0.608 |
41.58 |
91.32 |
YOLOv5-n |
0.845 |
0.810 |
2.57 |
7.1 |
YOLOv6-n |
0.856 |
0.817 |
4.23 |
11.8 |
YOLOv8-n |
0.882 |
0.835 |
6.12 |
8.2 |
YOLOv9-Nano |
0.897 |
0.842 |
3.05 |
7.0 |
本文方法 |
0.915 |
0.861 |
2.63 |
6.4 |
本文算法通过轻量化设计结构,在得到了较高的mAP保证检测精度的同时,还将GFLOPS和Params控制在较低的水平确保模型的复杂度较低,在高精度与高效率之间实现了很好的平衡关系。
3.3. 消融实验
为了验证本文所提出的改进方案的有效性以及该改进策略对于模型性能的具体影响,本节对文中的不同模块进行了消融实验,实验结果如表2所示。消融实验以YOLOv8-n模型为基准,在相同数据集以及相同参数配置的条件下进行实验,通过对比每一个模块引入后对模型性能的影响来验证该模块的有效性。在引入RFD模块后,模型的mAP和F1分数分别提升了1.1%和0.6%,同时计算量与参数量分别下降了20%和21%。在引入BiFPN模块后,模型的mAP和F1分数分别提升了2.5%和2.2%,计算量和参数量虽没有明显的下降,但也并未额外增加。相比于基准模型,经过了以上模块改进后的算法在检测精度和效率上体现了明显的优势。
表2. 消融实验结果
RFD |
BiFPN |
mAP |
F1-score |
Params |
GFLOPs |
|
|
0.882 |
0.835 |
6.12 |
8.2 |
√ |
|
0.893 |
0.846 |
2.37 |
6.6 |
|
√ |
0.907 |
0.857 |
2.78 |
8.3 |
√ |
√ |
0.915 |
0.861 |
2.63 |
6.4 |
3.4. 可视化分析
为了直观体现本文算法的检测精度,本节选择了验证集中部分场景的检测结果可视化,如图8所示。图中可以看出,无论是在光照较好的条件下或是较暗的巷道中,场景中距离很远的工作人员以及工程设备车都能够被准确识别出来,说明了本文算法的有效性。
图8. 检测结果可视化
4. 结论
本文围绕无人驾驶矿车在矿井下复杂环境中的目标检测需求,提出了一种基于YOLOv8的改进模型。通过在自建矿井下场景数据集对本文算法进行验证,其实验结果表明本文算法实现了高检测准确率和低模型复杂度的有效平衡,满足井下无人驾驶系统对实时性和精度的双重要求,为矿井无人驾驶系统安全高效的运行提供了可靠保障。然而当前的检测算法不具备输出目标位置信息的能力,在一定程度上限制了其对于自动驾驶矿车进行路径规划的支持效果。未来的工作将着重探索多传感器融合技术,基于激光雷达等提供可靠的位置信息,进一步提高模型在复杂环境众多鲁棒性与适用性。
Conflicts of Interest
The author declares no conflicts of interest.
Appendix (Abstract and Keywords in Chinese)
基于改进YOLOv8的矿井下目标检测方法研究
摘要:针对矿井下光照不均、目标尺度多变等复杂环境,实现自动驾驶矿车对人员、设备等潜在碰撞目标的精准实时检测,对提升矿山安全与工作效率至关重要。针对以上问题,本文提出一种基于YOLOv8的改进算法,通过引入鲁棒特征下采样(RFD)模块解决小目标特征丢失问题,并采用加权双向特征金字塔网络(BiFPN)增强多尺度特征融合能力。实验结果表明,改进模型在自建矿井下场景数据集上取得了91.5% mAP、86.1% F1-score的检测精度,较原基准模型YOLOv8-n分别提高了3.3%和2.6%,同时模型复杂度也大幅降低。该算法保证了无人驾驶铲运车的实时障碍物检测系统的高效准确运行。
关键词:矿用无人驾驶车辆,目标检测,YOLOv8