广西师范大学学报(自然科学版) ›› 2026, Vol. 44 ›› Issue (3): 75-88.doi: 10.16088/j.issn.1001-6600.2025071101

• 智能信息处理 • 上一篇    下一篇

SOP-DETR:基于改进RT-DETR的海下垃圾检测算法

毕桦男, 高丙朋*, 蔡鑫   

  1. 新疆大学 智能科学与技术学院, 新疆 乌鲁木齐 830017
  • 收稿日期:2025-07-11 修回日期:2025-11-03 出版日期:2026-05-05 发布日期:2026-05-13
  • 通讯作者: 高丙朋(1979—),男, 新疆乌鲁木齐人, 新疆大学副教授, 博士。E-mail: gabpg@xju.edu.cn
  • 基金资助:
    国家自然科学基金(62303394); 新疆维吾尔自治区自然科学基金(2024D01C28); 新疆维吾尔自治区“天山英才”培养计划青年拔尖人才项目(2024TSYCCX0011)

SOP-DETR: An Underwater Garbage Detection Algorithm Based on Improved RT-DETR

BI Huanan, GAO Bingpeng*, CAI Xin   

  1. School of Intelligent Science and Technology, Xinjiang University, Urumqi Xinjiang 830017, China
  • Received:2025-07-11 Revised:2025-11-03 Online:2026-05-05 Published:2026-05-13

摘要: 为解决目前人工打捞海下垃圾效率低下、人工成本高昂、海下环境复杂性导致垃圾检测精确度降低等问题,本文提出一种基于改进RT-DETR网络的海下垃圾检测算法SOP-DETR。首先,采用轻量级网络StarNet替代原有主干网络,以实现模型的精简化。其次,设计一种新的特征金字塔结构,旨在增强小目标的特征信息,替代传统增加P2层方法,并集成CSPO(CSP-OmniKernel)模块和SPD卷积模块,以提升模型对全局特征的提取和多尺度特征的融合。此外,引入WaveletUnPool模块和LDConv模块以减少特征信息的损失,优化上下采样操作,进一步提升小目标检测的精确度。最后,设计Focaler-MPDIoU损失函数替代原有模型的损失函数,为不同难度的样本赋予不同权重,优化边界框回归的精确度和速度。实验结果显示,与原模型相比,SOP-DETR模型在精确率、召回率和mAP@0.5上分别提升7.7、3.3和4.5个百分点,同时计算量减少30.4%,有效增强海下复杂环境的垃圾检测性能。

关键词: 海下垃圾, 目标检测, RT-DETR, 特征金字塔, 损失函数

Abstract: To address the current problems such as low efficiency of manual garbage collection, high labor costs, and reduced accuracy of garbage detection due to the complexity of the underwater environment, an underwater garbage detection algorithm based on improved RT-DETR network is proposed. Firstly, the lightweight network StarNet is adopted to replace the original backbone network to achieve the simplification of the model. Secondly, a new feature pyramid structure is designed, aiming to enhance the feature information of small targets, replacing the traditional method of adding P2 layers. It also integrates the CSPO (CSP-OmniKernel) module and the SPD convolution module to improve the model's extraction of global features and the fusion of multi-scale features. In addition, the WaveletUnPool module and the LDConv module are introduced to reduce the loss of feature information and optimize the upsampling and downsampling operations to further enhance the accuracy of small target detection. Finally, the Focaler-MPDIoU loss function is designed to replace the loss function of the original model, assigning different weights to samples of different difficulties, which optimizes the accuracy and speed of bounding box regression. The experimental results show that, compared with the original model, the SOP-DETR model has increased the precision rate, recall rate and mAP@0.5 by 7.7, 3.3 and 4.5 percentage points respectively, while reducing the computational load by 30.4%, effectively enhancing the garbage detection performance in the complex underwater environment.

Key words: underwater garbage, object detection, RT-DETR, feature pyramid, loss function

中图分类号:  TP391.41

[1] 罗偲, 李凯扬, 吴吉花, 等. 基于对抗注意力机制的水下遮挡目标检测算法[J]. 计算机工程, 2024, 50(10): 313-321. DOI: 10.19678/j.issn.1000-3428.0068279.
[2] 孙艺倩. 基于深度学习的水下垃圾检测方法研究[D]. 吉林: 东北电力大学, 2023. DOI: 10.27008/d.cnki.gdbdc.2023.000198.
[3] 生态环境部. 2022年中国海洋生态环境状况公报(摘录)[J]. 环境保护, 2023, 51(11/12): 70-82. DOI: 10.14026/j.cnki.0253-9705.2023.z3.019.
[4] TIAN M J, LI X L, KONG S H, et al. A modified YOLOv4 detection method for a vision-based underwater garbage cleaning robot[J]. Frontiers of Information Technology & Electronic Engineering, 2022, 23(8): 1217-1228. DOI: 10.1631/FITEE.2100473.
[5] SHINDE A, SHINDE S. Computer vision-based autonomous underwater vehicle with robotic arm for garbage detection and cleaning[M]// Geo-Environmental Hazards using AI-enabled Geospatial Techniques and Earth Observation Systems. Cham: Springer Nature Switzerland, 2024: 265-288. DOI: 10.1007/978-3-031-53763-9_16.
[6] 李学军, 权林霏, 刘冬梅, 等. 基于Faster-RCNN改进的交通标志检测算法[J]. 吉林大学学报(工学版), 2025, 55(3): 938-946. DOI: 10.13229/j.cnki.jdxbgxb.20230553.
[7] 石天怡, 南新元, 郭翔羽, 等. 基于改进ConvNeXt的苹果叶片病害分类算法[J]. 广西师范大学学报(自然科学版), 2025, 43(4): 83-96. DOI: 10.16088/j.issn.1001-6600.2024072303.
[8] TATA G, ROYER S J, POIRION O, et al. A robotic approach towards quantifying epipelagic bound plastic usingdeep visual models[EB/OL]. (2021-10-19)[2025-07-11]. https://arxiv.org/abs/2105.01882. DOI: 10.48550/arXiv.2105.01882.
[9] HONG J, FULTON M, SATTAR J. A generative approach towards improved robotic detection of marine litter[C]// 2020 IEEE International Conference on Robotics and Automation (ICRA). Piscataway, NJ: IEEE, 2020: 10525-10531. DOI: 10.1109/ICRA40945.2020.9197575.
[10] 庞梅, 汪珙, 詹泳, 等. 基于YOLOv5改进算法的海洋水下垃圾检测方法[J]. 计算机与现代化, 2024(7): 120-126. DOI: 10.3969/j.issn.1006-2475.2024.07.018.
[11] 韩丽, 马春海, 林志浩, 等. 一种用于低分辨率小目标的水下垃圾检测算法[J]. 科学技术与工程, 2024, 24(35): 15126-15136. DOI: 10.12404/j.issn.1671-1815.2308610.
[12] 袁红春, 臧天祺. 基于注意力机制及Ghost-YOLOv5的水下垃圾目标检测[J]. 环境工程, 2023, 41(7): 214-221. DOI: 10.13205/j.hjgc.202307029.
[13] LIU Q X, JI L L, ZHAO F. Underwater target detection algorithm based on feature enhancement and feature fusion[J]. Engineering Research Express, 2025, 7(1): 015240. DOI: 10.1088/2631-8695/ada976.
[14] ZHAO Y A, LV W Y, XU S L, et al. DETRs beat YOLOs on real-time object detection[C]// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2024: 16965-16974. DOI: 10.1109/CVPR52733.2024.01605.
[15] 姜红花, 杨祥海, 丁睿柔, 等. 基于改进ResNet18的苹果叶部病害多分类算法研究[J]. 农业机械学报, 2023, 54(4): 295-303. DOI: 10.6041/j.issn.1000-1298.2023.04.030.
[16] NGIAM J, CAINE B, HANW, et al. StarNet: targeted computation for object detection in point clouds[EB/OL]. (2019-12-02)[2025-07-11]. https://arxiv.org/abs/1908.11069. DOI: 10.48550/arXiv.1908.11069.
[17] LIU W, CHEN C F, WONG K Y K, et al. STAR-Net: a spatial attention residue network for scene text recognition[C]// Proceedings of the British Machine Vision Conference (BMVC). York: British Machine Vision Association, 2016: 43. DOI: 10.5244/C.30.43.
[18] DAUBECHIES I, DEVORE R, FOUCART S, et al. Nonlinear approximation and (deep) ReLU networks[J]. Constructive Approximation, 2022, 55(1): 127-172. DOI: 10.1007/s00365-021-09548-z.
[19] 高日升. 基于深度学习的航拍图像小目标检测方法[J]. 通信与信息技术, 2024(6): 7-10, 28.
[20] 童金武, 王希, 邓明洋, 等. 缺陷检测中小样本问题的研究进展[J]. 桂林电子科技大学学报, 2026, 46(1): 10-19.
[21] 赵展鹏, 张凌云, 贾立斌, 等. 基于尺度增强金字塔的航拍图像检测方法研究[J]. 通信与信息技术, 2024(6): 91-94.
[22] ISLAM M T, HUDA N, ABDULLAH A B, et al. A comprehensive review of state-of-the-art concentrating solar power (CSP) technologies: current status and research trends[J]. Renewable and Sustainable Energy Reviews, 2018, 91: 987-1018. DOI: 10.1016/j.rser.2018.04.097.
[23] CUI Y N, REN W Q, KNOLL A. Omni-Kernel modulation for universal image restoration[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2024, 34(12): 12496-12509. DOI: 10.1109/TCSVT.2024.3429557.
[24] YANG Z M, WU Q L, ZHANG F, et al. A new semantic segmentation method for remote sensing images integrating coordinate attention and SPD-Conv[J]. Symmetry, 2023, 15(5): 1037. DOI: 10.3390/SYM15051037.
[25] 梁胤杰, 南新元, 蔡鑫, 等. 基于数据增广与改进YOLOv8的桥梁缺陷检测[J]. 广西师范大学学报(自然科学版), 2025, 43(3): 84-97. DOI: 10.16088/j.issn.1001-6600.2024071003.
[26] 郭翔羽, 石天怡, 陈燕楠, 等. 基于YOLO-CDBW模型的列车接触网异物检测研究[J]. 广西师范大学学报(自然科学版), 2025, 43(2): 56-69. DOI: 10.16088/j.issn.1001-6600.2024040102.
[27] WOLTER M, GARCKE J. Adaptive wavelet pooling for convolutional neural networks[C]// Proceedings of The 24th International Conference on Artificial Intelligence and Statistics: PMLR 130. Cambridge, MA: JMLR, 2021: 1936-1944.
[28] ZHANG X, SONG Y Z, SONG T T, et al. LDConv: linear deformable convolution for improving convolutional neural networks[J]. Image and Vision Computing, 2024, 149: 105190. DOI: 10.1016/J.IMAVIS.2024.105190.
[29] ZHANG H, ZHANG S J. Focaler-IoU: more focused intersection over union loss[EB/OL]. (2024-01-19)[2025-07-11]. https://arxiv.org/abs/2401.10525. DOI: 10.48550/arXiv.2401.10525.
[30] MA S L, XU Y. MPDIoU: a loss for efficient and accurate bounding box regression[EB/OL]. (2023-07-14)[2025-07-11]. https://arxiv.org/abs/2307.07662. DOI: 10.48550/arXiv.2307.07662.
[31] LIU M Y, CHEN Y P, XIE J M, et al. LF-YOLO: a lighter and faster YOLO for weld defect detection of X-ray image[J]. IEEE Sensors Journal, 2023, 23(7): 7430-7439. DOI: 10.1109/JSEN.2023.3247006.
[32] SU Q Y, CHOU Y H, HU Y F, et al. Deep directly-trained spiking neural networks for object detection[C]// 2023 IEEE/CVF International Conference on Computer Vision (ICCV). Los Alamitos, CA: IEEE Computer Society, 2023: 6532-6542. DOI: 10.1109/ICCV51070.2023.00603.
[1] 杨云波, 南新元, 蔡鑫. 基于改进YOLO11n的光伏板缺陷检测方法[J]. 广西师范大学学报(自然科学版), 2026, 44(3): 47-59.
[2] 钱俊磊, 王熹之, 曾凯, 杜学强, 刘贺, 朱立光. 基于MHTD-YOLO11n的钢材表面缺陷检测算法[J]. 广西师范大学学报(自然科学版), 2026, 44(3): 60-74.
[3] 田晟, 冯帅涛, 李嘉. 一种基于复合框架的城市道路场景车辆轨迹提取方法[J]. 广西师范大学学报(自然科学版), 2026, 44(2): 31-51.
[4] 吕辉, 司可. 基于改进RT-DETR的光伏板缺陷检测[J]. 广西师范大学学报(自然科学版), 2026, 44(2): 52-64.
[5] 田晟, 赵凯龙, 苗佳霖. 基于改进YOLO11n模型的自动驾驶道路交通检测算法研究[J]. 广西师范大学学报(自然科学版), 2026, 44(1): 1-9.
[6] 黄文杰, 罗维平, 陈镇南, 彭志祥, 丁梓豪. 基于YOLO11的轻量化PCB缺陷检测算法研究[J]. 广西师范大学学报(自然科学版), 2026, 44(1): 56-67.
[7] 魏梓书, 陈志刚, 王衍学, 哈斯铁尔·马德提汗. 基于SBSI-YOLO11的轻量化轴承外观缺陷检测算法[J]. 广西师范大学学报(自然科学版), 2025, 43(6): 80-91.
[8] 刘廷汉, 梁艳, 黄鹏升, 闭金杰, 黄守麟, 李廷会. 基于改进YOLOv8s的人脸痤疮小目标检测[J]. 广西师范大学学报(自然科学版), 2025, 43(5): 114-129.
[9] 汤亮, 陈博文, 牛一森, 马荣庚. 基于YOLOv8的雾天车辆行人实时检测方法[J]. 广西师范大学学报(自然科学版), 2025, 43(3): 72-83.
[10] 郭翔羽, 石天怡, 陈燕楠, 南新元, 蔡鑫. 基于YOLO-CDBW模型的列车接触网异物检测研究[J]. 广西师范大学学报(自然科学版), 2025, 43(2): 56-69.
[11] 刘玉娜, 马双宝. 基于改进YOLOv8n的轻量化织物疵点检测算法[J]. 广西师范大学学报(自然科学版), 2025, 43(2): 83-94.
[12] 戴林华, 黎远松, 石睿, 何忠良, 李雷. HSED-YOLO:一种轻量化的带钢表面缺陷检测模型[J]. 广西师范大学学报(自然科学版), 2025, 43(2): 95-106.
[13] 于雪松, 徐宝. 加权p、q对称损失函数下Burr分布参数的Bayes估计[J]. 广西师范大学学报(自然科学版), 2024, 42(6): 186-193.
[14] 涂智荣, 凌海英, 李帼, 陆声链, 钱婷婷, 陈明. 基于改进YOLOv7-Tiny的轻量化百香果检测方法[J]. 广西师范大学学报(自然科学版), 2024, 42(5): 79-90.
[15] 吕辉, 吕卫峰. 基于改进YOLOv5的眼底出血点检测算法[J]. 广西师范大学学报(自然科学版), 2024, 42(3): 99-107.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 孟春梅, 陆世银, 梁永红, 莫肖敏, 李卫东, 黄远洁, 成晓静, 苏志恒, 郑华. 岩黄连总碱诱导肝星状细胞凋亡和自噬的电镜实验研究[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 76 -79 .
[2] 李钰慧, 陈泽柠, 黄中豪, 周岐海. 广西弄岗熊猴的雨季活动时间分配[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 80 -86 .
[3] 庄枫红, 马姜明, 张雅君, 苏静, 于方明. 中华水韭对不同光照条件的生理生态响应[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 93 -100 .
[4] 韦宏金, 周喜乐, 金冬梅, 严岳鸿. 湖南蕨类植物增补[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 101 -106 .
[5] 包金萍, 郑连斌, 宇克莉, 宋雪, 田金源, 董文静. 大凉山彝族成人皮褶厚度特征[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 107 -112 .
[6] 林永生, 裴建国, 邹胜章, 杜毓超, 卢丽. 清江下游红层岩溶及其水化学特征[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 113 -120 .
[7] 张茹, 张蓓, 任鸿瑞. 山西轩岗矿区耕地流失时空特征及其影响因子研究[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 121 -132 .
[8] 李贤江, 石淑芹, 蔡为民, 曹玉青. 基于CA-Markov模型的天津滨海新区土地利用变化模拟[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 133 -143 .
[9] 王梦飞, 黄松. 广西西江经济带的城市旅游经济空间关联研究[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 144 -150 .
[10] 刘国伦, 宋树祥, 岑明灿, 李桂琴, 谢丽娜. 带宽可调带阻滤波器的设计[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 1 -8 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发