2025年04月13日 星期日

广西师范大学学报(自然科学版) ›› 2024, Vol. 42 ›› Issue (6): 138-148.doi: 10.16088/j.issn.1001-6600.2023112501

• “污水处理”专栏 • 上一篇    下一篇

基于多尺度注意力的器官图像分割方法

卢家辉1, 陈庆锋1*, 王文广2, 余谦1, 何乃旭1, 韩宗钊1   

  1. 1.广西大学 计算机与电子信息学院, 广西 南宁 530004;
    2.广西壮族自治区烟草公司桂林市公司, 广西 桂林 541004
  • 收稿日期:2023-11-25 修回日期:2024-04-07 出版日期:2024-12-30 发布日期:2024-12-30
  • 通讯作者: 陈庆锋(1972—), 男, 广西鹿寨人, 广西大学教授, 博士。E-mail: 20090016@gxu.edu.cn
  • 基金资助:
    国家自然科学基金(61963004)

Multi-scale Attention Learning for Abdomen Multi-organ Image Segmentation

LU Jiahui1, CHEN Qingfeng1*, WANG Wenguang2, YU Qian1, HE Naixu1, HAN Zongzhao1   

  1. 1. School of Computer, Electronics and Information, Guangxi University, Nanning Guangxi 530004, China;
    2. Guilin Branch of Guangxi Zhuang Autonomous Region Tobacco Company, Guilin Guangxi 541004, China
  • Received:2023-11-25 Revised:2024-04-07 Online:2024-12-30 Published:2024-12-30

摘要: 图像分割技术是医学图像研究领域的重要分支,该技术有助于医生对癌症的诊断和治疗。为进一步提高图像分割的精确度,本文提出一种多尺度轴向注意力模型MAU-Net(multi-scale axial attention U-Net)用于器官图像分割。首先,该模型在编码器阶段采用深度残差网络来提取图像特征,提高模型泛化能力;其次,使用像素块融合模块(pixels fuse module, PFM)对编码器的特征信息进行再编码和线性增强,增强特征的位置信息提取能力;最后,在解码器间加入多分支轴向注意力模块(multi-branch axial attention module, MAM)来捕捉上下文信息,从而增强模型识别关键特征信息能力。在Synapse、ACDC、SegTHOR等多个多器官图像数据集上的实验结果表明, MAU-Net在器官识别和边缘预测方面均能实现更好的效果。

关键词: 图像分割, 器官分割, 注意力机制, 胸腹部器官, 深度学习

Abstract: Image segmentation technology is an important branch in the field of medical image research, and this technology helps doctors diagnose and treat cancer. In order to further improve the accuracy of image segmentation, a multi-scale axial attention model MAU-Net (multi-scale axial attention U-Net) is proposed in this paper for organ segmentation. Firstly, the model uses a deep residual network to extract image features in the encoder stage to improve the model’s generalization ability. Secondly, a pixel fusion module (PFM) is added to the decoder to enhance the ability to extract feature position information by re-encoding and linearly enhancing the feature information of the encoder. Finally, a multi-branch axial attention module (MAM) is added between the decoders to capture contextual information and enhance the ability to identify key feature information. Experimental results on multiple multi-organ image data sets such as Synapse, ACDC, and SegTHOR show that MAU-Net can achieve better results in both organ recognition and edge prediction.

Key words: image segmentation, organ segmentation, attention mechanism, thoracic and abdominal organs, deep learning

中图分类号:  TP391.41

[1] 郭雯, 鞠忠建, 吴青南, 等. 基于深度学习的器官自动分割研究进展[J]. 医疗卫生装备, 2020, 41(1): 85-94. DOI: 10.19745/j.1003-8868.2020021.
[2] 施俊, 汪琳琳, 王珊珊, 等. 深度学习在医学影像中的应用综述[J]. 中国图象图形学报, 2020, 25(10): 1953-1981. DOI: 10.11834/jig.200255.
[3] 李欣, 梁森, 黄正南, 等. 乳腺X线AI智能病灶检测[J]. 放射学实践, 2018, 33(10): 1029-1032. DOI: 10.13609/j.cnki.1000-0313.2018.10.010.
[4] KRIZHEVSKY A, SUTSKEVER I, HINTONG E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. DOI: 10.1145/3065386.
[5] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-04-10)[2023-11-25]. https://arxiv.org/abs/1409.1556. DOI: 10.48550/arXiv.1409.1556.
[6] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C] // 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2016: 770-778. DOI: 10.1109/cvpr.2016.90.
[7] SHELHAMER E,LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651. DOI: 10.1109/TPAMI.2016.2572683.
[8] RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation[C] // Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015: LNCS Volume 9351. Cham: Springer International Publishing Switzerland, 2015: 234-241. DOI: 10.1007/978-3-319-24574-4_28.
[9] ZHANG J W, ZHANG Y C, JIN Y Z, et al. MDU-Net: multi-scale densely connected U-Net for biomedical image segmentation[J]. Health Information Science and Systems, 2023, 11(1): 13. DOI: 10.1007/s13755-022-00204-9.
[10] ALOM M Z, HASAN M, YAKOPCIC C, et al. Recurrent residual convolutional neural network based on U-Net (R2U-Net) for medical image segmentation[EB/OL]. (2018-05-29)[2023-11-25]. https://arxiv.org/abs/1802.06955. DOI: 10.48550/arXiv.1802.06955.
[11] 彭璟, 罗浩宇, 赵淦森, 等. 深度学习下的医学影像分割算法综述[J]. 计算机工程与应用, 2021, 57(3): 44-57. DOI: 10.3778/j.issn.1002-8331.2010-0335.
[12] 曹玉红, 徐海, 刘荪傲, 等. 基于深度学习的医学影像分割研究综述[J]. 计算机应用, 2021, 41(8): 2273-2287. DOI: 10.11772/j.issn.1001-9081.2020101638.
[13] 周涛, 董雅丽, 霍兵强, 等. U-Net网络医学图像分割应用综述[J]. 中国图象图形学报, 2021, 26(9): 2058-2077. DOI: 10.11834/jig.200704.
[14] CHEN W L, ZHANG Y, HE J J, et al. Prostate segmentation using 2D bridged U-net[C] // 2019 International Joint Conference on Neural Networks (IJCNN). Piscataway, NJ: IEEE, 2019: 1-7. DOI: 10.1109/ijcnn.2019.8851908.
[15] 吴玲玉, 蓝洋, 夏海英. 基于卷积神经网络的眼底图像配准研究[J]. 广西师范大学学报(自然科学版), 2021, 39(5): 122-133. DOI: 10.16088/j.issn.1001-6600.2020122801.
[16] FU H Z, CHENG J, XU Y W, et al. Joint optic disc and cup segmentation based on multi-label deep network and polar transformation[J]. IEEE Transactions on Medical Imaging, 2018, 37(7): 1597-1605. DOI: 10.1109/tmi.2018.2791488.
[17] MILLETARI F, NAVAB N, AHMADI S A. V-Net: fully convolutional neural networks for volumetric medical image segmentation[C] // 2016 Fourth International Conference on 3D Vision (3DV). Los Alamitos, CA: IEEE Computer Society, 2016: 565-571. DOI: 10.1109/3dv.2016.79.
[18] ZHOU Z W, RAHMAN SIDDIQUEE M M, TAJBAKHSH N, et al. UNet++: a nested U-Net architecture for medical image segmentation[C] // Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support: LNCS Volume 11045. Cham: Springer, 2018: 3-11. DOI: 10.1007/978-3-030-00889-5_1.
[19] OKTAY O, SCHLEMPER J, FOLGOC L L, et al. Attention U-Net: learning where to look for the pancreas[EB/OL]. (2018-05-20)[2023-11-25]. https://arxiv.org/abs/1804.03999. DOI:10.48550/arXiv.1804.03999.
[20] 万黎明, 张小乾, 刘知贵, 等. 基于高效通道注意力的UNet肺结节CT图像分割[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 66-75. DOI: 10.16088/j.issn.1001-6600.2021071202.
[21] 彭宝玉, 曹立佳. 多尺度融合注意力机制改进U-Net实现肺部感染区域分割[J]. 国外电子测量技术, 2023, 42(10): 177-183. DOI: 10.19652/j.cnki.femt.2305144.
[22] 谢飞, 权媚阳, 管子玉, 等. 基于深度学习的腹部多器官图像分割[J]. 西北大学学报(自然科学版), 2021, 51(1): 1-7. DOI: 10.16152/j.cnki.xdxbzr.2021-01-001.
[23] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C] // Advances in Neural Information Processing Systems 30 (NIPS 2017). Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[24] DOSOVITSKIY A, BEYER L, KOLESNIKOVA, et al. An image is worth 16x16 words: transformers for image recognition at scale[EB/OL]. (2021-06-03)[2023-11-25]. https://arxiv.org/abs/2010.11929. DOI: 10.48550/arXiv.2010.11929.
[25] CHEN J N, LU Y Y, YU Q H, et al. TransUNet: transformers make strong encoders for medical image segmentation[EB/OL]. (2021-02-08)[2023-11-25]. https://arxiv.org/abs/2102.04306. DOI: 10.48550/arXiv.2102.04306.
[26] XIE E Z, WANG W H, YU Z D, et al. SegFormer: simple and efficient design for semantic segmentation with transformers[C] // Advances in Neural Information Processing Systems 34 (NeurIPS 2021). Red Hook, NY: Curran Associates Inc., 2021: 12077-12090.
[27] HUANG X H, DENG Z F, LI D D, et al. MISSFormer: an effective medical image segmentation transformer[EB/OL]. (2021-12-19)[2023-11-25]. https://arxiv.org/abs/2109.07162. DOI: 10.48550/arXiv.2109.07162.
[28] CAO H, WANG Y Y, CHEN J, et al. Swin-Unet: Unet-like pure transformer for medical image segmentation[C] // Computer Vision-ECCV 2022 Workshops: LNCS Volume 13803. Cham: Springer Nature Switzerland AG, 2023: 205-218. DOI: 10.1007/978-3-031-25066-8_9.
[29] WANG H Y, XIE S A, LIN L F, et al. Mixed transformer U-Net for medical image segmentation[C] // ICASSP 2022: 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2022: 2390-2394. DOI: 10.1109/icassp43922.2022.9746172.
[30] 李鸿, 邹俊颖, 谭茜成, 等. 面向医学图像分割的多注意力融合网络[J]. 计算机应用, 2022, 42(12): 3891-3899. DOI: 10.11772/j.issn.1001-9081.2021101737.
[31] 卢玲, 漆为民. 基于Transformer的脊椎CT图像分割[J]. 中国图象图形学报, 2023, 28(11): 3618-3628. DOI: 10.11834/jig.221084.
[32] Sage Bionetworks. Multi-atlas labeling beyond the cranial vault: workshop and challenge[EB/OL]. (2016-09-16)[2023-11-25]. https://www.synapse.org/Synapse:syn3193805/wiki/89480. DOI: 10.7303/syn3193805.
[33] BERNARD O, LALANDE A, ZOTTI C, et al. Deep learning techniques for automatic MRI cardiac multi-structures segmentation and diagnosis: is the problem solved?[J]. IEEE Transactions on Medical Imaging, 2018, 37(11): 2514-2525. DOI: 10.1109/TMI.2018.2837502.
[34] LAMBERT Z, PETITJEAN C, DUBRAY B, et al. SegTHOR: segmentation of thoracic organs at risk in CT images[C] // 2020 Tenth International Conference on Image Processing Theory, Tools and Applications (IPTA). Piscataway, NJ: IEEE, 2020: 1-6. DOI: 10.1109/IPTA50016.2020.9286453.
[35] JI Y F, BAI H T, GE C J, et al. AMOS: a large-scale abdominal multi-organ benchmark for versatile medical image segmentation[C] // Advances in Neural Information Processing Systems 35 (NeurIPS 2022). Red Hook, NY: Curran Associates Inc., 2022: 36722-36732.
[36] HENDRYCKS D, GIMPEL K. Gaussian error linear units (GELUs)[EB/OL]. (2023-06-06)[2023-11-25]. https:// arxiv.org/abs/1606.08415. DOI: 10.48550/arXiv.1606.08415.
[37] ZHAO X Y, ZHANG P, SONG F, et al. Prior attention network for multi-lesion segmentation in medical images[J]. IEEE Transactions on Medical Imaging, 2022, 41(12): 3812-3823. DOI: 10.1109/tmi.2022.3197180.
[38] 李夏, 胡巍, 王子民. 基于Non-local的腰椎间盘突出患者多裂肌分割方法[J].桂林电子科技大学学报,2023,43(3): 217-222. DOI: 10.16725/j.cnki.cn45-1351/tn.2023.03.008.
[1] 李欣, 宁静. 基于时空特征融合的电力系统暂态稳定评估[J]. 广西师范大学学报(自然科学版), 2024, 42(6): 89-100.
[2] 侯海燕, 谭玉枚, 宋树祥, 夏海英. 头部姿态鲁棒的面部表情识别[J]. 广西师范大学学报(自然科学版), 2024, 42(6): 126-137.
[3] 杜帅文, 靳婷. 基于用户行为特征的深度混合推荐算法[J]. 广西师范大学学报(自然科学版), 2024, 42(5): 91-100.
[4] 田晟, 胡啸. 基于Transformer模型的车辆轨迹预测[J]. 广西师范大学学报(自然科学版), 2024, 42(3): 47-58.
[5] 易见兵, 彭鑫, 曹锋, 李俊, 谢唯嘉. 多尺度特征融合的点云配准算法研究[J]. 广西师范大学学报(自然科学版), 2024, 42(3): 108-120.
[6] 王天雨, 袁嘉伟, 齐芮, 李洋. 多类型知识增强的微博立场检测模型[J]. 广西师范大学学报(自然科学版), 2024, 42(1): 79-90.
[7] 肖宇庭, 吕晓琪, 谷宇, 刘传强. 基于拆分残差网络的糖尿病视网膜病变分类[J]. 广西师范大学学报(自然科学版), 2024, 42(1): 91-101.
[8] 席凌飞, 伊力哈木·亚尔买买提, 刘雅洁. 基于改进YOLOv5的铝型材表面缺陷检测方法[J]. 广西师范大学学报(自然科学版), 2024, 42(1): 111-119.
[9] 高飞, 郭晓斌, 袁冬芳, 曹富军. 改进PINNs方法求解边界层对流占优扩散方程[J]. 广西师范大学学报(自然科学版), 2023, 41(6): 33-50.
[10] 宋冠武, 陈知明, 李建军. 基于ResNet-50的级联注意力遥感图像分类[J]. 广西师范大学学报(自然科学版), 2023, 41(6): 80-91.
[11] 郭嘉梁, 靳婷. 基于语义增强的多模态情感分析[J]. 广西师范大学学报(自然科学版), 2023, 41(5): 14-25.
[12] 吴正清, 曹晖, 刘宝锴. 基于注意力卷积神经网络的中文虚假评论检测[J]. 广西师范大学学报(自然科学版), 2023, 41(5): 26-36.
[13] 蒋懿波, 刘会家, 吴田. 基于改进残差网络的输电线路雷击过电压识别研究[J]. 广西师范大学学报(自然科学版), 2023, 41(4): 74-83.
[14] 唐侯清, 辛斌斌, 朱虹谕, 乙加伟, 张冬冬, 武新章, 双丰. 基于多尺度注意力倒残差网络的轴承故障诊断[J]. 广西师范大学学报(自然科学版), 2023, 41(4): 109-122.
[15] 黄叶祺, 王明伟, 闫瑞, 雷涛. 基于改进的YOLOv5金刚石线表面质量检测[J]. 广西师范大学学报(自然科学版), 2023, 41(4): 123-134.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 朱格格, 黄安书, 覃盈盈. 基于Web of Science的国际红树林研究发展态势分析[J]. 广西师范大学学报(自然科学版), 2024, 42(5): 1 -12 .
[2] 何静, 冯元柳, 邵靖雯. 基于CiteSpace的多源数据融合研究进展[J]. 广西师范大学学报(自然科学版), 2024, 42(5): 13 -27 .
[3] 王淑颖, 卢宇翔, 董淑彤, 陈默, 康秉娅, 蒋长兰, 宿程远. 污水中抗生素抗性基因传播过程及控制技术研究进展[J]. 广西师范大学学报(自然科学版), 2024, 42(6): 1 -15 .
[4] 钟俏, 陈生龙, 唐聪聪. 水凝胶技术在微藻采收中的应用:现状、挑战与发展分析[J]. 广西师范大学学报(自然科学版), 2024, 42(6): 16 -29 .
[5] 翟思琪, 蔡文君, 朱苏, 李韩龙, 宋海亮, 杨小丽, 杨玉立. 汲取液溶质反向扩散与正渗透中膜污染的相互关系研究[J]. 广西师范大学学报(自然科学版), 2024, 42(6): 30 -39 .
[6] 郑国权, 秦永丽, 汪晨祥, 葛仕佳, 闻倩敏, 蒋永荣. ABR硫酸盐还原体系分级沉淀酸性矿山废水中重金属及矿物形成[J]. 广西师范大学学报(自然科学版), 2024, 42(6): 40 -52 .
[7] 刘洋, 张毅杰, 章延, 李玲, 孔祥铭, 李红. 饮用水处理中藻类混凝消除技术的现状与趋势——基于CiteSpace的可视化分析[J]. 广西师范大学学报(自然科学版), 2024, 42(6): 53 -66 .
[8] 田晟, 陈东. 基于深度强化学习的网联燃料电池混合动力汽车生态驾驶联合优化方法[J]. 广西师范大学学报(自然科学版), 2024, 42(6): 67 -80 .
[9] 陈秀锋, 王成鑫, 赵凤阳, 杨凯, 谷可鑫. 改进DQN算法的单点交叉口信号控制方法[J]. 广西师范大学学报(自然科学版), 2024, 42(6): 81 -88 .
[10] 李欣, 宁静. 基于时空特征融合的电力系统暂态稳定评估[J]. 广西师范大学学报(自然科学版), 2024, 42(6): 89 -100 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发