广西师范大学学报(自然科学版) ›› 2024, Vol. 42 ›› Issue (2): 84-93.doi: 10.16088/j.issn.1001-6600.2023052701

• • 上一篇    下一篇

基于跨模态交叉注意力网络的多模态情感分析方法

王旭阳1*, 王常瑞1, 张金峰1, 邢梦怡2   

  1. 1.兰州理工大学 计算机与通信学院, 甘肃 兰州 730050;
    2.兰州理工大学 机电工程学院, 甘肃 兰州 730050
  • 收稿日期:2023-05-27 修回日期:2023-08-22 发布日期:2024-04-22
  • 通讯作者: 王旭阳(1974—), 女, 甘肃兰州人, 兰州理工大学教授。 E-mail: wangxy56@126.com
  • 基金资助:
    国家自然科学基金(62161019)

Multimodal Sentiment Analysis Based on Cross-Modal Cross-Attention Network

WANG Xuyang1*, WANG Changrui1, ZHANG Jinfeng1, XING Mengyi2   

  1. 1. School of Computer and Communication, Lanzhou University of Technology, Lanzhou Gansu 730050, China;
    2. School of Mechanical and Electrical Engineering, Lanzhou University of Technology, Lanzhou Gansu 730050, China
  • Received:2023-05-27 Revised:2023-08-22 Published:2024-04-22

摘要: 挖掘不同模态内信息和模态间信息有助于提升多模态情感分析的性能,本文为此提出一种基于跨模态交叉注意力网络的多模态情感分析方法。首先,利用VGG-16网络将多模态数据映射到全局特征空间;同时,利用Swin Transformer网络将多模态数据映射到局部特征空间;其次,构造模态内自注意力和模态间交叉注意力特征;然后,设计一种跨模态交叉注意力融合模块实现不同模态内和模态间特征的深度融合,提升多模态特征表达的可靠性;最后,通过Softmax获得最终预测结果。在2个开源数据集CMU-MOSI和CMU-MSOEI上进行测试,本文模型在七分类任务上获得45.9%和54.1%的准确率,相比当前MCGMF模型,提升了0.66%和2.46%,综合性能提升显著。

关键词: 情感分析, 多模态, 跨模态交叉注意力, 自注意力, 局部和全局特征

Abstract: Exploiting intra-modal and inter-modal information is helpful for improving the performance of multimodal sen-timent analysis. So, a multimodal sentiment analysis based on cross-modal cross-attention network is proposed. Firstly, VGG-16 network is utilized to map the multimodal data into the global feature space. Simultaneously, the Swin Transformer network is used to map the multimodal data into the local feature space. And the intra-modal self-attention and inter-modal cross-attention features are constructed. Then, a cross-modal cross-attention fusion module is designed to achieve the deep fusion of the intra-modal and inter-modal features, enhancing the represen-tation reliability of the multimodal feature. Finally, the softmax function is used to obtain the results of the sentiment analysis. The experimental results on two open source datasets CMU-MOSI and CMU-MSOEI show that the proposed model can achieve an accuracy of 45.9% and 54.1% respectively in the seven-classification task. Compared with the current classical MCGMF model, the accuracy of the proposed model has improved by 0.66% and 2.46%, and the overall performance improvement is significant.

Key words: sentiment analysis, multimodal, cross-modal cross-attention, self-attention, global and local feature

中图分类号:  TP391.41

[1] YANG B, WU L J, ZHU J H, et al. Multimodal sentiment analysis with two-phase multi-task learning[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2022, 30: 2015-2024. DOI: 10.1109/TASLP.2022.3178204.
[2] 王旭阳, 董帅, 石杰. 复合层次融合的多模态情感分析[J]. 计算机科学与探索, 2023, 17(1): 198-208. DOI: 10.3778/j.issn.1673-9418.2111004.
[3] 刘继明, 张培翔, 刘颖, 等. 多模态的情感分析技术综述[J]. 计算机科学与探索, 2021, 15(7): 1165-1182. DOI: 10.3778/j.issn.1673-9418.2012075.
[4] YANG B, SHAO B, WU L J, et al. Multimodal sentiment analysis with unidirectional modality translation[J]. Neurocomputing, 2022, 467: 130-137. DOI: 10.1016/j.neucom.2021.09.041.
[5] 沈剑平, 王轩, 于成龙, 等. 基于语义理解的Bayesian-Boosting情感分类[J]. 广西师范大学学报(自然科学版), 2010, 28(1): 161-164. DOI: 10.16088/j.issn.1001-6600.2010.01.020.
[6] 张峰, 李希城, 董春茹, 等. 基于深度情感唤醒网络的多模态情感分析与情绪识别[J]. 控制与决策, 2022, 37(11): 2984-2992. DOI: 10.13195/j.kzyjc.2021.0782.
[7] YAN X M, XUE H W, JIANG S Y, et al. Multimodal sentiment analysis using multi-tensor fusion network with cross-modal modeling[J]. Applied Artificial Intelligence, 2022, 36(1): 2000688. DOI: 10.1080/08839514.2021.2000688.
[8] 包广斌, 李港乐, 王国雄. 面向多模态情感分析的双模态交互注意力[J]. 计算机科学与探索, 2022, 16(4): 909-916. DOI: 10.3778/j.issn.1673-9418.2105071.
[9] LIU D, CHEN L X, WANG L F, et al. A multi-modal emotion fusion classification method combined expression and speech based on attention mechanism[J]. Multimedia Tools and Applications, 2022, 81(29): 41677-41695. DOI: 10.1007/s11042-021-11260-w.
[10] 缪裕青, 杨爽, 刘同来, 等. 基于跨模态门控机制和改进融合方法的多模态情感分析[J]. 计算机应用研究, 2023, 40(7): 2025-2030, 2038. DOI: 10.19734/j.issn.1001-3695.2022.12.0766.
[11] 李丽, 李平. 基于交互图神经网络的方面级多模态情感分析[J]. 计算机应用研究, 2023, 40(12): 3683-3689. DOI: 10.19734/j.issn.1001-3695.2022.10.0532.
[12] 李文雪, 甘臣权. 基于注意力机制的分层次交互融合多模态情感分析[J]. 重庆邮电大学学报(自然科学版), 2023, 35(1): 176-184. DOI: 10.3979/j.issn.1673-825X.202106300229.
[13] 王靖豪, 刘箴, 刘婷婷, 等. 基于多层次特征融合注意力网络的多模态情感分析[J]. 中文信息学报, 2022, 36(10): 145-154. DOI: 10.3969/j.issn.1003-0077.2022.10.016.
[14] ZHANG F, LI X C, LIM C P, et al. Deep emotional arousal networkfor multimodal sentiment analysis and emotion recognition[J]. Information Fusion, 2022, 88: 296-304. DOI: 10.1016/j.inffus.2022.07.006.
[15] ZHU T, LI L D, YANG J F, et al. Multimodal sentiment analysis with image-text interaction network[J]. IEEE Transactions on Multimedia, 2022, 25: 3375-3385. DOI: 10.1109/TMM.2022.3160060.
[16] WANG D, GUO X T, TIAN Y M, et al. TETFN: a text enhanced transformer fusion network for multimodal sentiment analysis[J]. Pattern Recognition, 2023, 136: 109259. DOI: 10.1016/j.patcog.2022.109259.
[17] YANG X C, FENG S, WANG D L, et al. Image-text multimodal emotion classification via multi-view attentional network[J]. IEEE Transactions on Multimedia, 2021, 23: 4014-4026. DOI: 10.1109/TMM.2020.3035277.
[18] HAZARIKA D, ZIMMERMANN R, PORIA S. MISA: modality-invariantand-specific representations for multimodal sentiment analysis[C]// MM’20: Proceedings of the 28th ACM International Conference on Multimedia. New York, NY: Association for Computing Machinery, 2020: 1122-1131. DOI: 10.1145/3394171.3413678.
[19] TRUONG Q T, LAUW H W. VistaNet: visual aspect attention network for multimodal sentiment analysis[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33(1): 305-312. DOI: 10.1609/aaai.v33i01.3301305.
[20] WU Y, ZHANG Z Y, PENG P, et al. Leveraging multi-modal interactions among the intermediate representations of deep transformers for emotion recognition[C]// MuSe’22: Proceedings of the 3rd International on Multimodal Sentiment Analysis Workshop and Challenge. New York, NY: Association for Computing Machinery, 2022: 101-109. DOI: 10.1145/3551876.3554813.
[21] LIANG Y, TOHTI T, HAMDULLA A. Multimodal false information detection method basedon Text-CNN and SE module[J]. PLoS ONE, 2022, 17(11): e0277463. DOI: 10.1371/journal.pone.0277463.
[22] BHATTACHARJEE D, ZHANG T, SÜSSTRUNK S, et al. MuIT: an end-to-end multitask learning transformer[C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2022: 12021-12031. DOI: 10.1109/CVPR52688.2022.01172.
[23] 张昱, 张海军, 刘雅情, 等. 基于双向掩码注意力机制的多模态情感分析[J]. 数据分析与知识发现, 2023, 7(4): 46-55. DOI: 10.11925/infotech.2096-3467.2022.0151.
[24] 孙岩松, 杨亮, 林鸿飞. 基于多粒度的分词消歧和语义增强的情景剧幽默识别[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 57-65. DOI: 10.16088/j.issn.1001-6600.2021091505.
[25] SUN Z K, SARMA P, SETHARES W, et al. Learning relationships between text, audio, and video via deep canonical correlation for multimodal language analysis[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(5): 8992-8999. DOI: 10.1609/aaai.v34i05.6431.
[26] HAN W, CHEN H, GELBUKH A, et al. Bi-bimodal modality fusionfor correlation-controlled multimodal sentiment analysis[C]// ICMI’21: Proceedings of the 2021 International Conference on Multimodal Interaction. New York, NY: Association for Computing Machinery, 2021: 6-15. DOI: 10.1145/3462244.3479919.
[27] SUN H, WANG H Y, LIU J Q, et al. CubeMLP: an MLP-based model for multimodal sentiment analysis and depression estimation[C]// MM’22: Proceedings of the 30th ACM International Conference on Multimedia. New York, NY: Association for Computing Machinery, 2022: 3722-3729. DOI: 10.1145/3503161.3548025.
[1] 郭嘉梁, 靳婷. 基于语义增强的多模态情感分析[J]. 广西师范大学学报(自然科学版), 2023, 41(5): 14-25.
[2] 梁启花, 胡现韬, 钟必能, 于枫, 李先贤. 基于孪生网络的目标跟踪算法研究进展[J]. 广西师范大学学报(自然科学版), 2022, 40(5): 90-103.
[3] 杜锦丰, 王海荣, 梁焕, 王栋. 基于表示学习的跨模态检索方法研究进展[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 1-12.
[4] 晁睿, 张坤丽, 王佳佳, 胡斌, 张维聪, 韩英杰, 昝红英. 中文多模态知识库构建[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 31-39.
[5] 孙岩松, 杨亮, 林鸿飞. 基于多粒度的分词消歧和语义增强的情景剧幽默识别[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 57-65.
[6] 马新娜, 赵猛, 祁琳. 基于卷积脉冲神经网络的故障诊断方法研究[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 112-120.
[7] 薛其威, 伍锡如. 基于多模态特征融合的无人驾驶系统车辆检测[J]. 广西师范大学学报(自然科学版), 2022, 40(2): 37-48.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 袁静静, 郑宇钊, 徐晨枫, 殷婷婕. 非内吞依赖型生物大分子药物胞质递送策略研究进展[J]. 广西师范大学学报(自然科学版), 2024, 42(1): 1 -8 .
[2] 涂广升, 孔咏骏, 宋哲超, 叶康. 密文域可逆信息隐藏研究进展及技术难点分析[J]. 广西师范大学学报(自然科学版), 2024, 42(2): 1 -15 .
[3] 杨杨阳, 朱震霆, 杨翠萍, 李世豪, 张舒, 范秀磊, 万蕾. 基于文献计量学分析的剩余污泥厌氧消化预处理研究进展[J]. 广西师范大学学报(自然科学版), 2024, 42(2): 16 -29 .
[4] 许伦辉, 李金龙, 李若南, 陈俊宇. 基于动态生成对抗网络的路网缺失交通数据修复[J]. 广西师范大学学报(自然科学版), 2024, 42(2): 30 -40 .
[5] 杨海, 谢亚琴. 基于Floyd算法的5G基站区域储能分配策略[J]. 广西师范大学学报(自然科学版), 2024, 42(2): 41 -54 .
[6] 闫文文, 文中, 王爽, 李国祥, 王博宇, 吴艺. 基于AA-CAES电站和综合需求响应的供暖期弃风消纳策略[J]. 广西师范大学学报(自然科学版), 2024, 42(2): 55 -68 .
[7] 甘友春, 王灿, 贺旭辉, 张羽, 张雪菲, 王帆, 喻亚洲. 考虑光热电站和柔性负荷的电氢热综合能源系统联合优化运行[J]. 广西师范大学学报(自然科学版), 2024, 42(2): 69 -83 .
[8] 王卫舵, 王以松, 杨磊. 云资源调度的回答集程序描述性求解[J]. 广西师范大学学报(自然科学版), 2024, 42(2): 94 -104 .
[9] 余谦, 陈庆锋, 何乃旭, 韩宗钊, 卢家辉. 基于矩阵运算加速的改进社区发现遗传算法[J]. 广西师范大学学报(自然科学版), 2024, 42(2): 105 -119 .
[10] 龙芳, 蔡静, 朱艳. 逐步Ⅱ型混合截尾下Lomax分布多部件应力强度模型的可靠性分析[J]. 广西师范大学学报(自然科学版), 2024, 42(2): 120 -130 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发